Искусственный интеллект погрузится во вселенную молекул

Темной ночью, вдали от городского света, звезды Млечного Пути кажутся совсем несметными. Но невооруженному глазу из любой точки видно не более 4500 звезд. В нашей же галактике их сто-четыреста миллиардов, галактик во Вселенной еще больше. Так что получается, в ночном небе не так уж и много звезд. Но даже это число перед нами открывает глубокую подноготную… препаратов и лекарств. Дело в том, что число вероятных органических соединений с лекарственными способностями превышает число звезд во Вселенной более чем на тридцать порядков. И химические конфигурации, которые ученые создают из существующих медикаментов, сродни звездам, которые мы могли бы увидеть ночью в центре города.

Поиск всех вероятных лекарств — для человека непосильная задача, как и исследование всего физического пространства, и даже если бы мы могли, большая часть обнаруженного нашим целям не соответствовала бы. Тем не менее мысль о том, что среди изобилия могут скрываться чудесные лекарства, чересчур заманчива, чтоб игнорировать ее.
Именно поэтому нам следует использовать искусственный интеллект, который сможет больше работать и ускорить открытие. Так полагает Алекс Жаворонков, который выступил на прошлой неделе на Exponential Medicine в Сан-Диего. Это применение может оказаться крупнейшим для искусственного интеллекта в медицине.

Собаки, диагноз и лекарства

Алекс Жаворонков — CEO Insilico Medicine и CSO Biogerontology Research Foundation. Insilico — это один из множества стартапов, которые разрабатывают искусственный интеллект, способный ускорить открытие новых препаратов лекарств.

За последние годы, сообщил Жаворонков, известная техника машинного обучения — глубокое обучение — осуществила прогресс на нескольких фронтах. Алгоритмы, которые способны обучаться игре в видео игры — такие как Alpha Go Zero или покерист Carnegie Mellon — представляют самый большой предмет интереса. Но распознавание закономерностей — вот что дало сильный толчок глубокому обучению, когда алгоритмы машинного обучения наконец-то стали отличать собак от кошек и делать это довольно точно и быстро.
В медицине алгоритмы глубокого обучения, которые обучены по базам данных медицинских снимков, могут выявлять заболевания опасные для жизни с той же или большей точностью, чем специалисты-люди. Существует даже предположение, что искусственный интеллект, если мы научимся доверять ему, может оказаться бесценным при диагностике болезни. И как сказал Жаворонков, грядет еще больше приложений и послужной список будет постоянно расти.
«Tesla уже выводит на улицу автомобили», рассказывает Жаворонков. «Трех-, четырехлетняя технология уже перевозит пассажиров из пункта А в пункт Б на скорости двести километров час; одна ошибка — и ты мертвый. Но люди этой технологии доверяют свои жизни».
«Почему бы того же не делать в фармацевтике?».

Пробы и ошибки, снова и снова

В фармацевтических исследованиях искусственному интеллекту не придется управлять автомобилем. Он будет ассистентом, который в паре с химиком или двумя сумеет ускорить открытие препаратов, просматривая больше вариантов в поисках лучших кандидатов.

Пространство для оптимизации и повышения эффективности просто огромное, полагает Жаворонков.
Поиск препаратов является кропотливым и дорогостоящим занятием. Химики просеивают десятки тысяч вероятных соединений в поисках самых многообещающих. Из них только некоторые уходят на дальнейшее изучение, и еще меньше будут проходить испытания на людях, а из этих вообще крохи одобрят к дальнейшему использованию.
Весь этот процесс может занять очень много лет и стоить сотни миллионов долларов.
Это проблема касается больших данных (bigdata), а глубокое обучение преуспевает в работе с большими данными. Первые приложения продемонстрировали, что системы искусственного интеллекта на основе глубокого обучения способны находить едва заметные закономерности в огромных выборках данных. Хотя производители лекарств уже пользуются программным обеспечением для просеивания соединений, такое программное обеспечение требует четких правил, написанных химиками. Плюсы искусственного интеллекта в данном деле — его способность учиться и совершенствоваться самостоятельно.
«Существует две стратегии инноваций на базе искусственного интеллекта в фармацевтике, которые обеспечат вас лучшими молекулами и быстрым одобрением», говорит Жаворонков. «Один ищет иглу в стоге сена, а другой создает новую иглу».
Чтобы найти иголку в стоге сена, алгоритмы обучаются на больших базах данных молекул. Затем они ищут молекулы с подходящими свойствами. Но создать новую иглу? Эту возможность предоставляют генеративные состязательные сети, на которых специализируется Жаворонков.
Подобные алгоритмы ставят друг против друга две нейронные сети. Одна генерирует осмысленный результат, а другая определяет, является ли этот результат истинным или ложным, сообщает Жаворонков. В совокупности эти сети генерируют новые объекты, такие как текст, изображения или, в данном случае, молекулярные структуры.
«Мы стали использовать эту конкретную технологию для того, чтобы глубокие нейронные сети вообразили новые молекулы, чтобы сделать ее с самого начала идеальной. Нам требуются идеальные иглы», рассказывает Жаворонков. «Вы можете обратиться к этой генеративной состязательной сети и попросить ее создать молекулы, которые ингибируют белок Х в концентрации Y, с наивысшей жизнеспособностью, заданными характеристиками и минимальными побочными эффектами».
Жаворонков считает, что искусственный интеллект способен найти или изготовить больше иголок из множества молекулярных возможностей, освободить химиков-людей, чтобы они могли сосредоточить свое внимание на синтезе только самых перспективных. Если это сработает, как он надеется, мы сможем увеличить количество попаданий, минимизировав промахи, и в целом ускорить процесс.

Дело в шляпе

Insilico не единственная компания, которая занимается поиском новых путей к созданию лекарств, и это не новая область интересов.

В прошлом году гарвардская группа опубликовала работу на тему искусственного интеллекта, который подбирает аналогичным образом кандидатуры из лекарств. Программное обеспечение обучилось на 250 000 лекарственных молекулах и пользовалось своим опытом для создания новых молекул, которые смешивали существующие препараты и делали предложения на основе желаемых свойств. Но, как отмечал MIT Technology Review, полученные результаты не всегда значимы или легко синтезируются в лаборатории, и качество этих результатов, как всегда, высоко настолько, насколько качественные предоставленные изначально данные.
Стэнфордский профессор Химии Виджай Панде рассказывает, что у изображений, речи и текста — которые на данный момент являются предметами интереса глубокого обучения — хорошие и чистые данные. Но химические данные, с другой стороны, по-прежнему оптимизируются для глубокого обучения. Кроме того, хотя публичные базы данных существуют, большая часть данных все еще живет за закрытой дверью частных компаний.
Чтобы преодолеть все препятствия, компания Жаворонкова сосредоточена на проверке технологии. Но в этом году скептицизм в фармацевтической отрасли, похоже, сменяется интересом и инвестициями. Даже Google может ворваться в гонку.
По мере того, как развиваются искусственный интеллект и аппаратное обеспечение, наибольший потенциал еще должен быть раскрыт. Вероятно, однажды, все 1060 молекул в области препаратов окажутся в нашем распоряжении.