Молекулярный мир как на ладони: искусственный интеллект оживляет динамику молекул в видеоформате

Моделирование молекулярной динамики играет ключевую роль в разработке лекарств и изучении белков, однако традиционные методы, основанные на законах физики, требуют колоссальных вычислительных ресурсов. Для точного воспроизведения движения молекул необходимы миллиарды временных шагов, что делает процесс крайне медленным и затратным, даже при использовании суперкомпьютеров.
Молекулярный мир как на ладони: искусственный интеллект оживляет динамику молекул в видеоформате
Изображение носит иллюстративный характер

Революционный прорыв в этой области совершили исследователи из Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) и математического факультета Массачусетского технологического института (MIT). Они разработали MDGen – инновационную генеративную модель искусственного интеллекта, способную имитировать молекулярную динамику, представляя ее в виде видео. Этот подход открывает принципиально новые возможности для ускорения исследований в фармацевтике и биотехнологиях.

MDGen обладает уникальной способностью брать за отправную точку статичный кадр трехмерной молекулы и генерировать последовательность ее дальнейших движений, словно создавая видеоролик. Модель также умеет объединять разрозненные статические снимки в единую динамическую траекторию и восстанавливать пропущенные кадры в уже существующей последовательности. Эти функции позволяют химикам и биологам более эффективно разрабатывать новые молекулы и изучать взаимодействие прототипов лекарств с целевыми молекулярными структурами, например, при исследовании раковых и других заболеваний.

Ведущими авторами научной работы, опубликованной на сервере препринтов arXiv, стали Боуэн Цзин (Bowen Jing), выпускник MIT 2022 года и аспирант CSAIL, и Ханнес Штерк (Hannes Stärk), также аспирант CSAIL. Старшими научными руководителями проекта выступили Бонни Бергер (Bonnie Berger), профессор математики им. Симонса в MIT и руководитель CSAIL, и Томми Яаккола (Tommi Jaakkola), профессор электротехники и компьютерных наук им. Томаса Зибеля в MIT, а также сотрудник Института данных, систем и общества и руководитель CSAIL. Результаты исследования были представлены на Конференции по системам обработки нейронной информации (NeurIPS) в декабре прошлого года.

Принципиальное отличие MDGen от предыдущих генеративных моделей для молекулярной динамики заключается в отходе от «авторегрессивного» подхода, когда каждый кадр строится последовательно, начиная с первого. MDGen использует диффузию для параллельной генерации кадров, что знаменует собой парадигмальный сдвиг в методах моделирования.

Такой подход открывает целый ряд преимуществ. MDGen позволяет соединять кадры в конечных точках траекторий, «повышать частоту кадров» для траекторий с низкой частотой и, по сути, «запускать воспроизведение», имея всего один начальный кадр. Инновационный потенциал разработки был отмечен наградой за коммерческий потенциал на семинаре ML4LMS Международной конференции по машинному обучению прошлым летом.

Экспериментальные результаты продемонстрировали, что MDGen обеспечивает точность моделирования, сопоставимую с традиционными физическими методами, при этом значительно превосходя их по скорости. В частности, генерация траекторий происходит в 10–100 раз быстрее. В одном из экспериментов MDGen удалось сгенерировать 100 наносекунд молекулярной динамики, «собрав» их из последовательных 10-наносекундных блоков, всего за одну минуту, в то время как базовая модель затратила на это три часа.

Более того, MDGen способен «увеличивать дискретизацию» между наносекундными шагами, что позволяет фиксировать более быстрые молекулярные процессы. Функция «дорисовки» молекулярных структур позволяет восстанавливать утраченную информацию. В перспективе MDGen может быть использован для проектирования белков с заданным движением отдельных частей молекул.

Несмотря на впечатляющие результаты, Боуэн Цзин и Ханнес Штерк подчеркивают, что MDGen находится на ранней стадии развития и пока не располагает достаточным объемом данных для непосредственного применения в разработке лекарств или молекул. Текущие модели обучаются на «игрушечных системах», а не на сложных белках. В будущем исследователи планируют масштабировать MDGen для прогнозирования изменений в белках с течением времени. Для этого необходимо расширить архитектуру модели и увеличить доступный объем данных, что является серьезной проблемой из-за отсутствия "YouTube-подобного хранилища» данных моделирования белковых молекул. В качестве решения предлагается разработка методов машинного обучения для ускорения сбора необходимых данных.

MDGen открывает новые горизонты в моделировании невидимых глазу молекулярных изменений, предоставляя химикам мощный инструмент для изучения поведения прототипов лекарств, направленных на борьбу с такими заболеваниями, как рак и туберкулез. Бонни Бергер отмечает, что «методы машинного обучения, которые учатся на физическом моделировании, представляют собой новую многообещающую границу в применении искусственного интеллекта в науке», подчеркивая связь между машинным обучением и физическим моделированием, которую реализует MDGen. Томми Яаккола, в свою очередь, указывает на то, что «моделирование реалистичных путей перехода между молекулярными состояниями является серьезной проблемой», и MDGen представляет собой важный первый шаг в решении этой задачи.

Саймон Олссон (Simon Olsson), доцент Технологического университета Чалмерса, не принимавший участия в исследовании, отмечает, что MDGen моделирует молекулярную динамику как совместное распределение структурных вложений, используя маскированное обучение, что позволяет реализовать «инновационные сценарии использования, такие как моделирование путей перехода», проводя аналогию с «дорисовкой траекторий, соединяющих метастабильные фазы».


Новое на сайте

19817В Луксоре нашли стелу с римским императором в образе фараона 19816Экипаж Artemis II о моменте, когда земля исчезла за луной 19815Почему луна выглядит по-разному в разных точках земли? 19814Adobe экстренно закрыла опасную дыру в Acrobat Reader, которую хакеры использовали с... 19813Метеорный поток, рождённый из умирающего астероида 19812Когда робот пишет за тебя прощальную смс 19811Что общего у лунной миссии, толстого попугая, загадочной плащаницы и лекарства от диабета? 19810Какие снимки Artemis II уже стали иконами лунной программы? 19809Кто на самом деле хочет сладкого — вы или ваши бактерии? 19808Как рекламные данные 500 миллионов телефонов оказались в руках спецслужб? 19807Экипаж Artemis II вернулся на землю после десяти дней в космосе 19806Зелёная и коричневая луна: почему геологи Artemis II уже не могут усидеть на месте 19805Эксперты уверены в теплозащитном щите Artemis II, несмотря на проблемы предшественника 19804Выжить внутри торнадо: каково это — когда тебя засасывает в воронку 19803Аляскинские косатки-охотники на млекопитающих замечены у берегов Сиэтла
Ссылка