28 октября была запущена OpenFold3 — открытая модель искусственного интеллекта, воспроизводящая функционал AlphaFold3 от Google DeepMind. Ее ключевая задача — предсказывать структуру белков при их взаимодействии с другими молекулами, включая нуклеиновые кислоты и химические соединения, содержащиеся в лекарствах. Модель создана консорциумом исследователей под руководством Мохаммеда Аль-Кураиши из Колумбийского университета как прямой ответ на ограничительную политику Google.

Предшественник, AlphaFold2, предсказывающий форму белков и принесший своей команде долю Нобелевской премии по химии 2024 года, был более открытым. Однако Google DeepMind ограничила использование AlphaFold3, разрешив доступ только частным лицам, некоммерческим организациям и журналистам. Это сделало невозможным ее применение в коммерческой разработке лекарств, что вызвало резкую реакцию в научном сообществе.
Сотни ученых подписали петицию с требованием прозрачности и доступа к коду AlphaFold3. Стефани Ванкович, вычислительный структурный биолог из Университета Вандербильта и соавтор петиции, объяснила, что для проверки точности прогнозов и понимания путей улучшения модели необходимо видеть «необработанную информацию». Воссоздание таких моделей позволяет глубже понять принципы их работы.
Анализ открытого кода AlphaFold2 ранее показал, что модель не столько изучает фундаментальные принципы сворачивания белков, сколько «запоминает» уже известные структуры. Ожидается, что детальный анализ OpenFold3 принесет аналогичные глубокие выводы о работе ее прообраза. Понимание этих механизмов критически важно для дальнейшего прогресса в области вычислительной биологии.
Важность предсказания молекулярных взаимодействий невозможно переоценить. Вуди Шерман, основатель и директор по инновациям бостонской компании Psivant Therapeutics, утверждает: «Биология — это не белки в изоляции. Это взаимодействие биомолекул друг с другом». Если AlphaFold2 решил задачу предсказания трехмерной формы белка, то AlphaFold3 и ее открытый аналог делают следующий шаг, моделируя взаимодействия с другими белками и молекулами, что является основой современной фармакологии.
Тем не менее, точное воссоздание моделей такого уровня — сложнейшая задача. Вуди Шерман, также являющийся председателем исполнительного комитета OpenFold, отмечает, что другие команды приближались к результатам DeepMind, «но не с высокой точностью», из-за множества неопубликованных технических «хитростей и настроек». Кроме того, современные модели создают статичные изображения и не учитывают динамическую среду клетки, где белки окружены водой и ионами и находятся в постоянном движении.
Для решения проблемы нехватки данных 1 октября была анонсирована инициатива Federated OpenFold3 Initiative. Пять фармацевтических компаний объединили усилия для обучения более мощной версии модели на своих частных данных, не раскрывая при этом коммерческую тайну. Проблема заключается в том, что лишь около 2% структур белков в общедоступных базах данных сопряжены с лекарственными молекулами.
Процесс федеративного обучения организован берлинской компанией Apheris под руководством соучредителя и генерального директора Робина Рёма. Каждая из пяти компаний обучает свою версию OpenFold3 на собственной библиотеке из 4 000–8 000 пар белок-лекарство. Затем Apheris агрегирует не сами данные, а результаты обучения от локальных моделей в единую централизованную версию.
Таким образом, глобальная модель получает знания из примерно 20 000 уникальных взаимодействий, не имея прямого доступа к конфиденциальным данным участников. После этого усовершенствованная общая модель отправляется обратно в компании для дальнейших циклов обучения. Этот подход позволяет обогатить модель знаниями, которые в ином случае остались бы изолированными внутри корпоративных баз данных.
Несмотря на прорыв, немедленного эффекта от OpenFold3 ожидать не стоит. Вуди Шерман подчеркивает, что текущая модель — это «отправная точка». Значимое влияние на открытие новых лекарств ожидается от «следующего этапа, и следующего, и следующего» по мере развития и совершенствования модели.

Изображение носит иллюстративный характер
Предшественник, AlphaFold2, предсказывающий форму белков и принесший своей команде долю Нобелевской премии по химии 2024 года, был более открытым. Однако Google DeepMind ограничила использование AlphaFold3, разрешив доступ только частным лицам, некоммерческим организациям и журналистам. Это сделало невозможным ее применение в коммерческой разработке лекарств, что вызвало резкую реакцию в научном сообществе.
Сотни ученых подписали петицию с требованием прозрачности и доступа к коду AlphaFold3. Стефани Ванкович, вычислительный структурный биолог из Университета Вандербильта и соавтор петиции, объяснила, что для проверки точности прогнозов и понимания путей улучшения модели необходимо видеть «необработанную информацию». Воссоздание таких моделей позволяет глубже понять принципы их работы.
Анализ открытого кода AlphaFold2 ранее показал, что модель не столько изучает фундаментальные принципы сворачивания белков, сколько «запоминает» уже известные структуры. Ожидается, что детальный анализ OpenFold3 принесет аналогичные глубокие выводы о работе ее прообраза. Понимание этих механизмов критически важно для дальнейшего прогресса в области вычислительной биологии.
Важность предсказания молекулярных взаимодействий невозможно переоценить. Вуди Шерман, основатель и директор по инновациям бостонской компании Psivant Therapeutics, утверждает: «Биология — это не белки в изоляции. Это взаимодействие биомолекул друг с другом». Если AlphaFold2 решил задачу предсказания трехмерной формы белка, то AlphaFold3 и ее открытый аналог делают следующий шаг, моделируя взаимодействия с другими белками и молекулами, что является основой современной фармакологии.
Тем не менее, точное воссоздание моделей такого уровня — сложнейшая задача. Вуди Шерман, также являющийся председателем исполнительного комитета OpenFold, отмечает, что другие команды приближались к результатам DeepMind, «но не с высокой точностью», из-за множества неопубликованных технических «хитростей и настроек». Кроме того, современные модели создают статичные изображения и не учитывают динамическую среду клетки, где белки окружены водой и ионами и находятся в постоянном движении.
Для решения проблемы нехватки данных 1 октября была анонсирована инициатива Federated OpenFold3 Initiative. Пять фармацевтических компаний объединили усилия для обучения более мощной версии модели на своих частных данных, не раскрывая при этом коммерческую тайну. Проблема заключается в том, что лишь около 2% структур белков в общедоступных базах данных сопряжены с лекарственными молекулами.
Процесс федеративного обучения организован берлинской компанией Apheris под руководством соучредителя и генерального директора Робина Рёма. Каждая из пяти компаний обучает свою версию OpenFold3 на собственной библиотеке из 4 000–8 000 пар белок-лекарство. Затем Apheris агрегирует не сами данные, а результаты обучения от локальных моделей в единую централизованную версию.
Таким образом, глобальная модель получает знания из примерно 20 000 уникальных взаимодействий, не имея прямого доступа к конфиденциальным данным участников. После этого усовершенствованная общая модель отправляется обратно в компании для дальнейших циклов обучения. Этот подход позволяет обогатить модель знаниями, которые в ином случае остались бы изолированными внутри корпоративных баз данных.
Несмотря на прорыв, немедленного эффекта от OpenFold3 ожидать не стоит. Вуди Шерман подчеркивает, что текущая модель — это «отправная точка». Значимое влияние на открытие новых лекарств ожидается от «следующего этапа, и следующего, и следующего» по мере развития и совершенствования модели.