Применение генеративного искусственного интеллекта в биологии открывает новые возможности для декодирования белков – ключевых агентов клеточных процессов. Инструменты InstaNovo (IN) и InstaNovo+ (IN+), представленные 31 марта в журнале Nature Machine Intelligence, позволяют идентифицировать белковые последовательности, ранее ускользавшие от традиционных методов обнаружения.

Белки, выступающие «рабочими лошадками» клеток, реализуют функции, заложенные в ДНК, но могут подвергаться модификациям и расщеплениям после синтеза, что приводит к появлению скрытых сегментов. Такие отклонения оказываются критичными для понимания механизмов рака, заболеваний и уникальных адаптаций, как, например, в почках скатов, позволяющих этим животным адаптироваться к переменам солёности воды.
InstaNovo использует архитектуру, схожую с GPT-4 от OpenAI, переводя спектральный «отпечаток» белков, полученный методом масс-спектрометрии, в последовательность аминокислот. В свою очередь, InstaNovo+ применяет диффузионную модель, устраняя шум и формируя ясное изображение молекулярной структуры, что позволяет реконструировать даже ранее неизвестные белковые сегменты.
Сравнение с традиционными методами, такими как поиск по базам данных и трансформерный декодер Casanovo, демонстрирует, что новые инструменты проявляют наилучшую эффективность в сложных задачах секвенирования. При тестировании на человеческих иммунных белках модель IN обнаружила примерно в три раза больше кандидатов, увеличив число выявленных пептидов с 10 000 до более чем 35 000, а IN+ – в шесть раз, что подтверждает преимущество их комбинированного применения.
Химик и специалист по белкам из Национального института стандартов и технологий в Гейтерсбурге, Мэриленд, Бенджамин Нили отмечает: «Эти инструменты приближают нас к,святому Граалю' массовой идентификации неизвестных белков». Химик по анализу белков из Dana-Farber Cancer Institute в Бостоне, Аманда Смейзерс, подчеркивает, что ИИ-секвенирование не заменяет поиск по базам данных, а служит важным дополнением для исследования причин, по которым некоторые виды рака вызывают резкое истощение мышечной массы.
Коавтор и специалист по вычислительной биоинженерии из Технического университета Дании в Лынгби, Константинос Калогеропулос, предупреждает о вероятном уровне ложноположительных результатов, оцениваемом примерно в 5%, что требует дополнительной проверки полученных данных. Разработчик Casanovo и исследователь протеомики из Университета Вашингтона в Сиэтле, Уильям Нобл, продолжает изучать оптимальные способы оценки эффективности новых ИИ-инструментов.
Новейшие модели вписываются в цепочку революционных достижений искусственного интеллекта в биологии, наряду с AlphaFold, изменившим подход к предсказанию сворачивания белков, и дизайном белков, удостоенным Нобелевской премии в 2024 году. Способность обнаруживать ранее неучтённые белковые сегменты обещает стать следующим крупным скачком в фундаментальных исследованиях, диагностике и разработке новых методов лечения.
Обучение моделей проводилось с использованием расширяющейся базы данных Proteome Tools, что позволяет предсказывать белковые сегменты, отсутствующие в традиционных каталогах. Комбинированное применение InstaNovo и InstaNovo+ значительно расширяет возможности секвенирования, открывая новые перспективы в изучении механизмов клеточной работы и адаптивных процессов в живых организмах.

Изображение носит иллюстративный характер
Белки, выступающие «рабочими лошадками» клеток, реализуют функции, заложенные в ДНК, но могут подвергаться модификациям и расщеплениям после синтеза, что приводит к появлению скрытых сегментов. Такие отклонения оказываются критичными для понимания механизмов рака, заболеваний и уникальных адаптаций, как, например, в почках скатов, позволяющих этим животным адаптироваться к переменам солёности воды.
InstaNovo использует архитектуру, схожую с GPT-4 от OpenAI, переводя спектральный «отпечаток» белков, полученный методом масс-спектрометрии, в последовательность аминокислот. В свою очередь, InstaNovo+ применяет диффузионную модель, устраняя шум и формируя ясное изображение молекулярной структуры, что позволяет реконструировать даже ранее неизвестные белковые сегменты.
Сравнение с традиционными методами, такими как поиск по базам данных и трансформерный декодер Casanovo, демонстрирует, что новые инструменты проявляют наилучшую эффективность в сложных задачах секвенирования. При тестировании на человеческих иммунных белках модель IN обнаружила примерно в три раза больше кандидатов, увеличив число выявленных пептидов с 10 000 до более чем 35 000, а IN+ – в шесть раз, что подтверждает преимущество их комбинированного применения.
Химик и специалист по белкам из Национального института стандартов и технологий в Гейтерсбурге, Мэриленд, Бенджамин Нили отмечает: «Эти инструменты приближают нас к,святому Граалю' массовой идентификации неизвестных белков». Химик по анализу белков из Dana-Farber Cancer Institute в Бостоне, Аманда Смейзерс, подчеркивает, что ИИ-секвенирование не заменяет поиск по базам данных, а служит важным дополнением для исследования причин, по которым некоторые виды рака вызывают резкое истощение мышечной массы.
Коавтор и специалист по вычислительной биоинженерии из Технического университета Дании в Лынгби, Константинос Калогеропулос, предупреждает о вероятном уровне ложноположительных результатов, оцениваемом примерно в 5%, что требует дополнительной проверки полученных данных. Разработчик Casanovo и исследователь протеомики из Университета Вашингтона в Сиэтле, Уильям Нобл, продолжает изучать оптимальные способы оценки эффективности новых ИИ-инструментов.
Новейшие модели вписываются в цепочку революционных достижений искусственного интеллекта в биологии, наряду с AlphaFold, изменившим подход к предсказанию сворачивания белков, и дизайном белков, удостоенным Нобелевской премии в 2024 году. Способность обнаруживать ранее неучтённые белковые сегменты обещает стать следующим крупным скачком в фундаментальных исследованиях, диагностике и разработке новых методов лечения.
Обучение моделей проводилось с использованием расширяющейся базы данных Proteome Tools, что позволяет предсказывать белковые сегменты, отсутствующие в традиционных каталогах. Комбинированное применение InstaNovo и InstaNovo+ значительно расширяет возможности секвенирования, открывая новые перспективы в изучении механизмов клеточной работы и адаптивных процессов в живых организмах.