Исследователи из Колумбийского университета совершили технологический прорыв, создав робота по имени EMO, который впервые продемонстрировал способность двигать ртом с абсолютной человеческой точностью. Главной целью разработки стало устранение «эффекта зловещей долины» — психологического феномена, при котором действия робота вызывают у людей неприязнь из-за того, что они выглядят почти как натуральные, но имеют едва заметные дефекты. Новое устройство призвано сделать взаимодействие человека и машины максимально естественным и комфортным.

Конструкция EMO отличается сложным аппаратным обеспечением, включающим гибкое лицо с силиконовыми губами. Под искусственной кожей скрыты 26 лицевых моторов, каждый из которых обладает 10 степенями свободы, что обеспечивает высокую вариативность мимики. Управление механикой осуществляется с помощью передовой модели искусственного интеллекта «от зрения к действию» (vision-to-action language model, или VLA). Ключевая особенность программного обеспечения заключается в отсутствии заранее прописанных правил: система самостоятельно учится преобразовывать визуальные данные в скоординированные физические движения.
Процесс обучения робота проходил в два этапа, первым из которых стало самоисследование. EMO смотрел на свое отражение в зеркале, выполняя тысячи случайных выражений лица и движений губ. Эта фаза была необходима для того, чтобы алгоритм понял механику работы физических моторов и их влияние на мимику. На втором этапе, названном фазой наблюдения, робот просматривал часы видео на YouTube, где люди разговаривали и пели. Целью было связать моторику с конкретными звуками без необходимости понимать смысл слов. В результате EMO научился почти идеально синхронизировать движения губ с аудиопотоком на 10 различных языках.
Несмотря на успехи, у системы пока сохраняются определенные ограничения, которые исследователи планируют устранить в ходе дальнейшей практики. На текущий момент робот испытывает трудности с воспроизведением твердых звуков, таких как «Б», а также звуков, требующих вытягивания губ, например, «W». Однако общая точность мимики уже позволяет говорить о качественном скачке в робототехнике.
Результаты научной работы были опубликованы 14 января в журнале Science Robotics и подкреплены масштабным экспериментом с участием 1300 добровольцев. Участникам демонстрировали видео с EMO и эталонные записи идеального движения губ, после чего просили выбрать клип, наиболее соответствующий эталону. Для сравнения использовались три метода: новая модель VLA, базовый метод амплитуды (движение губ в зависимости от громкости) и метод ближайших соседей (имитация движений других людей при схожих звуках).
Статистические данные эксперимента подтвердили превосходство новой технологии. Модель VLA была выбрана добровольцами в 62,46% случаев. Для сравнения, метод амплитуды набрал лишь 23,15%, а метод ближайших соседей оказался наименее убедительным с показателем 14,38%. Эти цифры наглядно демонстрируют, насколько близко разработчикам удалось подойти к имитации естественной человеческой речи.
Ключевые фигуры проекта подчеркивают важность эмоциональной составляющей в робототехнике. Ход Липсон, профессор инженерии Колумбийского университета и директор лаборатории Creative Machines Lab, отметил, что современная робототехника слишком сосредоточена на ногах и руках (ходьбе и хватании), игнорируя лицевую привязанность, которая жизненно важна для взаимодействия с людьми. Ведущий автор исследования Юханг Ху заявил: «Роботам нужен лицевой язык тела, чтобы по-настоящему взаимодействовать с людьми».
Актуальность разработки подтверждается данными исследований человеческого взаимодействия. Исследование с отслеживанием глаз, проведенное в 2021 году, показало, что люди смотрят на лица собеседников 87% времени разговора. При этом от 10% до 15% этого времени внимание сфокусировано именно на рте, а движения губ настолько критичны, что могут влиять на то, что именно слышит человек. По мере развития искусственного интеллекта роботы будут занимать все больше позиций в образовании, медицине и уходе за пожилыми людьми, где эффективность работы напрямую коррелирует со способностью соответствовать человеческой мимике.
Разработка EMO происходит на фоне активной конкуренции в сфере гуманоидной робототехники. В октябре 2025 года китайская компания выпустила видео пугающе реалистичной головы робота, предназначенной для улучшения естественного взаимодействия. Годом ранее японская команда представила искусственную самовосстанавливающуюся кожу для придания лицам роботов человеческого вида. Кроме того, в Массачусетском технологическом институте (MIT) был разработан ИИ, который учится управлять роботами с помощью одной камеры, а Китай запустил первого в мире робота, способного бегать самостоятельно в режиме 24/7.

Изображение носит иллюстративный характер
Конструкция EMO отличается сложным аппаратным обеспечением, включающим гибкое лицо с силиконовыми губами. Под искусственной кожей скрыты 26 лицевых моторов, каждый из которых обладает 10 степенями свободы, что обеспечивает высокую вариативность мимики. Управление механикой осуществляется с помощью передовой модели искусственного интеллекта «от зрения к действию» (vision-to-action language model, или VLA). Ключевая особенность программного обеспечения заключается в отсутствии заранее прописанных правил: система самостоятельно учится преобразовывать визуальные данные в скоординированные физические движения.
Процесс обучения робота проходил в два этапа, первым из которых стало самоисследование. EMO смотрел на свое отражение в зеркале, выполняя тысячи случайных выражений лица и движений губ. Эта фаза была необходима для того, чтобы алгоритм понял механику работы физических моторов и их влияние на мимику. На втором этапе, названном фазой наблюдения, робот просматривал часы видео на YouTube, где люди разговаривали и пели. Целью было связать моторику с конкретными звуками без необходимости понимать смысл слов. В результате EMO научился почти идеально синхронизировать движения губ с аудиопотоком на 10 различных языках.
Несмотря на успехи, у системы пока сохраняются определенные ограничения, которые исследователи планируют устранить в ходе дальнейшей практики. На текущий момент робот испытывает трудности с воспроизведением твердых звуков, таких как «Б», а также звуков, требующих вытягивания губ, например, «W». Однако общая точность мимики уже позволяет говорить о качественном скачке в робототехнике.
Результаты научной работы были опубликованы 14 января в журнале Science Robotics и подкреплены масштабным экспериментом с участием 1300 добровольцев. Участникам демонстрировали видео с EMO и эталонные записи идеального движения губ, после чего просили выбрать клип, наиболее соответствующий эталону. Для сравнения использовались три метода: новая модель VLA, базовый метод амплитуды (движение губ в зависимости от громкости) и метод ближайших соседей (имитация движений других людей при схожих звуках).
Статистические данные эксперимента подтвердили превосходство новой технологии. Модель VLA была выбрана добровольцами в 62,46% случаев. Для сравнения, метод амплитуды набрал лишь 23,15%, а метод ближайших соседей оказался наименее убедительным с показателем 14,38%. Эти цифры наглядно демонстрируют, насколько близко разработчикам удалось подойти к имитации естественной человеческой речи.
Ключевые фигуры проекта подчеркивают важность эмоциональной составляющей в робототехнике. Ход Липсон, профессор инженерии Колумбийского университета и директор лаборатории Creative Machines Lab, отметил, что современная робототехника слишком сосредоточена на ногах и руках (ходьбе и хватании), игнорируя лицевую привязанность, которая жизненно важна для взаимодействия с людьми. Ведущий автор исследования Юханг Ху заявил: «Роботам нужен лицевой язык тела, чтобы по-настоящему взаимодействовать с людьми».
Актуальность разработки подтверждается данными исследований человеческого взаимодействия. Исследование с отслеживанием глаз, проведенное в 2021 году, показало, что люди смотрят на лица собеседников 87% времени разговора. При этом от 10% до 15% этого времени внимание сфокусировано именно на рте, а движения губ настолько критичны, что могут влиять на то, что именно слышит человек. По мере развития искусственного интеллекта роботы будут занимать все больше позиций в образовании, медицине и уходе за пожилыми людьми, где эффективность работы напрямую коррелирует со способностью соответствовать человеческой мимике.
Разработка EMO происходит на фоне активной конкуренции в сфере гуманоидной робототехники. В октябре 2025 года китайская компания выпустила видео пугающе реалистичной головы робота, предназначенной для улучшения естественного взаимодействия. Годом ранее японская команда представила искусственную самовосстанавливающуюся кожу для придания лицам роботов человеческого вида. Кроме того, в Массачусетском технологическом институте (MIT) был разработан ИИ, который учится управлять роботами с помощью одной камеры, а Китай запустил первого в мире робота, способного бегать самостоятельно в режиме 24/7.