Робот EMO с силиконовым лицом преодолел эффект зловещей долины благодаря новой модели обучения

Исследователи из Колумбийского университета совершили технологический прорыв, создав робота по имени EMO, который впервые продемонстрировал способность двигать ртом с абсолютной человеческой точностью. Главной целью разработки стало устранение «эффекта зловещей долины» — психологического феномена, при котором действия робота вызывают у людей неприязнь из-за того, что они выглядят почти как натуральные, но имеют едва заметные дефекты. Новое устройство призвано сделать взаимодействие человека и машины максимально естественным и комфортным.
Робот EMO с силиконовым лицом преодолел эффект зловещей долины благодаря новой модели обучения
Изображение носит иллюстративный характер

Конструкция EMO отличается сложным аппаратным обеспечением, включающим гибкое лицо с силиконовыми губами. Под искусственной кожей скрыты 26 лицевых моторов, каждый из которых обладает 10 степенями свободы, что обеспечивает высокую вариативность мимики. Управление механикой осуществляется с помощью передовой модели искусственного интеллекта «от зрения к действию» (vision-to-action language model, или VLA). Ключевая особенность программного обеспечения заключается в отсутствии заранее прописанных правил: система самостоятельно учится преобразовывать визуальные данные в скоординированные физические движения.

Процесс обучения робота проходил в два этапа, первым из которых стало самоисследование. EMO смотрел на свое отражение в зеркале, выполняя тысячи случайных выражений лица и движений губ. Эта фаза была необходима для того, чтобы алгоритм понял механику работы физических моторов и их влияние на мимику. На втором этапе, названном фазой наблюдения, робот просматривал часы видео на YouTube, где люди разговаривали и пели. Целью было связать моторику с конкретными звуками без необходимости понимать смысл слов. В результате EMO научился почти идеально синхронизировать движения губ с аудиопотоком на 10 различных языках.

Несмотря на успехи, у системы пока сохраняются определенные ограничения, которые исследователи планируют устранить в ходе дальнейшей практики. На текущий момент робот испытывает трудности с воспроизведением твердых звуков, таких как «Б», а также звуков, требующих вытягивания губ, например, «W». Однако общая точность мимики уже позволяет говорить о качественном скачке в робототехнике.

Результаты научной работы были опубликованы 14 января в журнале Science Robotics и подкреплены масштабным экспериментом с участием 1300 добровольцев. Участникам демонстрировали видео с EMO и эталонные записи идеального движения губ, после чего просили выбрать клип, наиболее соответствующий эталону. Для сравнения использовались три метода: новая модель VLA, базовый метод амплитуды (движение губ в зависимости от громкости) и метод ближайших соседей (имитация движений других людей при схожих звуках).

Статистические данные эксперимента подтвердили превосходство новой технологии. Модель VLA была выбрана добровольцами в 62,46% случаев. Для сравнения, метод амплитуды набрал лишь 23,15%, а метод ближайших соседей оказался наименее убедительным с показателем 14,38%. Эти цифры наглядно демонстрируют, насколько близко разработчикам удалось подойти к имитации естественной человеческой речи.

Ключевые фигуры проекта подчеркивают важность эмоциональной составляющей в робототехнике. Ход Липсон, профессор инженерии Колумбийского университета и директор лаборатории Creative Machines Lab, отметил, что современная робототехника слишком сосредоточена на ногах и руках (ходьбе и хватании), игнорируя лицевую привязанность, которая жизненно важна для взаимодействия с людьми. Ведущий автор исследования Юханг Ху заявил: «Роботам нужен лицевой язык тела, чтобы по-настоящему взаимодействовать с людьми».

Актуальность разработки подтверждается данными исследований человеческого взаимодействия. Исследование с отслеживанием глаз, проведенное в 2021 году, показало, что люди смотрят на лица собеседников 87% времени разговора. При этом от 10% до 15% этого времени внимание сфокусировано именно на рте, а движения губ настолько критичны, что могут влиять на то, что именно слышит человек. По мере развития искусственного интеллекта роботы будут занимать все больше позиций в образовании, медицине и уходе за пожилыми людьми, где эффективность работы напрямую коррелирует со способностью соответствовать человеческой мимике.

Разработка EMO происходит на фоне активной конкуренции в сфере гуманоидной робототехники. В октябре 2025 года китайская компания выпустила видео пугающе реалистичной головы робота, предназначенной для улучшения естественного взаимодействия. Годом ранее японская команда представила искусственную самовосстанавливающуюся кожу для придания лицам роботов человеческого вида. Кроме того, в Массачусетском технологическом институте (MIT) был разработан ИИ, который учится управлять роботами с помощью одной камеры, а Китай запустил первого в мире робота, способного бегать самостоятельно в режиме 24/7.


Новое на сайте

20074Я не получил структуру статьи для анализа. Вместо содержания статьи в запросе указано... 20072Эффект красоты решает исход собеседования до первых слов 20069Как черта характера крадёт деньги на переговорах 20068Карточная игра против главной дисфункции команды 20067Какие три нарратива способны провести компанию сквозь любой кризис? 20066Фотосинтез в глазах мышей: возможно ли это без превращения в растение? 20065СПКЯ стало СПМЯ: почему переименование болезни, затрагивающей миллионы женщин, заняло так... 20064Почему великая пирамида Гизы пережила все землетрясения за 4500 лет 20063Генетика Homo erectus: что зубная эмаль рассказала о наших предках 20062Кости в бухте Эребус: что кости моряков Франклина рассказывают спустя полтора века 20061Крупнейший плавучий ветрогенератор в мире: Китай испытывает установку у берегов Шанхая 20060Карие глаза младенца стали индиго после лечения от COVID-19 20058Почему серебряная чаша с Афиной пролежала в немецком лесу две тысячи лет? 20057Дыра в атмосфере солнца: вспышка достигла пика и может зажечь полярное сияние
Ссылка