Новый метод нейроинтерфейса позволяет трансформировать нейронные сигналы в слышимую речь почти в режиме реального времени. Технология использует 253-канальный высокоплотный электрокортикографический массив, установленный над областью мозга, отвечающей за речевой моторный контроль, что делает возможным перехват мыслительных процессов и их преобразование в речь.
Система работает как продвинутый переводчик «Google Translate», лишь декодируя замыслы пациента напрямую в аудио. В эксперименте пациентка Ann молча имитировала произнесение фраз, отображаемых на экране, а полученные сигналы преобразовывались искусственным интеллектом таким образом, что задержка между мыслью и озвучиванием составляла менее 80 миллисекунд.
Для создания синтеза речи использовались сотни предложений, составленных из словарного запаса, включающего 1024 слова, а аудиовыход моделировался на основе голосовых записей Ann, сделанных до её травмы. Преобразование происходит непрерывно, что обеспечивает естественную и плавную речь без необходимости ждать завершения всей мысли.
Результаты исследования, опубликованные на этой неделе в журнале Nature Neuroscience, были получены сотрудниками Университета Калифорнии в Беркли и Сан-Франциско. Профессор Гопала Анумачипалли отметил, что технология схожа с системами быстрого декодирования речи, применяемыми в Alexa и Siri, и впервые обеспечивает почти синхронную потоковую передачу голосовых сигналов. Соавтор Cheol Jun Cho пояснил, что метод позволяет перехватывать сигналы между формированием мысли и моторным контролем голосового аппарата, а аспирант Kaylo Littlejohn продолжает работу по декодированию паралингвистических особенностей, таких как интонация и тембр, критически важные для эмоциональной окраски речи.
Прорывное развитие по сравнению с предыдущими системами заметно повышает скорость общения. Ранее, системы, использованные у Стивена Хокинга, позволяли произносить лишь 10–15 слов в минуту, а модели искусственного интеллекта работали с задержкой до восьми секунд. Новый подход обеспечивает появление озвученной речи менее чем за секунду от момента возникновения мысли, что значительно улучшает качество коммуникации.
Демонстрационный эксперимент подтвердил эффективность метода: Ann видит на экране фразу «ты меня любишь», после чего ИИ, обученный по её предтравматическим голосовым записям, воспроизводит эту фразу. Затем пациентка повторяет такие выражения, как «ты сделал это?» и «откуда ты это взял?», что значительно повышает ощущение собственной идентичности и контроля над речью.
Комплексное совершенствование BCI-технологий продолжается и в других проектах. Компания Neuralink, основанная Илоном Маском в 2016 году, успешно имплантировала свои устройства у пациентов, в том числе у 30-летнего Noland Arbaugh, который с их помощью может управлять компьютером и играть в видеоигры. Synchron продемонстрировала, как пациент с БАС с помощью нейроинтерфейса смог управлять гарнитурой Apple Vision Pro, добавив: «Использование такого расширенного восприятия оказывает колоссальное воздействие и может перенести в места, о которых раньше и не мечтал».
Международные усилия также не остаются в стороне: китайская компания NeuCyber NeuroTech за последний месяц успешно имплантировала полuinвазивный чип у трех пациентов и планирует расширить программу до десяти человек к концу года. Текущие исследования направлены на дальнейшее сокращение задержек и улучшение передачи паралингвистических характеристик, что создаст возможность вести полноценный диалог в повседневном общении для людей, утративших способность говорить.
Система работает как продвинутый переводчик «Google Translate», лишь декодируя замыслы пациента напрямую в аудио. В эксперименте пациентка Ann молча имитировала произнесение фраз, отображаемых на экране, а полученные сигналы преобразовывались искусственным интеллектом таким образом, что задержка между мыслью и озвучиванием составляла менее 80 миллисекунд.
Для создания синтеза речи использовались сотни предложений, составленных из словарного запаса, включающего 1024 слова, а аудиовыход моделировался на основе голосовых записей Ann, сделанных до её травмы. Преобразование происходит непрерывно, что обеспечивает естественную и плавную речь без необходимости ждать завершения всей мысли.
Результаты исследования, опубликованные на этой неделе в журнале Nature Neuroscience, были получены сотрудниками Университета Калифорнии в Беркли и Сан-Франциско. Профессор Гопала Анумачипалли отметил, что технология схожа с системами быстрого декодирования речи, применяемыми в Alexa и Siri, и впервые обеспечивает почти синхронную потоковую передачу голосовых сигналов. Соавтор Cheol Jun Cho пояснил, что метод позволяет перехватывать сигналы между формированием мысли и моторным контролем голосового аппарата, а аспирант Kaylo Littlejohn продолжает работу по декодированию паралингвистических особенностей, таких как интонация и тембр, критически важные для эмоциональной окраски речи.
Прорывное развитие по сравнению с предыдущими системами заметно повышает скорость общения. Ранее, системы, использованные у Стивена Хокинга, позволяли произносить лишь 10–15 слов в минуту, а модели искусственного интеллекта работали с задержкой до восьми секунд. Новый подход обеспечивает появление озвученной речи менее чем за секунду от момента возникновения мысли, что значительно улучшает качество коммуникации.
Демонстрационный эксперимент подтвердил эффективность метода: Ann видит на экране фразу «ты меня любишь», после чего ИИ, обученный по её предтравматическим голосовым записям, воспроизводит эту фразу. Затем пациентка повторяет такие выражения, как «ты сделал это?» и «откуда ты это взял?», что значительно повышает ощущение собственной идентичности и контроля над речью.
Комплексное совершенствование BCI-технологий продолжается и в других проектах. Компания Neuralink, основанная Илоном Маском в 2016 году, успешно имплантировала свои устройства у пациентов, в том числе у 30-летнего Noland Arbaugh, который с их помощью может управлять компьютером и играть в видеоигры. Synchron продемонстрировала, как пациент с БАС с помощью нейроинтерфейса смог управлять гарнитурой Apple Vision Pro, добавив: «Использование такого расширенного восприятия оказывает колоссальное воздействие и может перенести в места, о которых раньше и не мечтал».
Международные усилия также не остаются в стороне: китайская компания NeuCyber NeuroTech за последний месяц успешно имплантировала полuinвазивный чип у трех пациентов и планирует расширить программу до десяти человек к концу года. Текущие исследования направлены на дальнейшее сокращение задержек и улучшение передачи паралингвистических характеристик, что создаст возможность вести полноценный диалог в повседневном общении для людей, утративших способность говорить.