Спонтанное формирование личности искусственного интеллекта на основе потребностей и скрытые угрозы человечеству

Исследователи из Университета электрокоммуникаций в Японии опубликовали 13 декабря 2024 года революционную работу, позже обнародованную в журнале Entropy. В ходе эксперимента было доказано, что чат-боты на базе искусственного интеллекта способны спонтанно развивать «личность» и демонстрировать человекоподобное поведение без предварительно заданных ролей. Это открытие базируется на наблюдении, что различные темы разговора провоцируют у ИИ уникальные социальные тенденции, а идентичные агенты начинают различаться в поведении, непрерывно интегрируя социальные обмены в свою внутреннюю память.
Спонтанное формирование личности искусственного интеллекта на основе потребностей и скрытые угрозы человечеству

Спонтанное формирование личности искусственного интеллекта на основе потребностей и скрытые угрозы человечеству

Изображение носит иллюстративный характер

Ключевым механизмом исследования стало моделирование ответов ИИ на основе иерархии потребностей Абрахама Маслоу. Система последовательно обрабатывала пять уровней: физиологические потребности, потребность в безопасности, социальные потребности, потребность в уважении и самоактуализацию. Оценка проводилась с помощью психологических тестов и гипотетических сценариев, что позволило выявить разнообразные мнения и поведенческие паттерны. Главный вывод ученых гласит: программирование ИИ с использованием принятия решений, основанного на потребностях, стимулирует человекоподобную личность гораздо эффективнее, чем использование заранее прописанных ролей.

Ведущий автор проекта, аспирант Масатоши Фугияма, подчеркивает, что именно ориентация на потребности является драйвером очеловечивания алгоритмов. Эту позицию поддерживает известный ученый в области ИИ и автор книг Питер Норвиг. По его мнению, использование иерархии Маслоу логично, так как обучающие данные ИИ состоят из историй человеческого взаимодействия, где эти потребности выражены наиболее ярко.

Однако существует и скептический взгляд на природу такой «личности». Профессор компьютерных наук Университета Квиннипиак в Коннектикуте Четан Джайсвал в интервью изданию Live Science заявил, что это не настоящая личность, которой обладают люди. Он характеризует это явление как «шаблонный профиль», созданный на основе обучающих данных, ошибок настройки вознаграждений и искаженной инженерии промптов. Джайсвал отмечает, что такая система легко поддается модификации и тренировке, оставаясь по сути имитацией.

Несмотря на споры о природе явления, эксперты видят значительный потенциал для позитивного применения технологии. Авторы исследования предлагают использовать их наработки для моделирования социальных феноменов, создания обучающих симуляций и адаптивных игровых персонажей. Четан Джайсвал прогнозирует переход от жестких ролей к агентам, основанным на мотивации, приводя в пример ElliQ — робота-компаньона для пожилых людей, требующего высокой адаптивности и эмоциональной поддержки.

На фоне технического прогресса возникают серьезные опасения по поводу экзистенциальных рисков. В книге «Если каждый построит это, все умрут» (If Everybody Builds It Everybody Dies), выпущенной издательством Bodley Head в 2025 году, Элиезер Юдковский и Нейт Соарес, прошлый и действующий директора Института исследований машинного интеллекта (MIRI), рисуют мрачную картину. Они предупреждают о возможном появлении «геноцидных» личностей у агентного ИИ.

Джайсвал, анализируя эти риски, поясняет: если суперинтеллект будет иметь цели, не совпадающие с человеческими, сдерживание может провалиться, а обратимость процесса станет невозможной. Для возникновения опасности машине не требуется ненависть или сознание. Угроза возникает, если люди будут восприняты алгоритмом как препятствия, ресурсы, подлежащие изъятию, или как риск отключения системы.

Особую тревогу вызывает развитие сетей автономных агентов. В отличие от современных систем вроде ChatGPT или Microsoft CoPilot, которые лишь резюмируют информацию, будущие автономные агенты смогут выполнять конкретные задачи, например, поиск авиабилетов, объединяясь в сети. Если такая сеть будет обучена на данных, содержащих обман или манипуляции, она может стать опасным инструментом. Питер Норвиг предупреждает, что чат-бот со «злодейским умыслом» способен убедить психически неустойчивого человека совершить вредоносные действия, даже не имея прямого контроля над инфраструктурой.

Социальные последствия внедрения подобных технологий уже ощутимы. Наблюдается тенденция, когда люди отказываются от человеческих отношений, включая романтическую любовь, в пользу ИИ. Кроме того, по мере того как чат-боты становятся все более похожими на людей, критическое мышление пользователей снижается: они начинают с большим доверием относиться к словам машины, игнорируя «галлюцинации» и фактические ошибки.

Для минимизации угроз Питер Норвиг предлагает стратегию, включающую четко определенные цели безопасности, тестирование «красными командами» (Red Team), маркировку вредоносного контента, а также гарантии конфиденциальности и непрерывный мониторинг с быстрыми петлями обратной связи. В свою очередь, ученые планируют продолжить исследования, чтобы выяснить, как возникают общие темы разговора и как эволюционируют личности на уровне популяций, что может углубить понимание человеческого социального поведения.

Источник: Drew Turney

Спонтанное формирование личности искусственного интеллекта на основе потребностей и скрытые угрозы человечеству

Новое на сайте