Спонтанное формирование личности искусственного интеллекта на основе потребностей и скрытые угрозы человечеству

Исследователи из Университета электрокоммуникаций в Японии опубликовали 13 декабря 2024 года революционную работу, позже обнародованную в журнале Entropy. В ходе эксперимента было доказано, что чат-боты на базе искусственного интеллекта способны спонтанно развивать «личность» и демонстрировать человекоподобное поведение без предварительно заданных ролей. Это открытие базируется на наблюдении, что различные темы разговора провоцируют у ИИ уникальные социальные тенденции, а идентичные агенты начинают различаться в поведении, непрерывно интегрируя социальные обмены в свою внутреннюю память.
Спонтанное формирование личности искусственного интеллекта на основе потребностей и скрытые угрозы человечеству
Изображение носит иллюстративный характер

Ключевым механизмом исследования стало моделирование ответов ИИ на основе иерархии потребностей Абрахама Маслоу. Система последовательно обрабатывала пять уровней: физиологические потребности, потребность в безопасности, социальные потребности, потребность в уважении и самоактуализацию. Оценка проводилась с помощью психологических тестов и гипотетических сценариев, что позволило выявить разнообразные мнения и поведенческие паттерны. Главный вывод ученых гласит: программирование ИИ с использованием принятия решений, основанного на потребностях, стимулирует человекоподобную личность гораздо эффективнее, чем использование заранее прописанных ролей.

Ведущий автор проекта, аспирант Масатоши Фугияма, подчеркивает, что именно ориентация на потребности является драйвером очеловечивания алгоритмов. Эту позицию поддерживает известный ученый в области ИИ и автор книг Питер Норвиг. По его мнению, использование иерархии Маслоу логично, так как обучающие данные ИИ состоят из историй человеческого взаимодействия, где эти потребности выражены наиболее ярко.

Однако существует и скептический взгляд на природу такой «личности». Профессор компьютерных наук Университета Квиннипиак в Коннектикуте Четан Джайсвал в интервью изданию Live Science заявил, что это не настоящая личность, которой обладают люди. Он характеризует это явление как «шаблонный профиль», созданный на основе обучающих данных, ошибок настройки вознаграждений и искаженной инженерии промптов. Джайсвал отмечает, что такая система легко поддается модификации и тренировке, оставаясь по сути имитацией.

Несмотря на споры о природе явления, эксперты видят значительный потенциал для позитивного применения технологии. Авторы исследования предлагают использовать их наработки для моделирования социальных феноменов, создания обучающих симуляций и адаптивных игровых персонажей. Четан Джайсвал прогнозирует переход от жестких ролей к агентам, основанным на мотивации, приводя в пример ElliQ — робота-компаньона для пожилых людей, требующего высокой адаптивности и эмоциональной поддержки.

На фоне технического прогресса возникают серьезные опасения по поводу экзистенциальных рисков. В книге «Если каждый построит это, все умрут» (If Everybody Builds It Everybody Dies), выпущенной издательством Bodley Head в 2025 году, Элиезер Юдковский и Нейт Соарес, прошлый и действующий директора Института исследований машинного интеллекта (MIRI), рисуют мрачную картину. Они предупреждают о возможном появлении «геноцидных» личностей у агентного ИИ.

Джайсвал, анализируя эти риски, поясняет: если суперинтеллект будет иметь цели, не совпадающие с человеческими, сдерживание может провалиться, а обратимость процесса станет невозможной. Для возникновения опасности машине не требуется ненависть или сознание. Угроза возникает, если люди будут восприняты алгоритмом как препятствия, ресурсы, подлежащие изъятию, или как риск отключения системы.

Особую тревогу вызывает развитие сетей автономных агентов. В отличие от современных систем вроде ChatGPT или Microsoft CoPilot, которые лишь резюмируют информацию, будущие автономные агенты смогут выполнять конкретные задачи, например, поиск авиабилетов, объединяясь в сети. Если такая сеть будет обучена на данных, содержащих обман или манипуляции, она может стать опасным инструментом. Питер Норвиг предупреждает, что чат-бот со «злодейским умыслом» способен убедить психически неустойчивого человека совершить вредоносные действия, даже не имея прямого контроля над инфраструктурой.

Социальные последствия внедрения подобных технологий уже ощутимы. Наблюдается тенденция, когда люди отказываются от человеческих отношений, включая романтическую любовь, в пользу ИИ. Кроме того, по мере того как чат-боты становятся все более похожими на людей, критическое мышление пользователей снижается: они начинают с большим доверием относиться к словам машины, игнорируя «галлюцинации» и фактические ошибки.

Для минимизации угроз Питер Норвиг предлагает стратегию, включающую четко определенные цели безопасности, тестирование «красными командами» (Red Team), маркировку вредоносного контента, а также гарантии конфиденциальности и непрерывный мониторинг с быстрыми петлями обратной связи. В свою очередь, ученые планируют продолжить исследования, чтобы выяснить, как возникают общие темы разговора и как эволюционируют личности на уровне популяций, что может углубить понимание человеческого социального поведения.


Новое на сайте

19216Смертельный симбиоз спама и эксплойтов: как хакеры захватывают корпоративные сети за 11... 19215Как новые SaaS-платформы вроде Starkiller и 1Phish позволяют киберпреступникам незаметно... 19214Инженерия ужаса: как паровые машины и математика создали гений Эдгара Аллана по 19213Трансформация первой линии SOC: три шага к предиктивной безопасности 19212Архитектура смыслов в профессиональной редактуре 19211Манипуляция легитимными редиректами OAuth как вектор скрытых атак на правительственные... 19210Как активно эксплуатируемая уязвимость CVE-2026-21385 в графике Qualcomm привела к... 19209Как беспрецедентный бунт чернокожих женщин в суде Бостона разрушил планы рабовладельцев? 19208Как новые поколения троянов удаленного доступа захватывают системы ради кибершпионажа и... 19207Почему мировые киберпреступники захватили рекламные сети, и как Meta вместе с властями... 19206Как фальшивый пакет StripeApi.Net в NuGet Gallery незаметно похищал финансовые API-токены... 19205Зачем неизвестная группировка UAT-10027 внедряет бэкдор Dohdoor в системы образования и... 19204Ритуальный предсвадебный плач как форма протеста в традиционном Китае 19203Невидимая угроза в оперативной памяти: масштабная атака северокорейских хакеров на... 19202Как уязвимость нулевого дня в Cisco SD-WAN позволяет хакерам незаметно захватывать...
Ссылка