Готовы ли мы к эре гедонистических машин?

Пионеры обучения с подкреплением, удостоенные престижной премии A.M. Turing Award – эквивалента Нобелевской премии в компьютерных науках – перевернули представление о возможностях искусственного интеллекта. Награду ежегодно спонсирует Google с призовым фондом в US $1 миллион, а ее вручили на общем собрании ACM в среду.
Готовы ли мы к эре гедонистических машин?
Изображение носит иллюстративный характер

76-летний Эндрю Барто, ранее работавший в Университете Массачусетса в Эмерсте, зарекомендовал себя своими первыми исследованиями в условиях, когда обучение с подкреплением было мало популярно. Его слова – «Мы были своего рода в пустыне. Вот почему так приятно получать эту награду...» – отражают путь от экспериментальных достижений к признанию значимости их работы.

67-летний Ричард Саттон, профессор Университета Альберты, внес неоценимый вклад в разработку теорий и алгоритмов, легших в основу дисциплины. Он подчеркнул, что идея, изложенная Аланом Тьюрингом в 1947 году о машине, которая «может учиться на опыте», стала краеугольным камнем развития обучения с подкреплением.

Методология, разработанная Барто и Саттоном, основывается на принципах, аналогичных дрессировке животных посредством позитивного подкрепления. Их подход, называемый «гедонистическим», использует концепции психологии и нейронаук, связанные с реакцией нейронов на вознаграждения и наказания.

Исследовательская работа началась в конце 1970-х годов в Университете Массачусетса, а в начале 1980-х был опубликован знаковый документ, демонстрирующий успешное решение задачи балансировки шеста на движущейся тележке в смоделированном окружении. Этот эксперимент стал отправной точкой для последующих прорывов в сфере искусственного интеллекта.

Разработанные методы сыграли ключевую роль в ряде современных достижений: от победы компьютерной программы Google над чемпионами древней игры го в 2016 и 2017 годах до оптимизации финансовых торговых стратегий и программ, обеспечивающих работу ChatGPT. Джефф Дин, главный ученый Google, отмечает: «Инструменты, которые они разработали, по-прежнему остаются центральной опорой взрыва AI-революции, способствовав значительным прорывам, привлечению легионов молодых исследователей и инвестициям на миллиарды долларов».

Фундаментальное отличие подхода Барто и Саттона состоит в выборе между обучением на основе данных, предоставленных людьми, и самостоятельным опытом ИИ-агентов. Так, Барто, называющий себя луддитом, предостерегает о возможных неожиданных последствиях быстрого технологического прогресса, тогда как Саттон оптимистично заявляет: «Люди — машины. Они удивительные, замечательные машины... [они] не являются 'конечным продуктом' и могут работать лучше».

Награждение премией, названной в честь Алана Тьюринга – британского математика, криптоаналитика и одного из первых мыслителей в области искусственного интеллекта, – символизирует продолжение идеи создания машин, способных учиться на опыте. Исследования Барто и Саттона проложили путь к современным прорывам и определяют развитие ИИ в ближайшие десятилетия.


Новое на сайте

19164Уязвимые обучающие приложения открывают доступ к облакам Fortune 500 для криптомайнинга 19163Почему ботнет SSHStalker успешно атакует Linux уязвимостями десятилетней давности? 19162Microsoft устранила шесть уязвимостей нулевого дня и анонсировала радикальные изменения в... 19161Эскалация цифровой угрозы: как IT-специалисты КНДР используют реальные личности для... 19160Скрытые потребности клиентов и преимущество наблюдения над опросами 19159Академическое фиаско Дороти Паркер в Лос-Анджелесе 19158Китайский шпионский фреймворк DKnife захватывает роутеры с 2019 года 19157Каким образом корейские детские хоры 1950-х годов превратили геополитику в музыку и... 19156Научная революция цвета в женской моде викторианской эпохи 19155Как новый сканер Microsoft обнаруживает «спящих агентов» в открытых моделях ИИ? 19154Как новая кампания DEADVAX использует файлы VHD для скрытой доставки трояна AsyncRAT? 19153Как новые китайские киберкампании взламывают госструктуры Юго-Восточной Азии? 19152Культ священного манго и закат эпохи хунвейбинов в маоистском Китае 19151Готовы ли вы к эре коэффициента адаптивности, когда IQ и EQ больше не гарантируют успех? 19150Иранская группировка RedKitten применяет сгенерированный нейросетями код для кибершпионажа
Ссылка