


Изображение носит иллюстративный характер
Здравствуйте всем. Добро пожаловать в международную версию группы Форсайта. Я очень рад сегодня открыть серию семинаров этого года церемонией вручения премии Норма Харди. Это церемония премии Норма Харди не за 2025 год, а за 2024 год. Эта премия присуждается уже третий год, хотя в прошлом году она присуждалась во второй раз. Сегодня с нами даже присутствуют несколько инициаторов этой премии, включая Марка Миллера, Дина Трабла и еще нескольких человек, в том числе Элеонору. У нас собралась действительно отличная публика, и определенно те люди, которые внесли значительный вклад в учреждение этой премии.
Премия присуждается за работы в области пользовательской безопасности (usable security) и призвана поощрять больше людей работать над этой проблемой и размышлять о ней. Она специально направлена на то, чтобы сделать уже существующие, возможно, безопасные системы безопасными в процессе их использования. Думаю, это проблема, которую довольно часто упускают из виду. В этом году мы невероятно горды вручить эту премию вам. У нас уже была возможность очень кратко встретиться с вами и фактически вручить физическую награду, но, на мой взгляд, у вас действительно интересный подход к решению этой проблемы, который заключается в использовании склонности людей откладывать дела на потом. Тем не менее, вы используете оборудование и устройства, чтобы фактически побудить их повысить свою безопасность.
Вы сможете рассказать об этом гораздо лучше, чем я, но от имени всех сотрудников Форсайта я просто хочу поздравить вас с получением премии. В этом году отбор был довольно конкурентным. Большое вам спасибо за вашу работу. Сегодня мы очень рады услышать то, чем вы готовы поделиться. Спасибо. Приятно находиться здесь, и для меня большая честь получить эту награду. Что ж, думаю, мы сразу приступим. Речь пойдет об одной конкретной работе, в которой мы исследовали механизмы приверженности (commitment devices) для улучшения принятия решений в области безопасности. Чуть позже я углублюсь в то, что все это означает. Но на самом деле этот доклад посвящен более широкому контексту того, как мы пришли к этому исследованию, и некоторым нашим ранним работам, которые подвели нас к нему и послужили его основой.
Поскольку, насколько я понимаю, частью премии было признание теории разума, я хотел включить ряд справочных материалов о том, как мы двигались в этих различных направлениях. В начале, оглядываясь назад, меры по смягчению угроз безопасности никогда не разрабатывались с учетом пользователей. Обучение было дорогим и часто неэффективным. Принятие решений в области безопасности часто рассматривалось как нечто само собой разумеющееся. Естественно, это приводило к низкому уровню соблюдения многих мер безопасности, таких как игнорирование предупреждений, непонимание необходимости использования надежного пароля или неприменение обновлений программного обеспечения. За последние 30 лет были проведены работы, показывающие, почему это является проблемой, и теперь пользовательская безопасность выросла в отдельную подобласть.
Первая статья, которая приходит мне в голову, была написана еще в 1996 году, но затем в течение следующего десятилетия пользовательская безопасность превратилась в самостоятельное сообщество как в области безопасности, так и в области взаимодействия человека с компьютером. И теперь мы разрабатываем вещи с учетом пользователя. Так как же это выглядит? Средний пользователь — 33-летний человек с одним яичком и одним яичником. Очевидно, это шутка. Смысл в том, что никто на самом деле не соответствует определению «среднего пользователя». И именно поэтому я утверждаю, что многие решения в области безопасности неоптимальны, потому что вместо этого мы пытаемся угодить этому вымышленному среднему пользователю, который на самом деле не существует и не соответствует профилю большинства реальных людей.
В результате проблемы остаются. Раньше пользователи видели предупреждения безопасности в браузере, которые выглядели примерно так. На самом деле люди воспринимали это как всплывающее окно, говорящее, что что-то произошло и нужно нажать «ОК», чтобы убрать это предупреждение, которое мешает им делать то, что они пытаются сделать. Там было много жаргона, который не помогал людям принять лучшее решение. Они могли нажать другую кнопку, чтобы прочитать еще больше жаргона, что тоже не особо помогало. Очевидным решением было просто нажать кнопку «ОК» и продолжить свои действия. Ситуация улучшилась. Были предприняты целенаправленные усилия по улучшению таких предупреждений, чтобы лучше объяснять модели угроз и усложнить совершение небезопасных действий.
Например, в браузере Firefox, очевидная опция «Уйти отсюда» требует нескольких дополнительных шагов для обхода предупреждения и посещения сайта. Таким образом, добавлено «трение». Это улучшение, но гипотеза, лежащая в основе всей этой работы, заключается в том, что текущие решения в области пользовательской безопасности дадут лишь локальные максимумы, если они учитывают поведение человека только в совокупности, потому что ни один человек не соответствует этому определению идеально. В то время как мы можем начать оптимизировать меры по смягчению угроз безопасности, адаптируя их к индивидуумам, а не к среднему пользователю. Это делается в маркетинге уже полвека. Таргетирование проводилось по географии, по демографии, по предшествующему поведению, даже психографическое таргетирование.
Это, кстати, было одним из источников вдохновения для всей этой исследовательской повестки около десяти лет назад. Я читал статью о том, как политические кампании использовали психографические тесты для таргетирования людей различными типами рекламы на основе их личностных черт. И это в некотором роде вдохновило меня рассмотреть возможность использования этого «во благо» вместо манипулирования людьми иным способом. Поэтому есть причина, по которой большинство присутствующих здесь не видят по телевизору рекламу детских сухих завтраков. У вас нет детей, которые смотрят передачи, предназначенные для детей. Это потому, что такая реклама полностью таргетирована. И это происходит в разных аспектах жизни. Фрейминг – еще один важный аспект. Различные черты характера влияют на то, как люди интерпретируют предоставляемую им информацию.
Например, психологические исследования показали, что люди с низкой нумерацией (трудности с мышлением в числах) по-разному воспринимают продукты, о которых говорят, что они содержат "95 процентов жира», "95 процентов обезжиренные» или "5 процентов жира». Человек с низкой нумерацией воспримет первый вариант гораздо более благоприятно, чем второй или третий, хотя они описывают одно и то же. Таким образом, такой фрейминг влияет на принятие решений. Итак, мы решили рассмотреть это в контексте мер по смягчению угроз безопасности и того, как их можно таргетировать в зависимости от индивидуальных различий. Вот пример. Это старое предупреждение браузера Firefox, которое объясняет угрозу безопасности и предлагает варианты, но его можно было бы адаптировать.
Например, для людей с высоким показателем «потребности в познании» – черты, по сути, количественно оценивающей любознательность. Возможно, для таких людей достаточно просто объяснить модель угрозы в понятных им терминах. Они могут отреагировать более благосклонно. Другой пример: для людей импульсивных можно принять иные дизайнерские решения. В этом случае опция «игнорировать» затемнена и вынуждает людей подождать определенное время. По сути, это предотвращает их импульсивное решение немедленно закрыть предупреждение. Возможно, за это время, пока они вынуждены ждать, они станут менее импульсивными, прочтут сообщение и обдумают его. Еще один аспект — зависимость. Зависимость — это еще одна черта, связанная с принятием решений, при которой люди с высокой зависимостью, по сути, ориентируются на мнение других при принятии решений.
Возможно, предупреждение для людей с высокой зависимостью могло бы быть сформулировано так: «эксперты по безопасности считают, что вам следует поступить так». Возможно, это было бы более убедительно для людей с такой чертой принятия решений. «Рассмотрение будущих последствий» — еще одна хорошо изученная черта в психологической литературе. По сути, она описывает, насколько дальновидны люди в плане последствий. Это достаточно самоочевидно. Опять же, возможно, разговор о будущих последствиях этих решений может быть убедительным для людей с этой чертой.
С чего мы начали со всем этим?
Первым шагом было определить, как мы должны сегментировать пользователей, если хотим таргетировать разных людей разными мерами по смягчению угроз безопасности. Нам нужен способ определить, какие черты с наибольшей вероятностью будут эффективны с точки зрения таргетирования.
Или, скорее, как мы должны адаптировать эти меры на основе такой сегментации? Я привел всего несколько возможных примеров. Мы решили изучить это подробно. Итак, сначала мы рассмотрели несколько различных показателей черт характера из психологической литературы, которые могут быть связаны с различными решениями в области безопасности. Большинство людей, изучавших вводный курс психологии, вероятно, знакомы с чертами личности «Большой пятерки». Это очень грубый способ измерения черт. Мы решили использовать это как отправную точку. Мы обнаружили, что они на самом деле не предсказывают ничего существенного в отношении принятия решений в области безопасности. Поэтому мы обратились непосредственно к литературе по принятию решений, где существует множество различных психометрических шкал для тестирования множества возможных черт.
Мы проанализировали их, чтобы выдвинуть гипотезы о том, какие из этих черт могут влиять на то, как люди принимают решения в области безопасности. Потребность в познании, о которой я говорил ранее, стиль принятия решений (есть несколько подшкал: люди, принимающие рациональные решения, или избегающие принятия решений, или насколько они ориентируются на мнение других, или насколько они принимают решения интуитивно или спонтанно) — все это измеримые черты. Есть шкалы для оценки склонности к риску, а также импульсивности. Я уже упоминал рассмотрение будущих последствий. Мы провели несколько экспериментов с опросами и увидели, что эти черты коррелируют с шкалами отношения к конфиденциальности. В литературе есть несколько таких шкал. Если отступить назад и рассмотреть шкалы отношения, то в целом отношение предсказывает поведение.
В большинстве случаев намерение действовать является предпосылкой к поведению. Поэтому, если люди не выражают готовность действовать, крайне маловероятно, что они предпримут какие-либо действия. Мы использовали это как отправную точку. Кроме того, использование различных шкал и анализ корреляций между различными чертами позволяет нам быстро проверить множество различных шкал, потому что мы, по сути, проводим опросы, а не контролируемые эксперименты с различными средами, которые пришлось бы создавать. Рассматривая ряд таких шкал, мы встретили индекс Вестона (Weston index). Это шкала из литературы, широко используемая в течение нескольких десятилетий. Она классифицирует людей как «фундаменталистов конфиденциальности», «прагматиков» или «незаинтересованных».
Мы обнаружили, что он не очень предсказуем, и есть литература, показывающая, что индекс Вестона вообще не предсказывает решения в области конфиденциальности. В литературе есть и другие шкалы, которые, как мы обнаружили, являются предиктивными. Я не буду подробно останавливаться на них. Как я уже сказал, черты личности «Большой пятерки», по нашим данным, не коррелировали ни с чем из этого.
А что насчет отношения к безопасности?
К моменту, когда мы начали эту работу около 10 лет назад, не существовало стандартных метрик для оценки отношения к безопасности. И опять же, мы хотели изучить отношение к безопасности, потому что это предпосылка к действию. Путем тестирования отношения людей или попыток понять, как мы можем на него повлиять, мы, вероятно, сможем добиться изменения поведения. Поэтому мы решили разработать такую шкалу отношения к безопасности, поскольку таковой не существовало.

Существует много литературы о том, как правильно построить шкалу. Нельзя просто взять и построить новую шкалу. На самом деле это довольно строгий процесс, в ходе которого необходимо четко определить, что вы измеряете, придумать возможные пункты (что, по сути, означает вопросы опроса), а затем уточнить их, измерив несколько различных статистических свойств, и провести валидацию. Я кратко остановлюсь на этом. Мы хотели измерить самооценку пользователей относительно соблюдения хороших правил безопасности. Мы задавали людям вопросы о правилах безопасности, которым они следуют, и спрашивали, как часто они это делают. Но возникает вопрос: какие из этих правил на самом деле важно измерить? Мы кратко изучили советы, которые можно найти в Интернете относительно хороших практик безопасности для пользователей.
В то время мы смотрели на рекомендации US-CERT, которые содержали более 500 пунктов, что, очевидно, абсурдно. Большинство конечных пользователей не будут выполнять все эти разные действия. Они хотят, чтобы им сказали небольшое количество вещей, которые они могут сделать, чтобы оставаться в безопасности в Интернете, не заучивая сотни возможных поведенческих изменений. Некоторые крупные предприятия, а также крупные интернет-провайдеры, также давали рекомендации, например, Verizon предлагал четыре пункта. Мы собрали все советы, которые смогли найти в Интернете, сгруппировали их и, по сути, оценили, какие советы действительно важны. В итоге мы получили список из около 30 хороших правил безопасности, которые, по нашему мнению, применимы к широкому кругу различных конечных пользователей. Мы также хотели сформулировать их в терминах намеренного поведения, а не предпочтений.
Существует разница между вопросом о том, признают ли люди что-то хорошим, и вопросом о том, намерены ли они фактически это делать. Используя эти 30 хороших правил безопасности, мы просили людей ответить по 5-балльной шкале от «полностью согласен» до «полностью не согласен». Затем, после разработки шкалы, мы смогли использовать полученные данные об отношении к безопасности для корреляции с различными личностными чертами, чтобы увидеть, какие черты на самом деле влияют на поведенческие намерения. Некоторые примеры пунктов, которые мы включили: «Я устанавливаю обновления программного обеспечения, как только мой компьютер предлагает это сделать». Люди отвечали по шкале от «полностью согласен» до «полностью не согласен» на вопросы о том, часто ли они делают резервные копии компьютера, игнорируют ли предупреждения безопасности.
В основном, мы смотрели, демонстрировал ли каждый из этих пунктов высокую дисперсию. Низкая дисперсия означает, что это плохой показатель для сегментации, потому что все отвечают примерно одинаково. Желательное свойство — высокая дисперсия, чтобы можно было сегментировать разные группы людей. Частью этого является поиск эффекта пола и потолка. Если все отвечают "5" по шкале для определенного пункта, это означает, что он универсально воспринимается как нечто хорошее, и, следовательно, это плохой показатель для сегментации. Мы переформулировали различные пункты и итеративно перепроверяли их, чтобы убедиться в этих свойствах. В то время мы проводили это на платформе Mechanical Turk, поэтому было легко опросить сотни, даже тысячи участников с каждой итерацией.
Каждый раз у нас были различные психометрические шкалы для оценки их возможной корреляции. Одна шкала, которую мы использовали неоднократно, — это шкала социальной желательности. Она позволяет понять, отвечают ли люди так, потому что они на самом деле так думают, или потому, что считают, что мы хотим, чтобы они так ответили. Мы обнаружили, что в большинстве случаев это не оказывало существенного влияния. И для одного пункта, где это влияние наблюдалось, оно объясняло очень небольшой процент дисперсии, поэтому мы пришли к выводу, что социальная желательность, по-видимому, не оказывает значительного искажающего эффекта на шкалу. Я пропущу некоторые детали. Мы удалили ряд пунктов из-за их неприменимости, неоднозначности или из-за того, что они пересекались с вопросами конфиденциальности и не касались безопасности.
Мы много переформулировали и итеративно повторяли исследование. Опять же, в разных итерациях участвовали пара тысяч человек. В итоге мы пришли к 24 пунктам. Затем мы уточнили их. Мы использовали факторный анализ, чтобы выявить различные факторы. В результате мы смогли выделить четыре разных фактора, на которые элегантно разделились пункты, о чем я сейчас расскажу. Факторы следующие: обеспечение безопасности устройства — это шаги, которые люди предпринимают для защиты своих устройств, например, использование экрана блокировки, когда они отходят, или блокировка мобильного устройства. Намерения по генерации паролей — относится к тому, стараются ли люди соблюдать гигиену паролей, меняя скомпрометированные или используя надежные пароли.
Проактивная осведомленность — по сути, насколько часто люди пытаются выявлять угрозы безопасности, например, устанавливают или обращают внимание на другие признаки неблагоприятной ситуации с безопасностью. И четвертый фактор — обновления: насколько оперативно люди обновляют программное обеспечение по запросу. Затем мы провели подтверждающий анализ, набрав еще больше участников, и обнаружили, что шкала очень надежна. Используя ее, мы изучили различные психометрические черты, чтобы определить, какие из них могут предсказывать хорошие намерения в области безопасности. Вот таблица корреляций, где представлены только статистически значимые корреляции. Например, «потребность в познании» коррелировала со всеми разными подшкалами. По сути, люди, которые любознательны, с большей вероятностью будут следовать хорошим правилам безопасности по всем четырем направлениям.
Это контрастирует с людьми, склонными к избеганию решений. Люди, у которых высокий показатель откладывания решений, скорее всего, будут иметь низкие намерения в области безопасности по всем четырем подшкалам. Таким образом, это стало инструментом для быстрой оценки того, как различные психометрические черты могут влиять на принятие решений в области безопасности. В последующем исследовании мы хотели проверить, действительно ли это предсказывает поведение. У нас было несколько гипотез. Одна гипотеза, касающаяся подшкалы осведомленности, заключалась в том, что пользователи, использующие строку URL для идентификации потенциальных фишинговых веб-сайтов, будут иметь более высокие показатели по подшкале осведомленности, чем пользователи, которые этого не делают.
Аналогично, для подшкалы паролей: пользователи, создающие пароли, которые не могут быть легко взломаны, будут иметь значительно более высокие показатели по подшкале паролей, чем пользователи, пароли которых могут быть взломаны. Чтобы проверить это, мы провели еще несколько экспериментов. Мы набрали больше работников на Mechanical Turk для прохождения психометрических шкал. Чтобы разнообразить утомительное нажатие множества «пузырьков» в опросах с множественным выбором, мы показывали им скриншот веб-сайта с полем для ввода текста и просили просто описать показанный веб-сайт. Было несколько легитимных сайтов, а среди них — один, который (если посмотреть на строку URL) был фишинговым. Через две недели мы пригласили этих людей снова, чтобы они прошли нашу шкалу намерений в области безопасности.
Мы хотели сделать это не одновременно со сбором данных о реальном принятии решений в области безопасности, так как это могло бы исказить результаты. Мы анализировали корреляцию между наблюдаемым поведением людей и их результатами по шкале. Из более чем 700 человек, участвовавших в этой части эксперимента, только 22 правильно определили фишинговый веб-сайт. Однако баллы этих людей по подшкале осведомленности были настолько выше, что это оказалось статистически значимым. Это огромный размер эффекта, и он показывает, что шкала действительно предсказывает это поведение. Что касается паролей, мы сказали участникам этого исследования, что между первой частью и последующей через две недели, когда они проходили шкалу, им нужно установить пароль, чтобы они могли вернуться. Университет Карнеги-Меллон (CMU) предлагает сервис для проверки угадываемости паролей.
Я не знаю, существует ли он до сих пор, но туда можно загрузить список хешей, и он покажет, сколько из них можно взломать. У них есть группа, которая проводит много исследований по взлому паролей, и они создали этот сервис, используя все свои методы. Мы обнаружили, что около 15% паролей, созданных для этого исследования, нельзя было легко взломать. Опять же, был эффект средней величины: люди, чьи пароли было сложно взломать, имели значительно более высокие показатели. Это снова показывает, что подшкала паролей довольно хороша. Относительно подшкалы обновлений, гипотеза заключалась в том, что пользователи, которые оперативно устанавливают обновления программного обеспечения, будут иметь значительно более высокие показатели по шкале обновлений, чем пользователи, которые откладывают их.
Чтобы проверить это, мы просто посмотрели на строку User-Agent в браузере. Мы настроили отдельный код для задания, который был доступен только пользователям Mac. Мы провели это через три недели после выхода OS X 10.11. Используя строку User-Agent, мы могли увидеть, какой процент участников уже обновился на основе подсказок, которые операционная система должна была им показать в то время. Мы обнаружили, что 24% пользователей обновились. И опять же, это коррелировало с нашей шкалой обновлений: те, у кого были высокие намерения обновиться, значительно чаще реально обновляли свое программное обеспечение. И наконец, обеспечение безопасности устройства. Пользователи, использующие безопасные экраны блокировки на смартфонах, будут иметь значительно более высокие показатели по шкале обеспечения безопасности, чем пользователи, не использующие безопасные экраны блокировки.
Для этого мы использовали панель, работающую на базе Университета Буффало. Они поддерживали кастомную версию Android и имели пару сотен человек, которые согласились на установку исследовательских инструментов на свои телефоны для участия в исследованиях. Мы использовали эту панель и делали это полностью пассивно. Мы просто использовали наш доступ к их телефонам, чтобы увидеть, кто использовал экран блокировки на своем мобильном устройстве, а кто нет, а затем сравнили это с их баллами по шкале. И снова, эффект был значимым. Это показывает, что намерения, зафиксированные опросом, по-видимому, коррелируют с поведением в области безопасности, а также с различными психографическими показателями черт характера, которые мы исследовали ранее.
Следующим шагом было выяснить, как мы можем теперь, когда увидели, что эти различные психографические показатели коррелируют с намерениями в области безопасности, которые, в свою очередь, коррелируют с поведением в области безопасности, наилучшим образом таргетировать меры по смягчению угроз. Я только что сказал это. Одним из направлений применения, которое мы решили исследовать, были «подталкивания» (nudges) при выборе пароля. Мы провели онлайн-эксперимент, в котором просили людей сыграть роль пользователя, входящего в свою электронную почту. Мы создали типовой веб-сайт электронной почты, где люди должны были установить пароль для новой учетной записи. Мы решили изучить различные «подталкивания», которые уже были опубликованы в литературе по паролям.
Было несколько статей о различных «подталкиваниях» при выборе паролей с разными результатами. Многие из них были очень неэффективными. Одна из наших гипотез заключалась в том, что, возможно, причина неэффективности некоторых из этих «подталкиваний» в том, что они показывались всем подряд, вместо того чтобы показывать определенные «подталкивания» людям, которые, по нашей гипотезе, наиболее вероятно поддадутся их влиянию, основываясь на их чертах принятия решений. Итак, мы решили реализовать пять различных вариантов. Один заключался в использовании простого индикатора надежности пароля. Другой — в социальном фрейминге, объясняющем людям, что их пароль надежнее, чем у X процентов других пользователей. Еще один — просто предложение подсказок о том, как сделать пароль надежнее.
Был вариант с количественной оценкой слабых сторон пароля, показывающий битовую силу или предполагаемое количество попыток, необходимых для взлома пароля. Мы предполагали, что это может коррелировать с людьми с высоким показателем нумерации: количественная оценка надежности пароля может помочь им лучше это понять. И наконец, вариант с "correct horse battery staple", который по сути взят из этого мультфильма xkcd, где предлагалось создавать надежные пароли, группируя несколько случайных слов вместе, чтобы они были более запоминающимися. Мы оценили этот метод, и другая группа также его оценила, обнаружив, что для этого на самом деле нет никаких оснований. Пароли на самом деле не надежнее, и неясно, более ли они запоминающиеся. Тем не менее, участники исследования сталкивались с этим веб-сайтом.
Независимо от того, какой пароль они вводили изначально, в контрольной группе мы показывали всем одно и то же сообщение: «Пароль, который вы выбрали на предыдущей странице, слаб. Пожалуйста, выберите более надежный пароль ниже». Таким образом, независимо от того, какой пароль они изначально ввели, все получали это сообщение. Однако на следующем экране, когда мы просили их попробовать еще раз, у нас было несколько условий. Была контрольная группа без «подталкивания», а затем различные экспериментальные условия. Вот «подталкивание» с индикатором, где мы показали графическое представление. Вот социальное «подталкивание»: мы говорим, что пароль слабее, чем у X процентов других пользователей. Вот подсказки для усиления. Была количественная оценка времени, необходимого для взлома.