

Приветствую всех. Добро пожаловать в группу Intelligent Incorporation Group компании Fawcett. Сегодня с нами Грег Лепперт из Гарварда, который расскажет о самом скучном наборе данных в мире – хотя, возможно, это утверждение преувеличено. Я буду следить за чатом и передавать ваши вопросы. Меня зовут Грег Лепперт. Я – исполнительный директор проекта Institutional Data Initiative при библиотеке юридического факультета Гарвардской школы права и главный технолог Центра Бертон Кляйн, объединённого по всей университетской системе, хотя базирующегося в школе права. Мой опыт включает около двадцати лет работы в технологических стартапах в качестве инженера и специалиста по продукту.
Примерно десять лет назад моя деятельность перешла в сферу общественных интересов, когда я присоединился к Berkman Center – месту, где собираются специалисты для размышлений о влиянии инновационных технологий на общество. Попав туда, трудно было не втянуться в новые проекты. Два года назад я присоединился к Library Innovation Lab библиотеки юридического факультета, чтобы подумать, какой вклад мы можем внести, особенно в условиях стремительного развития искусственного интеллекта. Проект Institutional Data Initiative – это команда специалистов по данным и организаторов сообщества, работающая в библиотеке юридического факультета, которая сотрудничает с образовательными учреждениями для публикации обучающих наборов данных для ИИ. Мы помогаем понять, какое воздействие могут оказать их коллекции, и проводим значительную подготовительную работу для последующей публикации.
Значимость данных очевидна. Когда я начинал в Library Innovation Lab и погружался в экосистему Berkman, я заметил, что представители организаций, действующих в общественных интересах, искали возможности повлиять на развитие ИИ. Период появления ChatGPT открыл глаза многим, и люди начали задумываться: как можно воздействовать на ситуацию? Появились инициативы по проверке моделей ("red teaming"), разработке политики и созданию общественного давления. Однако все эти меры, как правило, применяются уже после выпуска моделей. Если рассматривать цепочку создания ИИ, то её можно описать простой формулой: данные плюс исследования, дополненные вычислительными ресурсами, дают ИИ. Исследовательская деятельность часто сосредоточена в индустрии, где действуют соответствующие рыночные механизмы, а вычислительные мощности быстро становятся дорогими для организаций, работающих в общественных интересах.
Таким образом, ключевым остаются данные. Под данными я подразумеваю не только длинные тексты, написанные человеком, изображения, видео и аудио, но и медицинскую, биологическую информацию и прочее. Нас интересует экосистема данных образовательных учреждений и то, как их можно использовать для достижения общественно значимых целей и улучшения жизни. Данные несут в себе знания о прошлых событиях, культурных феноменах и многом другом. Именно на данных обычно базируется появление новых возможностей в моделях. Кроме того, данные обеспечивают представление: модели могут не только накапливать знания о группах людей, их обычаях, местоположении и отличительных чертах, но и общаться с ними, используя понятный язык. Это представление расширяет возможности взаимодействия, так что если модель не владеет вашим языком, её практическая ценность значительно снижается.
Все эти аспекты объединяются в концепции «рычага данных». Обладая рычагом, можно управлять тем, какие знания попадают в ИИ, а также формировать или ограничивать его возможности. Например, можно удерживать или изменять определённую информацию, чтобы модель лучше отражала мировоззрение или опыт пользователей. Также таким способом можно влиять на представление данных: позволять или ограничивать доступ со стороны определённых групп. Рычаг данных открывает путь к прозрачности, ответственности и устойчивости. Если организация получает данные раньше остальных, она имеет возможность провести исследования, выявить их особенности и установить понятные правила использования. Это позволяет не только повысить прозрачность, но и создать ответственность – при получении доступа к данным пользователи обязаны учитывать обнаруженные аспекты.
Кроме того, становясь ключевым источником данных, организация стимулирует собственную устойчивость, поскольку поддержание потока информации становится приоритетом. Образовательные учреждения, такие как библиотеки, архивы, музеи, исследовательские лаборатории и государственные агентства, играют ключевую роль в накоплении и хранении информации. При этом не всё, что находится в их коллекциях, доступно онлайн. Например, некоторые учреждения хранят отсканированные книги на устаревших носителях, а корректность распознанного текста часто оставляет желать лучшего. Возможны ситуации, когда даже после сканирования данные оказываются недостаточно качественными или понятными, поэтому требуется дополнительная обработка. Могло бы показаться, что производителю ИИ достаточно просто обратиться к этим учреждениям за данными. Однако дело не в простой покупке – это вопрос искреннего взаимодействия и уважения к миссии учреждения.
Библиотеки и другие образовательные организации на протяжении тысячелетий играют важную роль, сталкиваясь с политическими и социальными вызовами. Они выработали собственные механизмы для долгосрочной устойчивости и обеспечения открытого доступа к информации. Если мы не проявим искреннюю заинтересованность в их миссии и не установим доверительные отношения, наше сотрудничество будет затруднено. Именно поэтому важно наладить эффективное управление заинтересованными сторонами. Реализация миссии учреждения связана с обеспечением ресурсов. В большинстве случаев учреждения испытывают недостаток кадров, необходимых для цифровизации коллекций, либо не обладают последними техническими знаниями. Они стремятся завершить работу над неполными коллекциями, а также сформировать качественные метаданные для обеспечения доступности информации.
Кроме того, важно ввести новые метрики, которые позволят оценить, насколько эффективно учреждение выполняет свою задачу по распространению знаний. Ключевой момент здесь – сохранение отношений между информацией и её создателями: вместо простого скачивания данных с сайта без обратной связи, мы стремимся обеспечить диалог с учреждениями, чтобы сохранить культурный и исторический контекст коллекций. Эффективный поиск данных основывается на ряде критериев. Прежде всего, это доступность – если данные уже широко опубликованы, наша инициатива может мало добавить. Если же данные находятся слишком далеко – либо недоступны из-за технологических барьеров, либо хранятся в закрытых архивах – их тоже сложно использовать. Идеальная ситуация наступает, когда данные уже в процессе цифровизации или недавно оцифрованы, и мы можем поддержать этот процесс. Также важны уникальность и качество информации.
Особенно это актуально для языков с ограниченными ресурсами или культурно значимых материалов – даже если они не так доступны, их уникальность может стать приоритетом. Помимо этого, значительную роль играет объем данных: большой набор может быть интересен даже при некоторых сложностях доступа. Наконец, следует учитывать и правовые аспекты. Мы отдаем предпочтение материалам, находящимся в общественном достоянии, поскольку они могут быть свободно опубликованы. При этом юридическая экспертиза – не менее сложная и дорогостоящая задача, требующая высококвалифицированных специалистов. Процесс поиска данных часто превращается в задачу по созданию сообщества. Никто не знает точно, какими коллекциями располагают учреждения, порой они даже сами не до конца осознают потенциал своих данных. Поэтому необходимо устанавливать долгосрочные отношения, вести обсуждения, разъяснять цели и помогать выявлять коллекции, соответствующие нашим критериям.
Такой процесс требует глубокого, доверительного взаимодействия, а не поверхностного коммерческого подхода. После получения набора данных мы запускаем модифицированный процесс ETL. Сначала данные извлекаются из учреждения и помещаются в специальное хранилище. Затем происходит этап трансформации: приглашённые специалисты проводят первичное исправление ошибок (например, корректировку оптического распознавания текста) и структурирование данных, чтобы обеспечить их дальнейшую удобную обработку. Следующий этап – оценка, когда исследователи, в том числе специалисты цифровых гуманитарных наук, проводят детальный анализ набора данных, подготавливая материал к выпуску, что зачастую сопровождается публикацией технического отчёта. И завершает процесс публикация – мы делаем данные доступными для всех.
При этом важна не столько концентрация данных в одном месте, сколько предоставление возможности самим образовательным учреждениям публиковать свои коллекции, оставаясь их хранителями и гарантом достоверности. Наш подход основан на повторении процесса: публикуя один набор данных за другим, мы задаём собственный пример, а не устанавливаем обязательные стандарты письменно, как это делалось в ранние дни развития Интернета. Тогда стандарты устанавливались практикой взаимной совместимости, когда разнообразные участники достигали единства, не отказываясь от своих интересов. Так и здесь мы стремимся создать де-факто стандарты публикации, которые обеспечат прозрачность и доверие. Чтобы набор данных был по-настоящему «скучным», он должен быть четко структурированным, без ошибок и неожиданных сюрпризов. Такая обработка достигается благодаря тщательной проверке, алгоритмическому анализу и внимательному просмотру экспертами.
Скучные данные – это те, в которых нет непонятных моментов, а все элементы тщательно откорректированы. Дополнительно мы обеспечиваем безопасность информации, фильтруя личные данные и корректируя контент, способный вызвать нежелательное поведение моделей. Надёжная защита, гарантия происхождения и хранение данных позволяют сохранить связь с оригинальными источниками, которыми являются учреждения, хранящие информацию веками. Моя цель – через совместную работу с образовательными учреждениями и публикацию наборов данных создать критическую инфраструктуру для разработки ИИ, от которой будет зависеть весь сектор. Я мечтаю об универсальном наборе, к которому смогут обращаться все, подобно тому, как многие обращаются к Linux. Такой ресурс, проверенный временем и многочисленными экспертами, станет основой для работы текстовых, мультимодальных и других моделей.
Несмотря на критику, этот ресурс будет развиваться медленно и осторожно, сохраняя высокий уровень качества, что позволит создать устойчивую, индустриально поддерживаемую базу. Чтобы обеспечить удобство использования, путь к работе с данными должен быть одновременно правильным и простым. Мы хотим, чтобы пользователи автоматически выбирали качественные данные, не задумываясь о сложности их интеграции, ведь путь от правильного решения к простоте использования должен совпадать. DeepSeek недавно анонсировали, и данные, на которых модель обучалась, многие на Западе воспринимают как пропаганду. Получается, что те, кто располагают этими наборами данных, могут управлять нарративами и контролировать, что видят другие, возможно, с участием Китая.
Как вы считаете, как это соотносится с вашей работой?
Мы должны тщательно следить за тем, чтобы информация не изменилась до неузнаваемости.

При оцифровке книг иногда происходят непреднамеренные изменения – например, если на странице попадает рука, невозможно точно восстановить оригинал. Поэтому необходимо зафиксировать каноническую версию. Кроме того, публикация данных может стать формой культурной дипломатии, позволяющей представителям различных групп самим определять, как они хотят быть представлены. Это создаёт ответственность за распространение информации, и важно, чтобы ресурсы не становились преградой для доступа. Учреждения, о которых вы говорите, архивируют материал избирательно, что приводит к утрате некоторых данных и сохранению дезинформации.
Как вы находите баланс между этим и сохранением исторической ценности?
Учреждения очень внимательно подходят к курированию своих коллекций, решая, какие книги приобрести или оставить на полке для широкого доступа.
Мы внимательно изучаем принципы работы библиотекарей, ведь они знают, какое влияние может оказать отбор материалов. Несмотря на неизбежные утраты и искажения, наша задача – сохранять связь с оригиналом и помогать воссоздать максимально полное представление даже тогда, когда какую-то информацию уже невозможно восстановить.
Как курировать наборы данных так, чтобы полезная и деликатная информация не попала в обучающие данные, учитывая, что, например, тестовые сеты или специализированные статьи не должны использоваться для общей тренировки моделей?
Мы уделяем повышенное внимание разработке практик публикации в сотрудничестве с библиотекарями и экспертами, которые уже сталкивались с подобными проблемами. Важно, чтобы культурные группы сохраняли контроль над своей информацией и могли самостоятельно определять условия доступа.
Возможно, данные будут доступны частично или через ограниченные интерфейсы, что позволит использовать их выборочно, сохраняя баланс между открытым доступом и сохранением деликатности материала.
Как вы определяете формат, объем и распределение данных, чтобы они подходили для различных задач – от больших языковых моделей до экспериментов с меньшими объемами? Планируете ли вы предоставлять данные в разных версиях?
Мы проводим эксперимент по созданию «пакетного менеджера для данных». С помощью манифеста, запускаемого через командную строку, можно заранее указывать источники данных и необходимые диапазоны. Такой подход позволяет отделить сам процесс публикации от этапа курирования. Исходные данные остаются неизменными, а сверху строится процесс обработки, что даёт возможность создавать несколько версий для различных задач, сохраняя при этом источник и историю изменений.
На чем вы сосредоточитесь в ближайший год и какие проекты планируются?
В ближайшие месяцы мы планируем выпустить доказательство концепции пакетного менеджера, опубликовать набор из миллиона книг, отсканированных в рамках проекта Google Books в Гарвардской библиотеке, и запустить проект с архивами старых газет из Бостонской публичной библиотеки. Мы также ведем переговоры с учреждениями, владеющими крупными коллекциями книг, видеоархивами и другими ресурсами. Наша цель – разработать проект в формате опенсорс и собрать сообщество технологов, ученых и юристов, которые помогут определить оптимальные форматы данных для дальнейшей интеграции в закрытые и открытые пайплайны.
Где можно узнать больше о проекте и какие существуют пути для сотрудничества с вами?
На нашем веб-сайте в нижней части страницы размещена информация о вакансиях и возможностях участия для инженеров, представителей учреждений и академиков.
По указанным адресам можно написать письмо, после чего мы установим персональный контакт, добавим в рабочие каналы и обсудим возможное сотрудничество. Мы стремимся создать активное сообщество, в котором каждый сможет внести свою лепту.
Как, по вашему мнению, ускоренное развитие ИИ повлияет на роль и значение данных? Какие вызовы стоят перед нами?

Я оптимист. Улучшение моделей позволит быстрее извлекать полезную информацию из архивов – например, проблемы с извлечением данных из старых газет или таблиц из оцифрованных книг постепенно будут решаться с помощью новых подходов. Повышение качества извлечения, в свою очередь, приведёт к лучшему обучению моделей. Принципиальные подходы в публикации и курировании данных помогут снизить риски, поскольку фундаментальные ресурсы – данные, исследования и вычислительные мощности – остаются базой любой инновационной экосистемы.
Если создать систему, где выбор правильного пути становится одновременно легким и надёжным, мы сможем обеспечить безопасное развитие ИИ. Спасибо за вопросы. ────────────────────────────
Всем привет. Добро пожаловать в группу Intelligent Incorporation Group компании FOSSET. Сегодня у нас вновь Грег Лепперт из Гарварда, который расскажет о самом скучном наборе данных в мире. Я буду следить за чатом и передавать вопросы. Позвольте поделиться экраном. Я – Грег Лепперт, исполнительный директор проекта Institutional Data Initiative при библиотеке юридического факультета Гарвардской школы права и главный технолог Центра Бертон Кляйн. Мой опыт в технологических стартапах насчитывает около двадцати лет, а примерно десять лет назад я начал работать с Berkman Center, где собираются специалисты для анализа влияния трансформационных технологий на общество.
Это привело меня к участию в Library Innovation Lab, где, два года назад, я начал искать пути повышения воздействия на развитие ИИ. Institutional Data Initiative – это команда специалистов по данным и организаторов сообщества, которая работает с образовательными учреждениями для публикации обучающих наборов данных для ИИ. Мы помогаем учреждениям понять, какой потенциал кроется в их коллекциях, и готовим материалы для дальнейшего распространения. Когда я только пришел в Library Innovation Lab и в экосистему Berkman, многие представители организаций, действующих в общественных интересах, искали способы повлиять на развитие ИИ. Появление ChatGPT открыло глаза многим, и люди стали задумываться, как можно провести «red teaming», разработать политику и создать общественное давление.
Однако большинство этих мер осуществляется уже после выпуска моделей. Если рассматривать всю цепочку создания ИИ, то в ней ключевую роль играют данные, исследования и вычислительные ресурсы. Исследований становится больше в индустрии, где есть необходимые ресурсы, а вычислительные мощности недоступны для общественных организаций, так что данные остаются на последнем месте. Под данными мы понимаем как длинные тексты, созданные человеком, так и изображения, видео, аудиозаписи, а также медицинские и биологические данные. В контексте нашего проекта ключевым является исследование экосистемы данных образовательных учреждений и возможности их использования для общественных целей. Данные хранят знания: они рассказывают о событиях, культурных феноменах, обеспечивают возможности и представление.
Модель, обладая данными, не только накапливает знания о группах людей, но и может корректно их передавать, говорить на нужном языке, что существенно повышает её практическую ценность. Все эти аспекты объединяются в понятии «рычаг данных». Обладая этим рычагом, можно управлять знаниями в моделях, либо ограничивать их, либо дополнять для лучшего соответствия нужной точке зрения. Это также позволяет регулировать возможности и представление информации, влияя на степень контроля над системами ИИ. Такой рычаг открывает возможности для прозрачности, ответственности и устойчивости, а также позволяет создавать приоритетный доступ для тех, кто работает в общественных интересах. Образовательные учреждения – библиотеки, архивы, музеи, исследовательские лаборатории, государственные агентства – являются главными хранителями знаний. При этом немногие материалы из этих источников доступны в интернете.
Например, некоторые учреждения хранят тысячи отсканированных книг на устаревших носителях, а результаты оцифровки часто нуждаются в доработке. Причина, по которой производители ИИ не могут просто запросить данные, кроется в необходимости глубокого взаимодействия с учреждениями и уважительного отношения к их миссии. Библиотеки и подобные организации уже веками сохраняют важнейшую информацию и выработали устойчивые механизмы обеспечения открытого доступа. Если взаимодействовать поверхностно, без учета их ценностей, сотрудничество окажется затруднительным. Поэтому крайне важны искреннее взаимодействие, налаживание контактов и грамотное управление заинтересованными сторонами. В процессе реализации миссии учреждения важно учитывать ресурсы: кадровая обеспеченность, техническая компетенция и стремление довести коллекции до полной доступности с качественными метаданными.
Совместными усилиями можно ускорить цифровизацию, повысить полноту и качество данных, а также разработать новые метрики для оценки эффективности распространения знаний. Особое внимание уделяется сохранению связи между исходными данными и их создателями, чтобы не потерялся культурный и исторический контекст. Процесс поиска данных преобразуется в задачу создания сообщества. Часто сами учреждения не знают в полной мере, какими коллекциями располагают, поэтому необходимы длительные переговоры и регулярное общение. Такой подход создаёт устойчивые отношения, позволяющие выявить материалы, способные удовлетворить наши критерии. После получения набора данных начинается модифицированный процесс ETL. Сначала данные извлекаются из учреждения и помещаются в хранилище. Затем следует этап трансформации, во время которого проводятся исправления ошибок распознавания текста и структурирование информации для дальнейшего использования.
После этого приглашенные исследователи и специалисты цифровых гуманитарных наук проводят детальный анализ, результаты которого оформляются в виде технического отчета. По завершении выполняется публикация – данные становятся доступными для широкого круга пользователей. При этом наша цель – не стать просто агрегатором, а помочь образовательным учреждениям публиковать коллекции, оставаясь их хранителями и гарантом достоверности. Мы повторяем этот процесс вновь и вновь, показывая, что на практике лучше задавать пример, чем диктовать стандарты. Как на заре развития Интернета, когда стандарты возникали благодаря взаимному сотрудничеству разных участников, сегодня мы стремимся создать де-факто стандарты публикации данных, обеспечивающие прозрачность и стабильность.
Чтобы набор данных был по-настоящему «скучным», он должен быть предельно структурированным, без ошибок и сюрпризов, достигнутых благодаря тщательной проверке, автоматическим алгоритмам и внимательному просмотру экспертами. Безопасность информации также важна: необходимо фильтровать персональные данные и предотвращать появление контента, способного вызвать нежелательное поведение модели. Надёжное сохранение исходных материалов, с четкой привязкой к оригиналу, позволяет избежать непреднамеренных изменений, когда модифицированные данные могут утратить свои исторические и культурные особенности. Моя цель – через тесное взаимодействие с образовательными учреждениями и публикацию наборов данных создать фундаментальную инфраструктуру для разработки ИИ, от которой будет зависеть вся отрасль. Я мечтаю о наборе данных, на который смогут опереться все исследователи, подобно тому, как многие обращаются к Linux.
Такой ресурс, проверенный временем и экспертизой, будет изменяться очень медленно и аккуратно, что обеспечит устойчивость и высокое качество. Важно, чтобы работа с данными становилась одновременно правильным и удобным выбором. Нам нужно сделать так, чтобы путь к качественному и безопасному использованию данных был самым естественным и доступным. Спасибо за внимание. Было приятно поделиться нашей работой. ────────────────────────────
(Следуют ответы на вопросы участников.)
DeepSeek недавно анонсировали, и данные, на которых модель обучалась, многие на Западе воспринимают как пропаганду. Получается, что те, кто располагают этими наборами данных, могут управлять нарративами и контролировать, что видят другие, возможно, с участием Китая.
Как вы считаете, как это соотносится с вашей работой?
Мы должны обеспечить сохранение канонической версии данных.

При сканировании книг иногда могут возникать погрешности – например, попадание руки на страницу затрудняет точное восстановление текста. Поэтому крайне важно фиксировать оригинал. Кроме того, публикация данных может стать формой культурной дипломатии, позволяющей различным группам самим определять, как их представляют. Это создаёт ответственность у тех, кто публикует данные, и помогает избежать ситуаций, когда доступ к информации становится инструментом для манипуляции. Учреждения, о которых вы говорите, архивируют материал избирательно, что приводит к утрате некоторых данных и сохранению дезинформации.
Как вы находите баланс между этим и сохранением исторической ценности?
Учреждения очень внимательно занимаются курированием коллекций, принимая решения о том, какие материалы приобретать или сохранять для широкого доступа. Мы изучаем их опыт и принципы, чтобы понять, каким образом осуществляется отбор.
Несмотря на неизбежные утраты и наличие дезинформации, наша задача – сохранить ту часть материала, которая способна дать полное представление, и, если возможно, восстановить утраченные фрагменты или компенсировать их отсутствием.
Как курировать наборы данных так, чтобы полезная и деликатная информация не попала в обучающие данные, учитывая, что, например, тестовые сеты или специализированные статьи не должны использоваться для общей тренировки моделей?
Мы придаем большое значение разработке практик публикации в тесном сотрудничестве с библиотекарями и экспертами, обладающими опытом работы с деликатной информацией. Это позволит культурным группам сохранять контроль над своими материалами. Мы ищем способы предоставления доступов в ограниченной форме или через выборочные интерфейсы, чтобы нужная информация использовалась только по назначению, не нарушая принципов конфиденциальности и культурного суверенитета.
Как вы определяете формат, объем и распределение данных, чтобы они подходили для различных задач – от больших языковых моделей до экспериментов с меньшими объемами? Планируете ли вы предоставлять данные в разных версиях?
Мы экспериментируем с созданием «пакетного менеджера для данных». С помощью специального манифеста можно задать источники данных и указать необходимые диапазоны для выборки. Такой подход позволит отделить процесс публикации от этапа курирования, оставив исходные данные неизменными, а затем применить к ним различные обработки. Это значит, что мы сможем предоставлять данные в разных форматах и объемах в зависимости от конкретных задач, сохраняя при этом их оригинальное происхождение.
На чем вы сосредоточитесь в ближайший год и какие проекты планируются?
В ближайшие месяцы мы планируем опубликовать доказательство концепции пакетного менеджера, выпустить набор из миллиона оцифрованных книг, а также запустить проект с архивами старых газет из Бостонской публичной библиотеки. Мы ведем переговоры с организациями, владеющими крупными книжными коллекциями, видеоархивами и другими материалами. Наша цель – создать опенсорсное сообщество, где технологи, академики и юристы смогут совместно формировать стандарты работы с данными, адаптированные к современным требованиям.
Где можно узнать больше о проекте и какие существуют пути для сотрудничества с вами?
На нашем сайте в нижней части страницы размещена информация о вакансиях и возможностях участия для инженеров, представителей учреждений и учёных.
Связь осуществляется через указанные почтовые адреса – после обращения мы установим личный контакт, подключим вас к рабочим каналам и обсудим варианты сотрудничества. Мы стремимся создать активное сообщество специалистов, объединённых общей целью.
Как, по вашему мнению, ускоренное развитие ИИ повлияет на роль и значение данных? Какие вызовы стоят перед нами?
Я настроен оптимистично. По мере того как модели становятся совершеннее, извлечение информации из сложных источников – например, старых газет или неструктурированных таблиц – будет улучшаться. Это позволит создать более качественные обучающие наборы, а принципиальные подходы в публикации и курировании данных помогут минимизировать риски. Инвестиции в данные, исследования и вычислительные ресурсы остаются базой для создания надёжной инфраструктуры, благодаря которой выбор правильного пути становится естественным и доступным. Спасибо за вопросы и внимание.