Ssylka

Оптимизация анализа культурных реалий в субтитрах

Исследование культурных реалий в субтитрах сериалов было усовершенствовано путём автоматизации распаковки zip-архивов, разделения данных по сезонам и предварительного подсчёта токенов. Это позволяет оценить стоимость обработки до запуска. Для уменьшения «болтливости» модели и обрыва предложений, были добавлены методы обработки строк, обрезающие текст после точки и убирающие лишние дефисы. Длина выдачи ограничена 120 токенами, что обеспечивает лаконичность.
Оптимизация анализа культурных реалий в субтитрах
Изображение носит иллюстративный характер

Выбор GPT-4o вместо более дешёвых моделей обусловлен более высоким качеством объяснений. Анализ категорий был улучшен кластеризацией, что расширило начальный список категорий. Однако это потребовало ручной обработки меток, например, стандартизации регистра и устранения дубликатов.

Для визуализации результатов была построена тепловая карта, выявившая доминирование категории "location". При этом значительная часть данных в категории "location" представляла собой базовую географическую информацию. Поэтому было решено сосредоточиться на других категориях реалий, таких как устойчивые выражения, фильмы, песни и др.

Скрипт для анализа субтитров оказался универсальным и может быть применен к фильмам, сериалам, книгам и подкастам. В результате работы было извлечено более 1000 культурных реалий из сериала "Emily in Paris". Код и результаты доступны на GitHub и в Google-таблице соответственно.


Новое на сайте

18590Является ли ИИ-архитектура, имитирующая мозг, недостающим звеном на пути к AGI? 18589Как Operation Endgame нанесла сокрушительный удар по глобальной киберпреступности? 18588Кибервойна на скорости машин: почему защита должна стать автоматической к 2026 году 18587Как одна ошибка в коде открыла для хакеров 54 000 файрволов WatchGuard? 18586Криптовалютный червь: как десятки тысяч фейковых пакетов наводнили npm 18585Портативный звук JBL по рекордно низкой цене 18584Воин-крокодил триаса: находка в Бразилии связала континенты 18583Опиум как повседневность древнего Египта 18582Двойной удар по лекарственно-устойчивой малярии 18581Почему взрыв массивной звезды асимметричен в первые мгновения? 18580Почему самые удобные для поиска жизни звезды оказались наиболее враждебными? 18579Смертоносные вспышки красных карликов угрожают обитаемым мирам 18578Почему самый активный подводный вулкан тихого океана заставил ученых пересмотреть дату... 18577Вспышка на солнце сорвала запуск ракеты New Glenn к Марсу 18576Как фишинг-платформа Lighthouse заработала миллиард долларов и почему Google подала на...