Современные тенденции и метрики качества машинного перевода

Машинный перевод прошел долгий путь развития от rule-based систем, основанных на лингвистических правилах, до статистических и нейронных подходов. Rule-based системы, несмотря на свою основательность, оказались сложными в масштабировании и адаптации к новым языкам, а также подвержены искажению смысла.
Современные тенденции и метрики качества машинного перевода
Изображение носит иллюстративный характер

Статистический машинный перевод (SMT) с использованием двуязычных корпусов стал следующим этапом, предложив более универсальный подход, но требующий огромных объемов данных. Современные системы машинного перевода, такие как Яндекс. Переводчик и Google Translate, перешли к нейронным моделям, делегируя задачи определения корректных форм и употреблений слов нейронным сетям, обученным на больших объемах текстов.

В последнее время наблюдается тенденция к использованию больших языковых моделей (LLM) для машинного перевода. LLM показывают неплохие результаты в общем машинном переводе и позволяют вносить корректировки в стилистику и другие особенности перевода. Однако LLM подвержены артефактам и галлюцинациям, а также требуют больших вычислительных ресурсов.

Оценка качества машинного перевода – сложная задача, поскольку содержит субъективную составляющую. Существуют референсные метрики, требующие наличия эталонного перевода для сравнения, и безреференсные метрики. Классические метрики, такие как BLEU и TER, подвергаются критике из-за своих конструктивных недостатков и слабой корреляции с экспертной оценкой. Нейронные метрики, такие как Comet, показывают более точные результаты, но также имеют свои ограничения, связанные с неинтерпретируемостью и доменоспецифичностью.


Новое на сайте

19817В Луксоре нашли стелу с римским императором в образе фараона 19816Экипаж Artemis II о моменте, когда земля исчезла за луной 19815Почему луна выглядит по-разному в разных точках земли? 19814Adobe экстренно закрыла опасную дыру в Acrobat Reader, которую хакеры использовали с... 19813Метеорный поток, рождённый из умирающего астероида 19812Когда робот пишет за тебя прощальную смс 19811Что общего у лунной миссии, толстого попугая, загадочной плащаницы и лекарства от диабета? 19810Какие снимки Artemis II уже стали иконами лунной программы? 19809Кто на самом деле хочет сладкого — вы или ваши бактерии? 19808Как рекламные данные 500 миллионов телефонов оказались в руках спецслужб? 19807Экипаж Artemis II вернулся на землю после десяти дней в космосе 19806Зелёная и коричневая луна: почему геологи Artemis II уже не могут усидеть на месте 19805Эксперты уверены в теплозащитном щите Artemis II, несмотря на проблемы предшественника 19804Выжить внутри торнадо: каково это — когда тебя засасывает в воронку 19803Аляскинские косатки-охотники на млекопитающих замечены у берегов Сиэтла
Ссылка