Группа швейцарских и британских исследователей предложила новый метод экспертной оценки машинного перевода. Он позволяет проверить, насколько полно перевод передает смысл оригинала, и насколько он правилен с точки зрения грамматики — причем не на уровне отдельных предложений, а на уровне целого текста. Оказалось, что машинный перевод с китайского на английский уступает человеческому переводу по обоим критериям. Препринт статьи опубликован на arXiv.org.
В последние годы разработчикам удалось добиться успехов в машинном переводе и во многом — благодаря использованию нейросетей, которые позволяют учитывать контекст переведенных слов. Два года назад «рекордно точный» машинный перевод на основе глубокого обучения представила Google, а год назад Яндекс.Переводчик запустил гибридную модель перевода, основанную как на использовании классического статистического, так и нейросетевого методов.
Обычно системы машинного перевода перед запуском проверяются либо с помощью специальных алгоритмов, либо вручную людьми. Во втором случае проверка, пусть и происходит медленнее, позволяет оценить качество намного полнее. Тем не менее, даже такая проверка в основном проходит на уровне предложений, и значительно реже — текста, что может отразиться на связности целого текста и, как следствие, его понимании читателем.
Новый метод для оценки качества машинного перевода предложили ученые под руководством Самюэля Лойбли (Sameul Läubli) из Цюрихского университета. Их метод основа на оценке экспертами всего двух параметров: соответствия исходному тексту (adequacy) и плавности (fluency). Такая оценка сводится к выбору лучшего варианта перевода на основе двух вопросов: «Какой перевод лучше передает смысл исходного текста?» и «Какой перевод грамматически более правилен?».
Для проверки своего метода ученые попросили 100 профессиональных переводчиков оценить фрагменты перевода с китайского на английский: часть из них была сделана переводчиками, а часть — с помощью машинного перевода. Исследователи выяснили, что по обоим параметрам тексты, переведенные людьми, превосходят машинный перевод.
На рисунке - Предпочтение предложений (оранжевым) и текстов (синим), переведенных компьютером и человеком
Авторы таким образом показали, что методики оценки качества машинного перевода должны выйти на более обширный контекстный уровень: нескольких предложений или даже целых текстов.
Обычно для построения эффективных моделей машинного перевода требуется использование достаточно объемных параллельных корпусов — сборников текстов на языке-источнике и целевом языке. Недавно, однако, разработчики из Facebook научились обходиться без него: для этого они используют векторное представление слов и алгоритм, который оценивает грамматическую правильность переведенных фрагментов.
По информации https://nplus1.ru/news/2018/09/05/machine-translation-evaluation
Обозрение "Terra & Comp".