Интегра. Комплексное оснащение школ

Как работает Яндекс.Переводчик?

Язык постоянно пополняется новыми словами. Одни остаются в лексиконе надолго, другие быстро забываются. Благодаря Интернету освоение новых слов происходит стремительно: сначала неологизм появляется в речи блогеров, затем его подхватывают журналисты, телеведущие и чиновники. Очень скоро слово начинает звучать в эфире, мелькать в новостях и соцсетях, использоваться в переписке...

Раз неологизм вошел в язык, пусть даже ненадолго, Яндекс.Переводчик должен понимать, что он означает, – и уметь его правильно переводить.

Многие системы автоматического перевода, включая наш Переводчик, обучаются с помощью параллельных текстов. Это тексты, одинаковые по содержанию, но написанные на разных языках. Совокупность таких текстов называют параллельным корпусом. Корпус регулярно пополняется: в него можно добавлять, например, книги, статьи, новости — все эти материалы часто выходят на разных языках.

В параллельных текстах встречаются неологизмы. Проблема в том, что обновление корпуса занимает много времени. Во-первых, тексты могут слегка различаться по смыслу. Перед добавлением в корпус их необходимо «выровнять»: найти соответствия между предложениями, фразами и отдельными словами. Во-вторых, после добавления новых текстов нужно заново подсчитать для всего корпуса коэффициенты вероятности переводов. Корпус – это огромный массив текстов, поэтому подсчет идет довольно долго.
Получается, что переводить новые слова система начинает лишь спустя месяцы после их появления. Для неологизмов, которые умирают так же быстро, как и рождаются, это недопустимо долгий срок.

Чтобы Переводчик быстрее реагировал на появление новых слов, мы начали использовать дополнительный источник данных – поиск. Услышав новое слово в теле- или радиоэфире или встретив в интернете, люди уточняют его значение в поиске. Слова, которые мало искали (или вообще не искали) раньше и стали много искать сейчас, – кандидаты на роль неологизмов.

Информация блога Яндекса