MENU

Все, что вы хотели знать о «машинном переводе», но боялись спросить

4899 2

Все что вы хотели знать о «машинном переводе» но боялись спросить.

Все или почти все системы машинного перевода  начинали свое обучение на корпусе текстов из официальных документов ООН - как наиболее качественном примере перевода текстов на 6-18 языков мира.

Как это происходит: берется два документа с переводом одного текста на два или более языка, в них выделяется абзац, предложение, словосочетание и находится его соответствие во втором документе. Затем эта процедура повторяется много раз на других документах.

Иногда переводы совпадают, иногда нет - так появляются разные варианты и смыслы. По частоте употребления выделяется наиболее употребимый - его дальше и использует компьютер. Поэтому машинный перевод постоянно учится, ищет и находит новые возможные смыслы.

Когда какой-то новый вариант перевода по частоте его употребления превышает старый - он начинает использоваться, как основной. Напомню, речь идет не об отдельных словах, а о словосочетаниях и иногда целых предложениях, а также контексте использования того или иного слова.

Допустим вы хотите рассказать о «наличии людей, которые занимаются решением определенных вопросов, в том числе в военной сфере» или, например, как эти люди «выполняют интернациональный долг».

Но как перевести эти слова англоговорящему ирландцу? Очевидно «international debt» вызовет вопрос о деньгах, «duty» вас тоже не спасет. Вам прийдется раскрыть смысл, пусть даже используя для этого совсем другие слова и словосочетания.

Тоже самое происходит и без перевода на другие языки, у каждого слова есть наш внутренний перевод - его смысл.

Поначалу это кажется хорошей идеей прятаться за формальным смыслом слов, рассчитывая, что слово своим смыслом изменит (хотя бы окраску) происходящих событий. Но если это делать достаточно долго, все происходит с точностью до наоборот - уже события изменяют смысл исходного слова. Потому что живой язык - это не набор правил и законов какого-то института.

Гугл не фраер, он все видит. Каждый день он индексирует миллионы документов, новостей, форумов, твитов и того, что мы все называем "живым языком". Сравнивает переводы, считает частоту употребления и находит новые смыслы. Те самые смыслы, которые казалось бы, никогда не покидают нашей головы.

В результате машинный перевод лишь отражение современного языка, смысла фраз и оборотов.

И вот однажды синхронный переводчик в зале официальных заседаний Совета Безопасности ООН на полном автомате переведет очередное «присоеденили» в «annexed». Затем это попадет в документы, на которых будут учиться уже новые переводчики.

Володимир Фльонц


Повідомити про помилку - Виділіть орфографічну помилку мишею і натисніть Ctrl + Enter

Сподобався матеріал? Сміливо поділися
ним в соцмережах через ці кнопки

Інші новини по темі

Правила коментування ! »  
Комментарии для сайта Cackle

Новини