Машинный перевод на основе примеров

Машинный перевод на основе примеров (англ. Example-based machine translation, EBMT) — это метод машинного перевода, который часто характеризуется использованием двуязычного корпуса с параллельными текстами в качестве основной базы знаний во время выполнения перевода. По сути, это перевод по аналогии, который может рассматриваться как применение метода рассуждений на основе прецедентов к машинному обучению.

Перевод по аналогии

В основе машинного перевода на примерах лежит идея перевода по аналогии. Применительно к процессу перевода человеком, мысль о том, что перевод выполняется по аналогии, является отказом от идеи, что люди переводят предложения, делая глубокий лингвистический анализ. Вместо этого, данная мысль основана на убеждении, что люди переводят, сначала разбирая предложения на определённые фразы, затем переводят эти фразы, и, наконец, правильно составляют эти фрагменты в одно длинное предложение. Переводы по фразам выполняются по аналогии с предыдущими переводами. Принцип перевода по аналогии кодируется в машинном переводе на основе примеров посредством примеров переводов, которые используются для обучения такой системы. Другие подходы к машинному переводу, включая статистический машинный перевод, также используют двуязычные корпуса для изучения процесса перевода.

История

Машинный перевод на основе примеров был впервые предложен Макото Нагао в 1984 году^[1]. Нагао указывал на то, что данный вид перевода специально адаптирован для перевода, если это касается двух совершенно разных языков, таких как английский и японский. В этом случае одно предложение может быть переведено на несколько хорошо структурированных предложений на другом языке, поэтому нет смысла делать глубокий лингвистический анализ, характерный для машинного перевода на основе правил.

Алгоритм работы

В общем, система EBMT состоит из трех компонентов: поиска соответствий, рекомбинации и выравнивания^[2]^[3].

Поиск соответствий: В соответствующем компоненте выполняется поиск множества примеров перевода для определения схожих фрагментов текстов в исходном предложении.
Рекомбинация: На данном этапе фрагменты текста, извлечённые на этапе соответствий, объединяются для создания целого предложения. Основываясь на структуре хранения примеров (например, деревья, таблицы и т. д.), процесс объединения может потребовать конкретные процедуры для объединения текстовых единиц. Например, если примеры хранятся в древовидной структуре, для образования выходных данных следует использовать метод унификации древовидных структур^[4].
Выравнивание: Чтобы полностью соответствовать грамматике целевого языка и уменьшить количество несоответствий в выходных данных, необходимо выполнить некоторую последующую обработку, например, согласование подлежащего с глаголом^[3].

Пример

Пример двуязычного корпуса

Английский	Японский
How much is that red umbrella?	Ano akai kasa wa ikuradesuka.
How much is that small camera?	Ano chiisai kamera wa ikura desu ka.

Системы машинного перевода на основе примеров состоят из двуязычных параллельных корпусов, содержащих пары предложений, как пример, приведённый в таблице выше. Пары предложений содержат предложения на одном языке с их переводом на другой. В данном примере показан пример минимальной пары, что означает, что предложения отличаются лишь одним элементом. Эти предложения упрощают запоминание переводов частей предложения. Например, система машинного перевода на основе примеров запомнит три единицы перевода из приведённого выше примера:

How much is that X ? соответствует Ano X waikuradesuka.
red umbrella соответствует akai kasa
small camera соответствует chiisai kamera

Составление этих единиц может использоваться для создания новых переводов в будущем. Например, если бы нас обучали, используя текст, содержащий предложения: President Kennedy was shot dead during the parade и The convict escaped on July 15th, мы могли бы перевести предложение The convict was shot dead during the parade, заменив соответствующие части предложений.

Фразовые глаголы

Машинный перевод на основе примеров лучше всего подходит для таких явлений подъязыка, как фразовые глаголы. Фразовые глаголы имеют весьма контекстно-зависимые значения. Они распространены в английском языке и состоят из глагола, за которым следует наречие и/или предлог, который называется частицей в составе глагола. Фразовые глаголы образуют специализированные контекстно-специфические значения, которые не могут быть извлечены из смысла составляющих. При их пословном переводе с исходного языка на целевой почти всегда возникает неоднозначность . В качестве примера рассмотрим фразовый глагол «put on» и его значение на хинди—урду. Он может использоваться любым из следующих способов:

Ram put on the lights. (Switched on) (перевод на хинди—урду: Jalana)
Ram put on a cap. (Wear) (перевод на хинди—урду: Pahenna)

См. также

Примечания

↑ Makoto Nagao (1984). «A framework of a mechanical translation between Japanese and English by analogy principle». In A. Elithorn and R. Banerji. Artificial and Human Intelligence Архивная копия от 6 февраля 2012 на Wayback Machine (PDF). Elsevier Science Publishers.
↑ H. Somers, "Review article: Example-based Machine Translation, " Machine Translation, no. 14, pp. 113—157, 1999.
↑ ¹ ² Mohammadi, Mehdi (2011). A Semantic-Tended Approach to Recombination in EBMT Systems. 7th International Conference on Natural Language Processing and Knowledge Engineering (NLP-KE), 2011. IEEE. pp. 260—264. doi:10.1109/NLPKE.2011.6138205.
↑ Sato, Satoshi. «MBT2: a method for combining fragments of examples in example-based translation.» Artificial Intelligence 75, no. 1 (1995): 31-49.

Литература

Carl, Michael; Way, Andy (2003). Recent Advances in Example-Based Machine Translation. Netherlands: Springer. doi:10.1007/978-94-010-0181-6. ISBN 978-1-4020-1400-0.

Ссылки

Cunei — платформа с открытым исходным кодом для машинного перевода на основе корпусов, которая вышла за рамки исследований EBMT, но также включает в себя последние достижения в области SMT

[1] Makoto Nagao (1984). «A framework of a mechanical translation between Japanese and English by analogy principle». In A. Elithorn and R. Banerji. Artificial and Human Intelligence Архивная копия от 6 февраля 2012 на Wayback Machine (PDF). Elsevier Science Publishers.

[2] H. Somers, "Review article: Example-based Machine Translation, " Machine Translation, no. 14, pp. 113—157, 1999.

[автоссылка1-3] ¹ ² Mohammadi, Mehdi (2011). A Semantic-Tended Approach to Recombination in EBMT Systems. 7th International Conference on Natural Language Processing and Knowledge Engineering (NLP-KE), 2011. IEEE. pp. 260—264. doi:10.1109/NLPKE.2011.6138205.

[4] Sato, Satoshi. «MBT2: a method for combining fragments of examples in example-based translation.» Artificial Intelligence 75, no. 1 (1995): 31-49.

[1]

[2]

[3]

[4]

Обработка естественного языка
Общие определения	Языковая модель Корпус текстов Речевой корпус Стоп-слова Мешок слов AI-полнота N-грамма Биграммный шифр Триграмма
Анализ текста	Сегментация текста^[англ.] Частеречная разметка Поверхностно-синтаксический анализ Обработка сложных слов^[англ.] Извлечение коллокаций^[англ.] Стемминг Лемматизация Распознавание именованных сущностей^[англ.] Разрешение кореферентности Анализ тональности текста Извлечение концептов^[англ.] Синтаксический анализ Разрешение лексической многозначности Извлечение терминологии^[англ.] Извлечение информации Идентификация языка Определение регистра^[англ.]
Реферирование	Извлечение предложений^[англ.] Генерация реферата Многодокументное реферирование^[англ.] Упрощение текста^[англ.]
Машинный перевод	Автоматизированный Гибридный Интерлингвальный^[англ.] На основе правил На основе примеров На основе словаря^[англ.] На основе трансформации Нейронный Статистический Синхронный
Идентификация и сбор данных	Распознавание речи Синтез речи Оптическое распознавание символов Генерация текста
Тематическая модель	Размещение патинко Латентное размещение Дирихле Латентно-семантический анализ
Рецензирование	Автоматизированная оценка сочинений^[англ.] Конкордансер Предиктивный ввод текста Система проверки грамматики^[англ.] Система проверки правописания Угадывание синтаксиса^[англ.]
Интерфейс на естественном языке^[англ.]	Виртуальный ассистент Виртуальный собеседник Вопросно-ответная система Голосовой интерфейс Интерактивная литература