Поиск

Полнотекстовый поиск:
Где искать:
везде
только в названии
только в тексте
Выводить:
описание
слова в тексте
только заголовок

Рекомендуем ознакомиться

'Программа дисциплины'
Федеральное государственное автономное образовательное учреждение высшего профессионального образования "Национальный исследовательский университет "В...полностью>>
'Заседание'
Адрес: Москва, Краснопресненская наб., 12, подъезд 7, второй этаж, зал «Ангара» (вход с ул. Мантулинская) При себе иметь документ, удостоверяющий личн...полностью>>
'Документ'
требования в области промышленной и пожарной безопасности, охраны труда и ОКРУЖАЮЩЕЙ СРЕДЫ к организациям, привлекаемым к работам и оказанию услуг на ...полностью>>
'Методическое пособие'
В методическом пособии предложена система психодиагностических минимумов как один из возможных вариантов диагностической работы дошкольного психолога....полностью>>

Главная > Документ

Сохрани ссылку в одной из сетей:
Информация о документе
Дата добавления:
Размер:
Доступные форматы для скачивания:

Рисунок . Окно поиска ABBYY Lingvo x5.

Электронные двуязычные словари также используются при создании широкомасштабных лексических баз данных. Например, в проекте многоязычного словаря PanDictionary [Mausam и др. 2009; Mausam и др. 2010] было объединено около 600 онлайн-словарей, в частности из Викисловарей, причём переводы из разных словарей были автоматически сгруппированы по смыслу с помощью графового алгоритма. В статье приводится объём полученной базы – 10 миллионов слов для тысячи языков, однако эти результаты не были опубликованы в открытом доступе. Проект Linguee (http://www.linguee.ru, рис. 2) также объединяет материалы различных словарей в рамках одного онлайн-ресурса, причём эти словари пополняются на основе данных, собранных по большому параллельному корпусу. Этот же корпус служит источником для построения параллельного конкорданса (см. ниже).

Рисунок . Пример статьи из электронного словаря системы Linguee.

1.5.Словари систем машинного перевода

Словарями систем машинного перевода (фразовыми таблицами, моделями перевода, phrase table) обычно называют автоматически составленные таблицы переводов последовательностей слов с весами, которые затем учитываются при машинном переводе текста. Переводы извлекаются из параллельного корпуса на основании выравнивания предложений. Для построения модели перевода были предложены алгоритмы, известные как модели IBM [Brown и др. 1993]. Они оценивают вероятности перевода с помощью EM-алгоритма, который позволяет итеративно оценить модель на неполных данных. Он состоит из двух шагов, которые обычно повторяются до сходимости:

  • E-шаг (expectation), на котором имеющаяся модель применяется к данным;

  • M-шаг (maximization), на котором из данных выводится новая модель (корректируется старая).

Итак, IBM model 1 действует следующим образом. Пусть есть корпус, состоящий из трёх параллельных фраз (см. Рисунок 3):

Рисунок . Пример параллельного корпуса для обучения модели IBM.

Изначально в корпусе нет информации о пословном выравнивании, веса задаются равномерно (0.25 для каждого перевода). Для оценки вероятности того или иного пословного выравнивания и используется ЕМ-алгоритм. На каждом М-шаге для каждого перевода (пары) суммируются все веса. На первом шаге сначала инициализируются вероятности всех возможных выравниваний, а затем по имеющимся данным для каждого слова в каждом входном предложении суммируются веса различных вариантов его выравнивания. Так, например, по первому предложению вероятность выравнивания и вес буду равны 0.5. Затем для каждого входного слова e (в данном случае на русском языке) и всех вариантов его перевода f (на английском) вычисляется итоговый вес , равный отношению вероятности выравнивания к весу слова на языке перевода. На первом шаге это значение 0.5.

Приведём псевдокод алгоритма оценки весов модели IBM-1 по [Koehn 2010]:

Вход: набор пар предложений

Выход: вероятность перевода

Задать равномерно

Пока не сходится

// инициализация

для всех

для всех

для всех предложений

// вычислим нормализацию

для всех слов е в е

для всех слов в

// суммируем

для всех слов в

для всех слов f в f

// оценим вероятности

для всех слов

для всех слов

Следующие модели являются усовершенствованиями первой. Основные дополнения следующие:

  • IBM Model 2 определяет вероятность всего выравнивания;

  • IBM Model 3 добавляет так называемую fertility model – как много переводов возможно для каждого входного слова;

  • IBM Model 4 добавляет модель относительного выравнивания;

  • IBM Model 5 регулирует заполнение только свободных позиций при выравнивании.

Подробное сравнение моделей IBM можно найти в [Och, Ney 2003].

Эти модели могу применяться как на уровне пословного перевода (word-based translation), так и на уровне перевода фраз (phrase-based translation). С этим связано и основное отличие словарей систем машинного перевода от классических словарей – помимо слов и многословных выражений (обычно устойчивых) в них включаются словосочетания, а также последовательности слов (n-граммы), которые синтаксически не связаны между собой. Соответственно, в таких словарях отсутствует понятие нормальной формы: для каждой формы слова существуют свои варианты перевода.

За прошедшие 20 лет были предложены различные улучшения и новые способы подбора параметров для моделей IBM [Turkato 1998; Och, Ney 2000; Tsunakawa и др. 2008; Huck и др. 2011; Luo, Lepage 2015]. Кроме того, одним из актуальных направлений остаётся фильтрация машинных лексиконов, полученных путём автоматического выравнивания [Melamed 1996]. Улучшенные модели анализируются и сравниваются в [Huck и др. 2011].

Морфологическая и синтаксическая информация также может быть использована при построении моделей перевода, в частности, для фильтрации шумных переводов. Некоторые авторы предлагают извлечение переводных эквивалентов по структурам зависимостей [Yamamoto, Matsumoto 2000].

1.6.Автоматически составленные (машинные) двуязычные словари: методология составления и применение

С 1990 годов начинаются многочисленные исследования, посвящённые автоматическому извлечению переводных эквивалентов из параллельных корпусов.

Полученные словари обозначали как machine-readable dictionaries (MRD) или bilingual lexicons. Однако, поначалу такие словари использовались в системах машинного перевода (см. выше) или в качестве вспомогательных источников для лексикографов. Подобные ресурсы обычно содержат только информацию о возможных переводных эквивалентах, вероятности перевода (или просто частоте конкретного перевода в корпусе); иногда входные слова и словосочетания снабжаются морфологической информацией.

В противоположность традиционным бумажным словарям, которым присущи «универсальность, всеобъемлемость и мультиприложимость» [Марчук 1976: 2], машинный словарь строго ориентирован на заданную совокупность текстов. Отбор материала для машинного словаря происходит на протяжении всего времени его функционирования в системе автоматической обработки текстов. Принципы формирования словника машинных словарей основываются в большей степени на точных методах, и в меньшей – на логико-интуитивных методах, которыми руководствуются разработчики традиционных словарей. Можно сказать, что традиционный бумажный словарь представляет собой статическое описание, существующее в диахронии, тогда как машинный словарь – динамическое описание, существующее в строгой синхронии.

Развитие интернет-технологий, увеличение объёма доступных параллельных корпусов текстов сделали возможным построение машинных словарей, сопоставимых по размеру с традиционными бумажными или электронными словарями. Кроме того, существует большое количество инструментов автоматической обработки текста, которые позволяют преобразовать информацию из машинного словаря, предназначенного, например, для системы машинного перевода, в электронный словарь, ориентированный на пользователя.

Как уже было сказано, технология извлечения переводных эквивалентов из корпуса разрабатывается довольно давно, и одним из наиболее значимых результатов многолетних исследований явился класс разнообразных методов фильтрации шумных переводов из фразовых таблиц. Таким образом, главной задачей при создании автоматических переводных словарей является включение в них вспомогательной информации: группировка переводов в синонимические ряды, иллюстрация особенностей употребления, грамматические и стилистические пометы.

Первая задача – группировка переводов из фразовой таблицы – несмотря на кажущуюся очевидность её трактовки, имеет лишь несколько известных прикладных решений. В [Bansal 2012] описывается реализация алгоритма группировки переводных эквивалентов, основанная на кластеризации методом K-средних. В качестве факторов кластеризации используются информация об обратном переводе и контекстные представления переводных эквивалентов. Полученные «кластеры смыслов» сравниваются со смыслами из WordNet. Небольшая часть статьи посвящена иллюстрации различных вариантов перевода, оказавшихся в одной группе.

Другой возможный подход описан в [Antonova, Misyurev 2014]: группировка смыслов опирается на предварительно собранный словарь синонимов. Этот словарь генерируется автоматически на основании дистрибутивной векторной модели [см. также Antonova и др. 2016] и сходстве переводов слова. В этой статье [Antonova, Misyurev 2014] описывается создание машинного словаря сервиса Яндекс.Переводчик (http://translate.yandex.ru), который будет использован в практической части данной работы. Рассмотрим на этом примере технологию создания машинного словаря в общем виде. Автоматическое построение переводного словаря предполагает следующие этапы:

  1. Предобработка параллельного корпуса (извлечение фразовой таблицы, морфосинтаксический анализ, лемматизация, фильтрация «шумных» переводных эквивалентов).

  2. Объединение переводных эквивалентов для каждого слова в ряды синонимов.

  3. Добавление грамматических помет.

  4. Генерация обратных переводов, то есть синонимов входного слова. В данном случае этот этап производится на основании полученных прямых переводов.

  5. Иллюстрация каждой группы переводов примерами употребления из параллельного корпуса.

В результате формируется словарная статья, пример который представлен на рис. 4.



Похожие документы:

  1. «Компьютерная лингвистика и интеллектуальные технологии» (2)

    Документ
    ...   Кафедра математической лингвистики Направление: «Лингвистика» Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» Выявление информации ...
  2. «Компьютерная лингвистика и интеллектуальные технологии» (3)

    Документ
    ... Кафедра математической лингвистики Направление: «Лингвистика» Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» Кластеризация языковых ...
  3. Как единица устной речи: общая характеристика и прагматический потенциал

    Документ
    ... результаты исследования // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной ... Пересказывательность в русском языке // Компьютерная лингвистика и интеллектуальные технологии: материалы Международной конференции «Диалог ...
  4. Сводные данные международных мероприятий в области образования, науки и инноваций на 20 1 3 – 2015 гг

    Документ
    ... . ноябрь 2013 612 Международная конференция «Компьютерная лингвистика и интеллектуальные технологии» – Диалог 2013 Ин-т проблем ... техни-ческий конгресс по интеллектуальным системам и информационным технологиям Таганрогский технологический ин-т Южного ...
  5. Материал из Semantic Future

    Документ
    ... знаний на основе онтологий // Компьютерная лингвистика и интеллектуальные технологии: Труды международного семинара “Диалог ... для интернет-портала знаний // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции “Диалог ...

Другие похожие документы..