Поиск

Полнотекстовый поиск:
Где искать:
везде
только в названии
только в тексте
Выводить:
описание
слова в тексте
только заголовок

Рекомендуем ознакомиться

'Документ'
Форма участия: Для участия в работе конференции по очной, заочной форме необходимо прислать в адрес Оргкомитета не позднее 16 февраля 2015 г. заявку, ...полностью>>
'Документ'
В задании представлены слова с орфограммами Н и НН. Ошибки при написании таких слов связаны с неумением определять чатси речи и проводить словообразов...полностью>>
'Документ'
Инженерная психология сосредоточена на проектировании, изучении и преобразовании сложных человеко-машинных систем. Профессиональная психология занимае...полностью>>
'Документ'
Important: Please read these directions before completing this statement. This financial statement is useful in your financial planning. We encourage ...полностью>>

Главная > Документ

Сохрани ссылку в одной из сетей:
Информация о документе
Дата добавления:
Размер:
Доступные форматы для скачивания:

Санкт-Петербургский государственный университет

Кафедра математической лингвистики

Направление: «Лингвистика»

Образовательная программа: «Прикладная и экспериментальная лингвистика»

Профиль: «Компьютерная лингвистика и интеллектуальные технологии»

Параллельный конкорданс:

поиск и ранжирование переводных контекстов для иллюстрации переводов

в машинном словаре

Выпускная квалификационная работа
соискателя на степень магистра филологии

Протопоповой Екатерины Владимировны

Научный руководитель

к.ф.н., доц. Митрофанова О.А.

Рецензент: Тарелкин А.В.,

руководитель группы инструментов

оценки качества, «Яндекс»

Санкт-Петербург

2016

Оглавление

Введение

Работа посвящена поиску и ранжированию переводных контекстов для иллюстрации переводов в машинном словаре. Создание словарей автоматическими методами – сравнительно молодое направление компьютерной лексикографии, поэтому неудивительно, что исследования, посвящённые автоматическому составлению иллюстративного блока, очень редки. Можно предположить, что машинные словари в этом отношении следуют принципам классических «бумажных» словарей, но в действительности словарь, создаваемый «с нуля» или на основе бумажного издания и предназначенный для той или иной системы автоматического понимания текстов, – это реализация модели семантического, морфологического, синтаксического и других уровней естественного языка, основанной на идеях искусственного интеллекта [Караулов и др. 1982].

С другой стороны, та же проблема наблюдается и в лексикографии в целом и связана с разрывом между лингвистической теорией и лексикографической практикой. Лингвистическая описательная и аналитическая работа направлена на регистрацию широкого спектра явлений – нормы и отклонения от нормы, кода и узуса. Особенно это касается грамматики, то есть явлений морфологии и синтаксиса.

В лексикографической работе также проводится анализ наблюдаемых явлений языка и речи, но регистрации и систематизации подлежит не всё, а определённый класс явлений. В одних случаях описывается только норма, которая может быть в некоторых случаях результатом сознательного выбора специалистов, в других – параметры, характеризующие единицу языка с определённой точки зрения. Так, в словарях может описываться слово и его значение, восстанавливаемое на основе наблюдений за употреблением слова с текстах, слово и его происхождение, слово и его прагматические характеристики, например, сфера употребления.

Словари предназначаются обычно для широкой аудитории (носителей языка, изучающих язык) и при создании рассчитываются на долговременное использование. Лингвистические теории, в том числе касающиеся лексикографических проблем, разрабатываются специалистами для специалистов. Кроме того, они часто охватывают лишь конкретное языковое явление или класс случаев, тогда как словарь (в первую очередь, общего типа) должен охватить всё разнообразие одного или нескольких языков. Сложность разработки лексикографических принципов обусловлена и трудностью создания словаря вообще (некоторые толковые словари создаются десятилетиями, например, Словарь современного русского литературного языка издавался с 1948 по 1965 год, а работы по его созданию начались в 1937 году): словарь невозможно быстро переработать, чтобы принять во внимание новую трактовку какого-либо явления. Всё это приводит к тому, что составители словарей часто опираются либо на уже сложившуюся практику, либо на общепринятую теорию, а большинство теоретических разработок не используется вообще. Исключением является проект Толково-комбинаторного словаря, о котором подробнее будет сказано ниже. Следует лишь отметить, что в данном случае речь идёт о лексикографическом произведении, полностью основанном на лингвистической теории (модели «Смысл Текст»).

Лингвистические теории, касающиеся сочетаемости лексем, практически не употребляются в лексикографической практике. Говоря же об иллюстративных контекстах в двуязычном словаре, неизбежно приходится упоминать понятие сочетаемости. Поэтому в дальнейшем мы будем рассматривать и теоретические работы, возможно, отчасти отражённые в существующих словарях, и особенности лексикографической практики (то есть существующие словари).

Целью работы является разработка алгоритма ранжирования иллюстрирующих контекстов для англо-русского машинного переводного словаря. Исходя из данной цели, а также учитывая указанные выше проблемы, формулируются следующие задачи:

  1. анализ принципов составления и особенностей существующих электронных словарей различных типов;

  2. описание и анализ реализации иллюстративного блока в современной лексикографической практике;

  3. описание подходов к сочетаемости и анализ их отражения в лексикографической практике;

  4. выделение необходимых признаков для описания двуязычных контекстов, подходящих для иллюстрации статей в переводном словаре.

Предполагается также решение следующих практических задач:

  1. разметка потенциальных иллюстраций для создания обучающей выборки и дополнения набора признаков ранжирования;

  2. реализация алгоритма ранжирования параллельных контекстов;

  3. оценка качества ранжирования и релевантности выделенных признаков.

Для ранжирования параллельных контекстов, описанных с помощью набора признаков, используются такие методы машинного обучения, как метод случайного леса и нейронная сеть прямого распространения.

Материалом для исследования реализации иллюстративного блока послужили существующие англо-русские словари и словари сочетаемости английского и русского языка. Параллельные контексты для машинного переводного словаря, которые используются при ранжировании, извлечены из параллельного англо-русского интернет-корпуса.

Актуальность работы обусловлена тем, что, как сказано выше, проблема иллюстративного блока практически не разработана в машинной лексикографии вообще, а особенно – в двуязычной. С другой стороны, компьютерная лексикография практически не учитывает опыт «безмашинной» лексикографии и многочисленные лингвистические исследования. Наша работа направлена на восполнение этого пробела.

Практические результаты работы используются в рамках сервиса «Яндекс. Переводчик» и обсуждались в статье [Protopopova и др. 2015], а также в докладе на конференции «Диалог’2015».

1)Компьютерная двуязычная лексикография

1.1.Основные задачи и направления работы в компьютерной лексикографии

Сфера компьютерной лексикографии довольно широка и включает в себя разнообразные методы составления различного рода словарей с использованием компьютерных технологий. Инструментами и материалом компьютерной лексикографии являются базы данных, компьютерные картотеки, инструменты анализа текста, которые позволяют в автоматическом режиме формировать словарные статьи, хранить словарную информацию и обрабатывать её. Множество различных компьютерных лексикографических программ можно разделить на две больших группы: программы поддержки лексикографических работ и автоматические словари различных типов, включающие лексикографические базы данных [Баранов 2001].

Развитие компьютерных методов в лексикографии началось в середине 1960 годов: с одной стороны, возникла необходимость перевести в машиночитаемый формат существующие словари, с другой стороны, стало возможным использование электронных корпусов при составлении новых словарей. Одним из первых словарей в машиночитаемом виде стал Longman Dictionary of Contemporary English [LDOCE; Proctor, 1978], который до сих пор является одним из наиболее популярных словарей английского языка. Поначалу электронные словари представляли собой копии бумажных (Oxford English Dictionary), но постепенно были разработаны специальные представления и форматы, позволяющие, например, хранить содержательную часть словаря отдельно от информации о графическом формате словарных статей.

Также следует упомянуть серию Collins English Dictionary, словари которой с 1979 года полностью создавались с использование электронных баз данных и корпусов.

Примерно в то же время (в 1985 году) по инициативе академика А.П. Ершова начинаются работы по созданию Машинного фонда русского языка1, одной из целей которого было развитие компьютерной лексикографии. Предполагалось решение следующих задач:

  • Оборудование рабочих мест Института русского языка РАН компьютерами и объединение их в сеть;

  • Сбор материала для теоретического и прикладного исследования русского языка и его преобразование в машинных формат; разработка средств хранения этого материала;

  • Создание программных средств, для проведения теоретических и прикладных работ по исследованиям в области русского языка;

  • Развитие прикладных направлений (лексикография, терминоведение, автоматическая обработка данных на естественном языке).

В дальнейшем были разработаны концепции компьютерного представления различных лингвистических данных, в том числе автоматические словари (Автоматический Синтаксический словарь русского языка, Автоматический словарь синонимов русского языка, Автоматический вариант Словаря русского языка С.И. Ожегова, Автоматический словарь глагольного управления в русском языке и др. (описания опубликованы в Бюллетене Машинного фонда русского языка, вып. 1–3)), система построения конкордансов и обеспечения лексикографической работы (UNILEX-T, UNILEX-D). В рамках проекта по созданию Машинного фонда русского языка была описана концепция компьютерного описания словосочетаний различной степени устойчивости [Борисова 1990].

Наши наблюдения, сделанные в ходе знакомства с направлениями работ в компьютерной лексикографии, позволяют сделать вывод о том, что автоматизация словарных проектов связана не столько с преобразованием существующих словарей в цифровой формат, а с созданием лексикографических комплексов, имеющих прямой выход к различным блокам лингвистического процессора, отвечающих за автоматический анализ текстов на уровне морфологии, синтаксиса, за автоматическое выделение устойчивых словосочетаний и ряд других задач.



Похожие документы:

  1. «Компьютерная лингвистика и интеллектуальные технологии» (2)

    Документ
    ...   Кафедра математической лингвистики Направление: «Лингвистика» Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» Выявление информации ...
  2. «Компьютерная лингвистика и интеллектуальные технологии» (3)

    Документ
    ... Кафедра математической лингвистики Направление: «Лингвистика» Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» Кластеризация языковых ...
  3. Как единица устной речи: общая характеристика и прагматический потенциал

    Документ
    ... результаты исследования // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной ... Пересказывательность в русском языке // Компьютерная лингвистика и интеллектуальные технологии: материалы Международной конференции «Диалог ...
  4. Сводные данные международных мероприятий в области образования, науки и инноваций на 20 1 3 – 2015 гг

    Документ
    ... . ноябрь 2013 612 Международная конференция «Компьютерная лингвистика и интеллектуальные технологии» – Диалог 2013 Ин-т проблем ... техни-ческий конгресс по интеллектуальным системам и информационным технологиям Таганрогский технологический ин-т Южного ...
  5. Материал из Semantic Future

    Документ
    ... знаний на основе онтологий // Компьютерная лингвистика и интеллектуальные технологии: Труды международного семинара “Диалог ... для интернет-портала знаний // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции “Диалог ...

Другие похожие документы..