Поиск

Полнотекстовый поиск:
Где искать:
везде
только в названии
только в тексте
Выводить:
описание
слова в тексте
только заголовок

Рекомендуем ознакомиться

'Документ'
Саляхова Камиля . Мусальникова Дарья Возрастная группа с 5 до лет 1. Тараторкина Кристина Начальник управления образования А....полностью>>
'Документ'
1.1. Экзамен, проводимый в форме защиты рефератов, представляет собой проверку знаний и умений обучающихся, которая показывает уровень овладения ими п...полностью>>
'Документ'
В Доме-музее М. А. Волошина в рамках XIХ Волошинских Чтений – в память огромной работы, проведенной Максимилианом Волошиным в 20-е годы прошлого столе...полностью>>
'Документ'
ОАО «Россошанский элеватор», именуемое в дальнейшем «Хранитель», в лице генерального директора Романенко Василия Николаевича, действующего на основани...полностью>>

Главная > Документ

Сохрани ссылку в одной из сетей:
Информация о документе
Дата добавления:
Размер:
Доступные форматы для скачивания:

Русские глаголы и предикативы

Словарь «Русские глаголы и предикативы» [Красных 1993] представляет собой пособие по сочетаемости, в котором содержатся описания около 600 глаголов и 200 предикативов. Словарь имеет учебную направленность, причём подчёркивается, что материал словаря – глаголы и предикативы – наиболее сложный в усвоении. В статьях отражается информация о сочетаемости изъяснительных глаголов и предикативов с союзными средствами:

СОКРУШАТЬСЯ, сокруша|юсь, -ешься, -ются, нсв. Разг. Сожалеть о чём-л., сильно огорчаться, печалиться.

Обычно с союзом что.

Мне показалось, что Лена и в самом деле сокрушалась о том, что не стала такой красивой, как прежде.

Включаются сочетания из газетного и журнального материала, а также художественной литературы.

Пособие по лексической сочетаемости слов русского языка

Словарь-справочник [Анисимова и др. 1975] состоит из 40 тысяч словосочетаний, включённых в пособия для изучающих русский язык, для 1900 опорных слов. Авторы используют синтаксический подход при отборе материала: используются только следующие словосочетания:

  • Для опорных существительных:

    • существительное + прилагательное – глубокая мысль,

    • существительное + сущ – подвиг народа,

    • существительное в роли дополнения + глагол – совершить подвиг,

    • существительное-субъект + глагол – наступил вечер;

  • Для опорных прилагательных:

    • прилагательное + существительное (объект) – холодный климат, ветер, вечер,

    • прилагательное + существительное (дополнение) – похожий на отца, мать;

  • Для опорных глаголов:

    • глагол + наречие – бежать быстро,

    • глагол + существительное в винительном падеже – ждать весну,

    • глагол + существительное в косвенном падеже – смотреть на докладчика, на преподавателя,

    • глагол + существительное-субъект действия – трамвай, автобус, электричка ходит.

В качестве опорных слов авторы выделяют только «общераспространённую стилистически нейтральную лексику».

Словарь сочетаемости слов русского языка

Словарь сочетаемости слов русского языка [Денисов, Морковкин 1983] представляет собой переиздание Учебного словаря сочетаемости слов русского языка [Денисов, Морковкин 1978], предварённое обширным введением, где излагается авторский подход к сочетаемости и её описанию. Во-первых, определяются понятия лексической и семантической сочетаемости (по Ю.Д. Апресяну), а также синтаксической сочетаемости – это набор имеющихся при слове семантико-синтаксических позиций, иначе говоря, его рамка валентности. Основной задачей словаря сочетаемости является определение этих семантико-синтаксических позиций для каждого слова и описание их заполнения. Основной единице словаря, таким образом, будет словосочетание – реализация валентностей опорного слова. Она может описываться тремя способами:

  • полное перечисление ряда, заполняющего данную валентность (бегать на коньках, на лыжах);

  • выборочное перечисление типичных представителей ряда (начало чего: соревнований, спектакля …);

  • указание на характер ряда и перечисление наиболее типичных его представителей (фотографировать кого-что: (о человеке) друга, сына, дочь, памятник …).

3.3.Выводы

В третьей главе рассматривались различные подходы к устойчивым словосочетаниям, в частности, к коллокациям, которые представляются важным материалом для иллюстративного блока переводного словаря. На основании приведённых теоретических определений коллокаций можно выделить два направления, которые отражаются и в лексикографической практике, в том числе и в описанных словарях сочетаемости. Первый подход (свойственный британской лингвистической школе) исходит из регулярного характера коллокаций и более практического критерия частотности сочетания. Второй подход, развивавшийся в отечественном языкознании, скорее следует назвать семантико-синтаксическим (такими, например, являются описания лексических функций). Таким образом, мы приходим к выводу, что в практической задаче поиска коллокаций в корпусе должны учитываться, как узуальные, так и семантические и синтаксические факторы.

4)Поиск и ранжирование контекстов для англо-русского машинного словаря

Задачей практической части работы было построение алгоритма ранжирования переводных контекстов и его тестирование. Часть экспериментов описана в нашей статье [Protopopova и др. 2015]

Исследование лексикографических источников, представленное в Главах 1-3, показало, что существующие переводные словари, по-разному подходят к проблеме выбора иллюстраций, а словари коллокаций по-разному формулируют требования к включаемым словосочетаниям. Однако, можно выделить некоторые характеристики, на которые можно опираться при автоматическом подборе параллельных сочетаний. Очевидно, фразы-иллюстрации должны быть грамматически корректны и иметь правильный перевод. Двуязычные словари предъявляют следующие требования к иллюстративному материалу:

  • Примеры представляют собой словосочетания (реже – предложения) на входном языке с переводом на выходной язык.

  • Примеры представляют контрастивный материал, иллюстрирующий особенности употребления слов во входном языке в отличие от слов выходного языка (или наоборот).

  • С другой стороны, примеры могут иллюстрировать типичные контексты заголовочного слова во входном / выходном языке.

Важную роль в иллюстрации сочетаемости играют коллокации, которые должны обладать следующими свойствами:

  • Коллокация – словосочетание, часто и регулярно употребляемое в речи.

  • Коллокации не создаются говорящим по частям, но воспроизводятся из памяти как целое.

4.1.Материал и инструменты исследования

Иллюстрации подбирались к словарным статьям словаря сервиса «Яндекс.Переводчик» (http://translate.yandex.ru), создание которого описано в [Antonova, Misyurev 2014] (см. Главу 1).

В качестве основного материала в экспериментах использовался корпус параллельных текстов на английском и русском языках из архива коммерческой поисковой системы объёмом около 50 миллионов предложений. Разнообразие жанров, представленных в корпусе (публицистика, техническая документация, тексты рекламных объявлений, художественная литература, субтитры), позволяет находить иллюстрации, относящиеся к различным регистрам и содержащие разные переводы заголовочного слова. Кроме того, объём корпуса достаточно велик, чтобы извлекать иллюстрации для малоупотребительных лексем и переводов.

Параллельные тексты предобработаны и снабжены информацией о выравнивании по предложениям, пословном выравнивании и синтаксическом разборе каждого предложения. Выравнивание производится с помощью инструмента GIZA++ [Och, Ney 2003], а синтаксический разбор – с помощью парсера SyntAutom [Antonova, Misyurev 2012].

GIZA++ – один из инструментов выравнивания, который используется в большинстве систем машинного перевода, в частности, потому, что входит в состав системы Moses (http://www.statmt.org/moses/). Общий принцип работы GIZA++ описан в разделе о моделях IBM [см. Och, Ney 2003].

Из современных синтаксических анализаторов в рамках данной работы нам был доступен SyntAutom [Antonova, Misyurev 2012]. Он основан на правилах и позволяет получать синтаксический разбор предложения с высокой точностью, в частности, в соревновании, проведённом РОМИП в 2012 году, он занял третье место после анализаторов Compreno и ЭТАП-3. Сравнение разборов тестовой коллекции этого соревнования доступно на сайте соревнования3. SyntAutom позволяет получить разборы для предложений на русском и английском языках. Ниже приведём пример разбора предложения «Мне нравилось смотреть на улицу через стекло.» в табличном формате:

0

*Top*

*Top*

0

_

/

1

мне

я

3

subj

/prn/sg/fem/msc/neu/dat/fst/

2

нравилось

нравиться

3

auxd

/vrb/sg/neu/fin/fst/sec/trd/pst/ind/act/

3

смотреть

смотреть

0

fin

/vrb/sg/neu/inf/fst/sec/trd/pst/act/

4

на

на

5

prep

/prp/acc/

5

улицу

улица

3

prepnp

/nn/sg/fem/acc/trd/

6

через

через

7

prep

/prp/acc/

7

стекло

стекло

3

prepnp

/nn/sg/neu/acc/trd/

В качестве одного из факторов ранжирования используется оценка фразы по модели языка (см. ниже). Для построения этих моделей использовались более надёжные корпуса текстов на английском и русском языках (одноязычные), собранные из интернета. Данные по объёму всех использованных корпусов приведены в таблице 1. Модели языка строятся с помощью утилит пакета SRILM [Stolcke 2002].

Таблица . Объём использованных корпусов в токенах (словоупотребления и знаки препинания).

объём корпусов

английский

русский

параллельный Интернет-корпус

1,145 миллиарда

1,132 миллиарда

одноязычный Интернет-корпус

4,1 миллиарда

3,16 миллиарда

4.2.Описание процедуры поиска контекстов

Для поиска потенциальных словарных иллюстраций из параллельного корпуса извлекаются параллельные контексты заданной длины. Сначала по параллельному корпусу с помощью инструмента GIZA++ строится модель перевода, полученные контексты затем обрабатываются парсером SyntAutom. Полученная таблица содержит следующие данные (см. Таблицу 2):

  • входной контекст;

  • перевод;

  • синтаксический разбор входного контекста и перевода;

  • пословное выравнивание;

  • входной контекст и перевод в лемматизированном виде.

Таблица . Пример записей из модели перевода.

a back panel

задняя панель

det_/det/_det_3 nn_/nn/sg/trd/_gen_3 nn_/nn/sg/trd/_homo_0

adj_/adj/sg/fem/nom/trd/_adj_2 nn_/nn/sg/fem/nom/trd/_homo_0

1-0 2-1

a back panel

задний панель

a back part

арьергардная часть

det_/det/_det_3 nn_/nn/sg/trd/_gen_3 nn_/nn/sg/trd/_subj_0

adj_/adj/sg/fem/nom/trd/_adj_2 nn_/nn/sg/fem/nom/trd/_subj_0

1-0 2-1

a back part

арьергардный часть

a back part

в заднюю часть

det_/det/_det_3 nn_/nn/sg/trd/_gen_3 nn_/nn/sg/trd/_prepnp_0

prp_/prp/acc/_prep_3 adj_/adj/sg/fem/acc/trd/_adj_3 prepnp_/nn/sg/fem/acc/trd/_prepnp_0

0-0 1-1 2-2

a back part

в задний часть

a back part

до задней части

det_/det/_det_3 nn_/nn/sg/trd/_gen_3 nn_/nn/sg/trd/_np_0

prp_/prp/gen/_prep_3 adj_/adj/sg/fem/gen/trd/_adj_3 prepnp_/nn/sg/fem/gen/trd/_prepnp_0

0-0 1-1 2-2

a back part

до задний часть

a back part

задний отдел

det_/det/_det_3 nn_/nn/sg/trd/_gen_3 nn_/nn/sg/trd/_sm_0

adj_/adj/sg/msc/nom/trd/_adj_2 nn_/nn/sg/msc/nom/trd/_subj_0

1-0 2-1

a back part

задний отдел

a back part

задняя часть

det_/det/_det_3 nn_/nn/sg/trd/_gen_3 nn_/nn/sg/trd/_np_0

adj_/adj/sg/fem/nom/trd/_adj_2 nn_/nn/sg/fem/nom/trd/_np_0

1-0 2-1

a back part

задний часть

Как видно из примера, каждой последовательности слов приписывается синтаксический разбор. Из полученной модели перевода удаляются те фразы, которые не являются связным поддеревом синтаксического разбора всего предложения. Например, в предложении «The result is an industry that works in a radically different way than it did a decade ago.» последовательность “a radically different way” является связным поддеревом, а “in a radically different” – нет.

Кроме того, из модели удаляются пары переводных эквивалентов, включающих только одно знаменательное слово. Затем каждому контексту в модели перевода ставятся в соответствие возможные ключи (потенциальный заголовок статьи и его перевод). Для этого информация о пословном выравнивании контекстов объединяется со словником словаря. Таким образом, например, для пары биграмм на английском и русском языке “digital image – цифровая фотография”, где слова выровнены по порядку, мы получаем две записи – для перевода “digital - цифровой” и “image - фотография”.

Выделенные контексты хранятся в виде значений, разделённых табуляцией, в следующем порядке:

  • ключ (заголовочное слово);

  • переводной эквивалент;

  • частота пары «контекст – перевод» в параллельном корпусе;

  • контекст на исходном языке;

  • синтаксический разбор и леммы контекста;

  • перевод контекста;

  • синтаксический разбор и леммы перевода;

  • информация о позиции ключа в контексте;

  • информация о выравнивании.

4.3.Подготовка обучающей и тестовой выборки

Как уже было сказано, основной задачей эксперимента является упорядочивание иллюстрирующих контекстов в соответствии с допустимостью их использования в качестве материала для иллюстративного блока. Для решения этой задачи мы предлагаем ранжирующий классификатор – алгоритм, который по обучающей выборке приписывает элементам тестовой выборки оценки в заданном диапазоне таким образом, что элементы могут быть затем упорядочены по значению этой оценки. Цель ранжирующей модели — наилучшим образом (в некотором смысле) приблизить и обобщить способ ранжирования в обучающей выборке на новые данные.

Для обучения ранжирующего классификатора были размечены обучающий и тестовый наборы контекстов.

Первым шагом в подготовке выборок был отбор переводных эквивалентов, к которым затем подбирались контексты. Чтобы сделать этот «словарь» более репрезентативным, переводные эквиваленты выбирались случайно таким образом, чтобы распределение их частот соответствовало распределению частот слов в параллельном корпусе. Кроме того, необходимо было установить такое же соответствие с распределением частот запросов к словарю. Было замечено, что количество запросов на английском языке в значительной степени коррелирует с частотой соответствующих слов в корпусе [Antonova, Misyurev 2014], поэтому можно полагаться только на корпусную статистику. Также в выборку не включалось сто самых частых английских слов.

Для каждой пары переводных эквивалентов в словаре из параллельного корпуса извлекаются все возможные контексты (биграммы), как описано в предыдущем разделе. Случайная выборка из полученного множества контекстов могла бы быть ненадёжной, поскольку в ней сложно было бы обеспечить баланс между положительными и отрицательными примерами. Поэтому каждому контексту приписывается вес по эмпирической формуле, которая соответствует произведению прямой и обратной вероятности перевода

где

– частота выравнивания контекста на входном языке в контекст на выходном языке в параллельном корпусе;

– частота контекста на входном языке в том же параллельном корпусе;

– частота контекста на выходном языке в том же параллельном корпусе.

Затем для каждой пары переводных эквивалентов выбирается несколько (от одного до трёх в зависимости от общего числа кандидатов) с наибольшим весом. Таким образом была получена выборка объёмом 700 словосочетаний.

Разметка производилась вручную по пятибалльной шкале от 1 (неприемлемый контекст) до 5 (идеально подходящий контекст). В таблице приведены неформальные критерии, использованные при выставлении оценки. Стоит напомнить, что каждый параллельный контекст состоит из двух частей – входной и выходной. В качестве эксперимента примеры размечались в двух режимах – сначала оценка приписывалась обеим частям, затем каждой по отдельности. При составлении критериев использовался опыт группы аналитиков отдела машинного перевода компании «Яндекс».

Таблица . Принципы разметки контекстов-кандидатов.

Оценка

разметка обеих частей

разметка одной части

пример

1

Обе части бессмысленны и грамматически неправильны; части не являются переводными эквивалентами

Фраза бессмысленна и грамматически некорректна

*pickled → *маринованная <красота>

2

Одна из частей соответствует оценке один по принципам разметки одной части примера; обе или одна из фраз грамматически некорректна

Фраза грамматически некорректна; фраза не является переводным эквивалентом

caribbean → *караибское <содружество>

3

Обе части грамматически корректны, но не отражают особенностей значения / употребления / перевода ключа

Фраза грамматически корректна, но не отражает особенностей значения / употребления / перевода ключа

*его <любовь> → *his

4

Обе части грамматически корректны и частично иллюстрируют особенности значения / употребления / перевода ключа

Фраза грамматически корректна и частично иллюстрирует особенности значения / употребления / перевода ключа

quit the company → покинуть компанию

5

Идеально подходящий контекст

Идеально подходящий контекст

ball lightning шаровая молния

Как было сказано выше, контексты извлекались из корпуса для всех соответствий «английская лексема – русская лексема», полученных из машинного словаря. Машинный словарь в свою очередь содержит некоторое количество «шумных» (ошибочных) переводов: например, из недословных переводов можно извлечь перевод «beautiful - красота». Они были удалены из выборки после разметки. В результате размеченный набор составил более 600 примеров. Результаты разметки каждой из частей по отдельности приведены на рисунке 9.

Рисунок . Результаты разметки контекстов по пятибалльной шкале: тёмным отмечены английские контексты, светлым - русские.

4.4.Анализ ошибок в контекстах-кандидатах

Среди примеров с оценками 1 и 2 были выделены следующие группы ошибок (ключи выделены угловыми скобками, ошибки отмечены звёздочкой):

  1. Ошибки в форме примера

    1. Грамматически некорректные фразы

* enamel → <составление> эмали

acrobatics → *<оценить> акробатика

    1. Незаконченные фразы

county → деревенский <исправительный>

    1. Фразы в несловарной форме

* tsunamis → *<породило> цунами

monstrously → *чудовищно <огромная>

header files → *заголовочных файлов

    1. Фразы, содержащие иностранные слова, транслитерацию

resiliency → *<улучшать> resiliency

unformatted → *unformatted <емкость>

* shvatyvanija → начало> схватывания

    1. Фразы, содержащие слово с опечаткой

caribbean → *караибское <содружество>

burgundy → *бардовая <подошва>

  1. Ошибки в значении

    1. Неинформативные фразы

*его <любовь> → *his

*очень <глупый> → *really

*nonpregnant → *небеременная <женщина>

    1. Фразы с несвязанными словами

*pickled → *маринованная <красота>

* neurotic → *<спасение> невротиков

*синхроничная <жизнь> → *synchronistic

    1. Труднопонятные фразы со специфическим значением

*sagittal → *сагиттальная <реконструкция>

*threshold → *пороговое <табло>

    1. Машинный / пословный перевод

* squirrels → <соевый> белок

* stitches → <символьные> строчки

*harvest → жмешь <контрол>

*Berners- → Бернерс-<ли>

hi → *привет <видеокамеры>

    1. Оскорбительные контексты для нейтральных слов

naked → голая <девушка>

militarists → <японские> милитаристы

Hitlerite → гитлеровская <Германия>

a Shaheed → <стать> шахидом

    1. Фразы, не являющиеся переводными эквивалентами

rolling → <спасение> утопающих

Первую группу ошибок можно объяснить двумя взаимосвязанными причинами. Во-первых, контексты извлекаются из интернет-корпуса, который содержит «некачественные» тексты, полученные в результате машинного перевода, случайно и намеренно искажённые тексты. С другой стороны, на извлекаемые контексты не накладывается никаких ограничений, кроме связности поддерева. Таким образом, учитывая возможные ошибки парсера, находятся грамматически некорректные фразы. С качеством корпуса связаны и некорректные переводы контекстов (ошибки в значении), и пословные переводы: soya squirrels, saving rolling.

При обучении ранжирующих классификаторов из обучающего набора удалялись примеры с оценкой 3, поскольку они не представляют качественного материала для обучения, а скорее зашумляют его.

4.5.Общий алгоритм ранжирования параллельных контекстов

Исходя из проведённого анализа ошибок, а также из изложенных выше принципов отбора иллюстраций и устойчивых сочетаний в словарях классического типа, мы предлагаем следующий алгоритм ранжирования переводных контекстов. Для каждого контекста вычисляются значения признаков, которые позволяют отделить релевантные фразы от некорректных (подробное описание этих признаков приведено ниже). В результате получаем матрицу размера , где N – количество переводных контекстов, а M – количество признаков. Эти данные подаются на вход ранжирующему классификатору, который приписывает каждому контексту некоторое значение (от 0 до 1 или от 1 до 5). Затем контексты ранжируются внутри группы, найденной для ключа (пары «английское слово – русский перевод»). В словаре для каждого ключа отображается только лучший пример из группы.

4.6.Факторы (признаки) ранжирования

Перечислим признаки, которые подавались на вход ранжирующему классификатору, по группам. Для каждой группы в скобках приводится её сокращённое название, которое используется ниже.

Оценка по языковой модели (группа LM)

Статистическая языковая модель (модель языка) – это вероятностное распределение последовательностей слов. Такая модель позволяет на основе данных о вероятности появления в тексте слов и их последовательностей определённой длины вычислить вероятность произвольной последовательности. Простейшая модель языка, основанная на n-граммах, работает следующим образом. Вероятность появления предложения оценивается следующим образом:

Здесь применяется предположение о том, что генерация предложения – случайный марковский процесс, то есть текущее состояние (выбор i-го слова) зависит лишь от нескольких предыдущих. Вероятность появления слова при условии предшествующего контекста длины вычисляется очевидным образом по значениям частот слов и их последовательностей в корпусе:

где count(s) – частота последовательности слов s.

Для оценки вероятности n-грамм, не встреченных в корпусе, применяется сглаживание различными методами от линейной интерполяции до методов Гуда-Тьюринга и back-off моделей (подробнее о способах сглаживания в статье [Chen, Goodman 1998]). Простейший метод сглаживания – линейная интерполяция – заключается представлении произведения вероятностей через сумму – например, когда по корпусу невозможно определить условную вероятность триграммы . В триграммной модели условная вероятность слова по двум предыдущим будет оцениваться по значениям вероятностей , , . Метод линейной интерполяции позволяет подобрать для каждого из множителя коэффициенты , , таким образом, чтобы вероятность была представима следующим образом:

Возможность построения различных языковых моделей предоставляет инструмент SRILM (SRI Language Modeling, [Stolcke 2002]). Мы использовали триграммную модель с настройками по умолчанию, собранную отдельно по английской и русской части параллельного корпуса, из которого извлекались контексты. Также были собраны модели по частеречным тегам на тех же корпусах.

Для оценки качества языковых моделей используется перплексия (perplexity) – мера, которая позволяет оценить, насколько хорошо модель описывает новые данные. Идея заключается в следующем: возьмём предложения, которые не входили в корпус для обучения языковой модели. Каждое «новое» предложение можно оценить с помощью имеющейся модели, и, кроме того, можно оценить вероятность всего набора предложений. Для всех m предложений общим объёмом M слов перплексия вычисляется так:

где

Чем меньше значение, тем лучше моделируются «новые» данные. С другой стороны, при фиксированной языковой модели можно оценить сложность текстов, не входящих в модель. Для одного предложения она представляет собой вероятность предложения, нормированную на количество слов в предложении и приведённую к диапазону

Таким образом, для каждого контекста вычислялись следующие значения (отдельно для английской и русской частей):

  • перплексия по униграммной модели;

  • перплексия по триграммной модели.

Кроме того, тексты были размечены синтаксическим анализатором, следовательно, каждому токену приписана морфологическая информация. Таким образом, можно оценить не только вероятность последовательности слов, но и вероятность последовательности граммем. Для этого была построена языковая модель по частеречным тегам и в группу признаков LM включалась также

  • перплексия по триграммной частеречной модели.

Относительная частота контекста (RelF)

Относительная частота примера вычисляется по статистической модели перевода. Используемая формула позволяет одновременно оценить как частоту примера в корпусе, так и его значимость относительно входящих в него слов:

где

– частота выравнивания английской части примера в русскую;

– максимальная частота по словам, не являющимся ключом, в английском контексте;

– максимальная частота по словам, не являющимся ключом, в русском контексте.

Взаимная информация (MI)

Как неоднократно отмечалось выше, значительный интерес для иллюстративного блока двуязычного словаря представляют коллокации. Многочисленные меры оценки степени связи внутри коллокаций перечислены, например, в рамках интернет-ресурса collocations.de [Evert 2004] или в работах [Захаров, Хохлова 2010; Пивоварова, Ягунова 2010; Кощеева 2014]. Считается, что некоторые из мер отражают определённый тип сочетаемости; проводились различные попытки сравнения мер.

Таблица . Общий вид таблицы сопряжённости для наблюдаемых значений частот слов X и Y.

Таблица . Общий вид таблицы сопряжённости для ожидаемых значений частот слов X и Y.

В частности, предлагаются следующие способы оценки связи внутри словосочетания, основанные на таблице сопряжённости (contingency table, таблицы 4-5) и проверке гипотезы о значениях ожидаемых частот:

Логарифм правдоподобия (Log-likelihood ratio test)

t-test

-test

z-score

Каждая из этих мер имеет свои достоинства и недостатки, о которых подробно сказано, например, в [Manning, Schutze 1999: 141-172].

Для данной задачи была выбрана взаимная информация (mutual information, MI), которая является универсальной мерой связи и эффективность которой была показана, в частности, в нашем исследовании [Букия и др. 2015]. В общем случае взаимная информация для пары слов и оценивается так:

где p(w) – вероятность слова в корпусе.

Мы предлагаем расширение традиционного понятия взаимной информации для коллокации, поскольку частоты для оценки вероятности вычисляются по синтаксическим связям, а не по биграммам или совместной встречаемости в рамках предложения. Кроме того, поскольку контексты не ограничены биграммами, вычисляется среднее значение MI по всем парам связей слова-ключа. Для того, чтобы «выровнять» значение меры (не поощрять редкие слова и сочетания), используется линейное сглаживание: к частотам отдельных слов при вычислении вероятностей и добавляется константа, значение которой получено эмпирически.

Векторные модели (WV)

В последнее время значительную популярность приобрели векторные семантические представления, которые позволяют описать различные языковые закономерности (например, [Baroni и др. 2014]). В [Mikolov и др. 2013a] описан способ получения таких векторов на основе рекуррентных нейронных сетей (о них ниже). Затем авторы [Mikolov 2013b] оценивают полученные вектора применительно к различным задачам, таким как нахождение семантически связанных слов, построение аналогий («Какое слово так относится к Италии, как Париж к Франции?»), выделение морфологических форм. Семантические вектора широко применялись при исследовании семантической близости на материале русского языка в рамках соревнования RUSSE [Панченко и др. 2015]. Кроме того, было показано, что косинусная мера близости между такими векторами может учитываться и для оценки синтагматической сочетаемости [Panicheva и др. 2016].

Одним из наиболее популярных инструментов для построения семантических векторов является word2vec (https://code.google.com/archive/p/word2vec/). Это реализация векторных моделей от авторов статьи [Mikolov и др. 2013a], в которой используются два описанных в статье алгоритма – continuous bag-of-words (CBOW) и skip-gram. Оба алгоритма предполагают использование рекуррентной нейронной сети, на вход которой подаются последовательности слов. На выходе сеть должна учиться максимизировать косинусную близость между векторами слов, которые часто встречаются рядом. Алгоритм CBOW обучается предсказывать слово по его контексту, skip-gram – контекст по слову. Авторы статьи [Mikolov и др. 2013а] уточняют, что первая модель лучше подходит для обучения на больших корпусах текстов и работы с частыми словами, а вторая – на меньших корпусах, но лучше работает с редкими словами.

Мы тренировали семантические вектора в 200-мерном пространстве с помощью инструмента word2vec на английской и русской частях параллельного корпуса, из которого извлекались контексты. При построении дистрибутивной модели использовалась архитектура skip-gram.

Рисунок . Схематическое изображение архитектур cbow и skip-gram.

В качестве признаков группы WV мы использовали конкатенацию всех векторов данного контекста (в порядке следования соответствующих слов) и бинарные признаки, которые указывали на положение ключевого слова в рамках контекста. Таким образом, для биграммы , где ключом является второе слово, вектор признаков WV выглядит следующим образом: .

Семантическая близость (Sim)

Основным способом оценки семантической близости слов (ассоциации, association) по их семантическим представлениям, является косинус угла между векторами:

где и - вектора, соответствующие словам и .

Как и в случае с взаимной информацией, для контекста вычислялось среднее значение близости ключа к остальным словам примера.

4.7.Методы классификации

Несмотря на детальную разметку обучающей выборки, были произведены эксперименты с бинарной классификаций методом случайного леса и с помощью нейронной сети прямого распространения с одним скрытым слоем. Для предсказания оценки от 1 до 5 использовался набор бинарных классификаторов (также основанных на методе случайного леса). Рассмотрим указанные методы классификации подробнее.

Случайный лес (Random forest)

Метод случайного леса – алгоритм машинного обучения, предложенный в [Breiman 2001]. Классификатор представляет собой ансамбль решающих деревьев (отсюда и название). Алгоритм классификации таков:

              1. Построим некоторое количество решающих деревьев следующим образом

                1. Сгенерируем случайную подвыборку с повторами размера исходной выборки.

                2. Построим решающее дерево, классифицирующее примеры данной подвыборки, причём при создании нового узла дерева будем выбирать признак, на основе которого производится разбиение, не из всех признаков, а лишь из случайно выбранных. Выбор наилучшего из этих признаков может осуществляться различными способами. В оригинальной статье используется критерий Джини, применяющийся также в алгоритме построения решающих деревьев CART – это мера, которая показывает, насколько часто случайный элемент из множества будет помечен неправильно, если следовать распределению классов в подмножестве элементов. Она вычисляется как сумма произведений вероятности выбора каждого элемента на вероятность ошибки при его классификации. Для элементов мера Джини вычисляется следующим образом при условии, что – доля элементов, размеченных как i-ый элемент множества:

                1. Построение прекращается, когда заканчиваются элементы подвыборки.

              1. Классификация каждого элемента производится затем с учётом решений всех деревьев: выбирается тот класс, к которому элемент относит большинство.

              2. Количество деревьев определяется таким образом, чтобы минимизировать ошибку классификатора на тестовой выборке.

Одним из важных свойств метода случайного леса является возможность оценки значимости каждого признака. Для этого каждому элементу на этапе построения решающих деревьев приписывается так называемая ошибка out-of-bag: средняя вероятность ошибки на данном элементе, если не учитывать деревья, в которые входит данный элемент. Затем на всём тренировочном наборе перемешиваются (меняются по элементам) значения признака, который оценивается. Значимостью параметра будет среднее значение разности ошибки out-of-bag по всем элементам набора до и после перемешивания.

Возможность оценки вероятной ошибки с использованием только обучающего набора (out-of-bag) – одно из основных достоинств метода случайного леса. Можно также упомянуть нечувствительность к масштабированию значений признаков, возможность одновременной работы с дискретными и непрерывными значениями без потери в качестве.

В нашей работе использовались параметры из оригинальной статьи Бреймана (критерий Джини, оценка с помощью out-of-bag) в реализации библиотеки scikit-learn (http://scikit-learn.org, [Pedregosa и др. 2011]).

Нейронная сеть прямого распространения

Искусственные нейронные сети изначально создавались как модель биологической нервной системы. Именно поэтому в этой области многие термины заимствованы из нейрофизиологии. Основной единицей этой модели является нейрон, состоящий из следующих частей:

  • определённое количество входных сигналов;

  • сумматор, складывающий входные сигналы с определенными весами в значение ;

  • сеть синапсов (связей) соединяющая входные сигналы с сумматором, при этом у каждого ребра-синапса есть вес;

  • функция активации , преобразующая результат суммирования в выходной сигнал – обычно в диапазоне ;

Обычно используются следующие функции активации:

  • пороговая функция (модель Мак-Каллока – Питца)

  • кусочно-линейная функция

  • сигмоидальная функция

где – параметр наклона.

Множество таких нейронов составляет слой нейронной сети. Самая простая сеть будет состоять из трёх слоёв нейронов: входного, скрытого и выходного. Для входного и выходного слоя известны некоторые параметры: какой сигнал подаётся на вход и какой оказывается на выходе. В скрытом слое, как следует из названия, производятся неявные преобразования сигналов. Многослойные сети позволяют находить более сложные зависимости, особенно когда размер входного слоя достаточно велик.

Архитектура нейронной сети предполагает возможность обратной связи, когда выходной сигнал оказывает влияние на новый входной. В зависимости от наличия в сети обратной связи выделяют сети прямого распространения и рекуррентные сети. В первых информация из входного слоя передаётся на выходной слой нейронов; в случае многослойной сети – через один или несколько слоёв скрытых нейронов. Рекуррентные нейронные сети отличает наличие хотя бы одной обратной связи.

Математическая модель нейронной сети может применяться в обучении как с учителем, так и без него. Одним из наиболее распространённых алгоритмов обучения сети является метод обратного распространения ошибки. Он позволяет вычислить синаптические веса (веса связей) таким образом, что значение функции потерь (величина ошибки) стабилизируется и становится достаточно небольшим. При этом каждый новый обучающий пример вносит свой вклад в изменение весов, когда на каждом этапе выходное значение сравнивается с желаемым, и веса пересчитываются в обратном направлении – от выходного слоя к входному.

В экспериментах использовалась сеть прямого распространения с одним скрытым слоем. Такое решение было принято, с одной стороны, чтобы сократить вычислительные затраты, а с другой, поскольку множество признаков, которыми описываются входные данные, сравнительно невелико. Размер скрытого слоя составляет 10 элементов, а максимальное количество итераций – 150 (если сходимость не достигается раньше). Параметры были подобраны эмпирически для достижения наилучших показателей качества.

Оценка мультиклассификации

Оценка примеров с использованием пятибалльной шкалы полезна, когда необходимо выделить наиболее релевантные примеры. Однако, классификация на более чем два класса – довольно сложная задача для одного классификатора. Поэтому были объединены бинарные классификаторы на основе метода случайного леса для каждого класса. Кроме того, при обучении каждого из них из обучающего набора удалялись примеры с ближайшей оценкой: например, при обучении классификатора, определяющего принадлежность примера к 5 классу, из выборки удалялись примеры с оценкой 4. При предсказании оценки на тестовом наборе выбиралась оценка, соответствующая классификатору с наибольшим значением. Кроме того, вычислялась надёжность такой оценки по формуле:

где – предсказание i-го классификатора.

4.8.Оценка качества классификации

Основные эксперименты используют бинарную классификацию или мультиклассификацию. Для их оценки использовались стандартные метрики – точность (precision) и аккуратность (accuracy). В общем виде значения вычисляются следующим образом:

используемые обозначения проще всего представить в таблице (см. Таблица 6).

Точность вычислялась по отрицательным примерам, поскольку важнее было убедиться, что метод фильтрует некачественные контексты. Ниже такая метрика будет обозначаться .

Таблица . Варианты ошибок классификации.

количество примеров

исходная разметка

0

1

разметка классификатора

0

tn

fn

1

fp

tp

4.9.Результаты классификации

Для оценки качества классификации размеченная выборка делилась в соотношении 2:1 на обучающую (416 примеров) и тестовую (206 примеров) соответственно. Проведена оценка пяти методов классификации по разным группам признаков:

  • оценка каждой части примера по отдельности:

    • – случайный лес на группе признаков WV;

    • – мультиклассификатор на группе признаков WV;

    • – нейронная сеть на группе признаков WV;

  • общая оценка параллельного контекста:

    • – случайный лес на группах LM, MI, RelF and Sim;

    • – случайный лес на всех признаках.

Результаты классификации приведены в таблицах 7а и 7b.

Из таблицы 7а можно заключить, что английские части параллельных контекстов классифицируются значительно лучше русских. Мы предполагаем, что это связано с качеством семантических векторов: и те, и другие были обучены на корпусах одного размера, однако языки с богатой морфологией (как русский), как правило, требуют большего объёма данных.

P0(en)

A(en)

P0(ru)

A(ru)

RF1

0.71

0.74

0.62

0.64

RF2

0.83

0.65

0.63

0.62

NN

0.67

0.65

0.56

0.61

  1. Предсказание качества одной из частей примера.

P0

A

RF3

0.69

0.7

RF4

0.685

0.71

  1. Предсказание качества параллельного контекста.

Таблица . Результаты классификации контекстов.

В случае с классификацией параллельных контекстов целиком, можно заметить, что добавление признаков группы WV практически не влияет на качество классификации. В связи с этим можно заключить, что информации о близости векторов слов достаточно для описания словосочетания.

4.10.Сравнение ранжирования с простыми эвристическими методами

Для сравнения результатов ранжирования было выбрано 140 пар «английское слово – русский эквивалент», которые не входили в размеченную ранее выборку. Для каждой пары извлекались все возможные параллельные контексты, которые затем ранжировались следующим значениям:

  • – абсолютная частота параллельного контекста в параллельном корпусе;

  • – сумма значений взаимной информации ( в том виде, как описано выше) для английской и русской части примера;

  • , , – значения, полученные от соответствующих классификаторов (фактически – вероятность отнесения соответствующего слова к положительному классу);

  • – модифицированные значения классификатора . В случае, если обе части контекста оценивались как положительные, использовалось значение надёжности c. Если только одна из частей контекста была отнесена к классам (4, 5), то из значения надёжности для этой части вычиталось наименьшее значение надёжности для другой части.

Оценка производилась следующим образом. Из каждого упорядоченного списка для каждого ключа сохранялся лучший параллельный контекст. Затем примеры в полученных списках размечались как положительные (1) и отрицательные (0). Результаты разметки приведены в приложении А.

Мерой качества служило количество положительных примеров в списке. Это связано с тем, что, как было сказано выше, формат используемого машинного словаря позволяет показывать только один параллельный контекст для одного ключа, то есть важно оценить, как часто в верхней части списка оказываются отрицательные примеры. Результаты приведены в таблице 8.

Таблица . Оценка ранжирования иллюстративных примеров.

положительные примеры

доля положительных примеров

MI

60

42.8

F

44

31.4

59

42.1

76

54.3

88

62.9

74

52.9

Результаты показывают, что использование машинного обучения значительно улучшает ранжирование по сравнению с простыми методами. Сравнение различных наборов признаков позволяет сказать, что наиболее удачной комбинацией является сочетание всех групп за исключением WV.

4.11.Значимость признаков классификации

Некоторые выводы о важности той или иной группы признаков можно сделать по результатам оценки в предыдущих разделах. Так, заметно, что использование группы WV вместе с остальными избыточно, хотя возможно, что в отдельности классификация, основанная на этой группе, показала бы лучшие результаты на большем обучающем наборе.

Как было сказано, метод случайного леса позволяет вычислить значимость каждого признака. Данные о значимости групп признаков, использовавшихся при классификации , приведены в таблице 9.

Таблица . Значимость признаков для классификатора RF3.

MI

0.13 … 0.097

LM

0.1 … 0.04

F

0.079 … 0.05

Sim

0.063 … 0.04

Наиболее существенными оказываются признаки группы MI, то есть устойчивость сочетания. Таким образом, получается, что в обучающей выборке отражена тенденция к выбору в качестве лучших иллюстраций коллокаций, а классификатор стремится воспроизвести эту закономерность. Следующими по значимости выделяются признаки группы LM, причём больший вес имеют значения по триграммной языковой модели и модели по частеречным тегам. Следовательно, таким образом учитывается грамматическая корректность и «беглость» (fluency) словосочетания. Очевидно, что при использовании взаимной информации по синтаксическим связям, как меры устойчивости, косинусная близость векторов слов оказывается наименее значимым признаком.

4.12.Выводы

В главе 4 был описан эксперимент по ранжированию контекстов для иллюстрации статей машинного переводного словаря. Были использованы два метода машинного обучения – метод случайного леса и нейронная сеть прямого распространения; в качестве ранжирующих признаков выбраны те, которые отражают принципы отбора иллюстраций, выявленные при анализе различных словарей в главах 2 и 3. Полученные результаты оценивались стандартными метриками (точность и аккуратность), лучшие значение составили 0.83 и 0.74 соответственно. Кроме того, было проведено сравнение с простыми эвристическими способами ранжирования и показано, что использование расширенного набора признаков и методов машинного обучения даёт значительное улучшение в результатах ранжирования.

Заключение

Одной из наиболее существенных частей словарной статьи в двуязычном словаре, в частности, вследствие его учебных задач, является иллюстративный блок, включающий примеры употребления заголовочного слова. При этом принципы его создания не разработаны ни в классической лексикографии, ни в машинной. Анализ существующих двуязычных словарей (англо-русского направления) позволяет выделить несколько критериев отбора материала для иллюстративного блока: словосочетания предпочитаются предложениям, словосочетания содержат дополнительную информацию о сочетаемости, стилистических особенностях опорного слова и так далее.

Поскольку сочетаемость становится одним из важнейших критериев для двуязычных иллюстраций, в работе так же рассматриваются различные концепции устойчивых сочетаний – от классических до новейших. Из приведённого обзора словарей сочетаемости и словарей коллокаций можно также сделать выводы о некоторых принципах, на которых базируется понятие устойчивости.

Аналитический обзор, изложенный в главах 1-3, позволяет нам выделить признаки для автоматического ранжирования параллельных контекстов относительно их релевантности для иллюстративного блока машинного словаря. Проведены эксперименты с различными наборами признаков, методами машинного обучения, сделана оценка полученных результатов. Наилучшая комбинация методов и признаков показывает точность 84% на английских контекстах и 71% при ранжировании пар контекстов. Полученные результаты используются при составлении машинного словаря сервиса «Яндекс.Переводчик».

Лексикографические источники

  1. Амосова Н.Н. Большой англо-русский словарь / Сост. Амосова, Н.Н., Апресян, Ю.Д., Гальперин И.Р.; под общ. руководством Гальперина И.Р. - 2-е изд., стер. – М. : Русский язык, 1977.

  2. Англо-русский русско-английский словарь = English-russian Russian-English dictionary : 35573 слова, значения и словосочетания / [ред. и рук. проекта: В.Ю. Бурнашева]. – М. : ABBYY Press, 2011. – 603 с.

  3. Анисимова, Т.И. Пособие по лексической сочетаемости слов русского языка: Словарь-справочник / Сост. Т.И. Анисимова, З.Э. Иванова, Р.В. Ульянко; Под ред. Т.П. Плещенко и Л.Ф. Саковец. - Минск : Вышэйш. школа, 1975. – 303 с.

  4. Апресян, Ю.Д. Новый большой англо-русский словарь = New English-Russian Dictionary : Ок. 250000 лексич. единиц : В 3 т / Сост. Ю.Д. Апресян, Э.М. Медникова, А.В. Петрова и др.Под общ. руководством акад. Ю.Д. Апресяна и д.филол.н., проф. Э.М. Медниковой. - 5-е изд., стер. – М. : Рус. яз., 2000.

  5. Ахманова, О.С. Русско-английский словарь : Около 50000 слов / Сост. О.С. Ахманова, Т.П. Горбунова, Н.Ф. Ротштейн [и др.]; Под общ. рук. проф. А.И. Смирницкого. – М. : Гос. изд-во иностр. и нац. словарей, 1948 (16-я тип. треста "Полиграфкнига"). – 988 с.

  6. Бенсон, М. Комбинаторный словарь английского языка. / Бенсон, М., Бенсон, Э., Илсон, Р. – М.: Русский язык, 1990 – 286 с.

  7. Большой англо-русский словарь = New English-Russian dictionary : [В 2 т. : Ок. 160000 слов] / Под общ. руководством И.Р. Гальперина, Э.М. Медниковой. - 4-е изд., испр., с доп. – М. : Рус. яз., 1987.

  8. Борисова, Е.Г. Слово в тексте. Словарь коллокаций (устойчивых словосочетаний) русского языка с англо-русским словарём ключевых слов. – М.: 1995. (Борисова 1995б).

  9. Братусь, Б.В. Russian word-collocations = Словосочетания русского языка : Учеб. словарь для говорящих на англ. яз / Б.В. Братусь, И.Б. Братусь, Е.А. Данциг и др. – М. : Рус. яз., 1979. – 367 с.

  10. Гинзбург Р.С. Англо-русский словарь глагольных словосочетаний = English-Russian dictionary of verbal collocations / Р.С. Гинзбург и др.; Под общ. руководством Э.М. Медниковой. - 2-е изд., испр. – М. : Рус. яз., 1990. – 667 с.

  11. Козырева, М.Н., Англо-русский словарь = English-Russian dictionary : Около 14000 слов и 63000 словосочетаний / М.Н. Козырева, И.В. Федорова. – М. : Рус. яз., 1998. – 1118 с.

  12. Красных, В.И., Русские глаголы и предикативы : Слов. сочетаемости. – М. : Арсис лингва, 1993. – 226 с.

  13. Кунин, А.В. Англо-русский фразеологический словарь – М. Русский язык, 1984. – 944 с.

  14. Мельчук, И.А., Толково-комбинаторный словарь современного русского языка : Опыты семантико-синтаксического описания русской лексики. – Вена, 1984. – 992 с

  15. Мюллер, В.К. Англо-русский словарь, 1928.

  16. Ожегов, С. И. Словарь русского языка. Изд. 21-6. – М., 1989.

  17. Регинина, К.В. Устойчивые словосочетания русского языка / К.В. Регинина, Г.П. Тюрина, Л.И. Широкова; Под ред. Л.И. Широковой. – 3-е изд. – М : Рус. яз., 1983. – 300 с.

  1. Kjellmer, G. A dictionary of English collocations : based on the Brown corpus : in three volumes. – Oxford; New York: Clarendon Press: Oxford University Press, 1994.

  2. Longman dictionary of contemporary English. / Сост. Procter, P. – Harlow ; London : Longman, 1978. - XXXIX, 1303 с.

  3. McIntosh, C. Oxford Collocations Dictionary. – Oxford University Press, 2009. – 963 с.

  4. Rundell, M. Macmillan Collocations Dictionary. – Macmillan, 2010.

  5. Sinclair, J. Collins COBUILD English collocations on CD-ROM / Sinclair, J., Fox, G., Seymour, D., Clear, J. – London: HarperCollins Publishers, 1995.

  6. The BBI combinatory dictionary of English : A guide to word combinations / Сост. Benson, M., Benson, E., Ilson R. – Amsterdam ; Philadelphia : Benjamins, 1986. – XXXVI, 286 с.

  7. Wheeler, M., Unbegaun, B. The Oxford Russian dictionary : Russian-English, English-Russian. – Oxford ; New York : Oxford univ. press, 1997. – XVII, 1340 c.

Литература

  1. Азарова, И.В. Принципы построения wordnet-тезауруса RussNet / Азарова, И.В., Синопальникова А.А., Яворская М.В. // Компьютерная лингвистика и интеллектуальные технологии. – М., 2004.

  2. Амосова, Н. Н. Основы английской фразеологии. – Л., 1963.

  3. Апресян, Ю.Д. Лексическая семантика (синонимические средства языка). – М.: Наука, 1974.

  4. Баранов, А.Н. Введение в прикладную лингвистику. Учебное пособие. – М.: Эдиториал УРСС, 2001. – 360 с.

  5. Берков, В. П. Двуязычная лексикография. – АСТ, 2006

  6. Берков, В.П. Вопросы двуязычной лексикографии. – Л., 1973.

  7. Борисова, Е.Г. К типологии составляющих пакета Устойчивые сочетания // Фразеография в Машинном фонде русского языка. М., 1990. – с. 88-103.

  8. Борисова, Е.Г. Коллокации. Что это такое и как их изучать. – М.: 1995. (Борисова 1995a).

  9. Букия, Г.Т. Корпусная оценка степени близости единиц в лексических конструкциях / Букия, Г.Т., Протопопова, Е.В., Митрофанова, О.А. // Структурная и прикладная лингвистика. Межвузовский сборник. №11. Под. ред. А.С. Герда. – СПб, 2015.

  10. Буторова, У.В. Структурная типология словарных статей в словарях русского языка и способы их формального представления / Буторова У.В., Герд А.С., Захаров В.П., Панков Д.И., Пурицкая Е.В., Хохлова М.В. // НТИ. Сер. 2. ИНФОРМ. ПРОЦЕССЫ И СИСТЕМЫ 2016. № 2. – М., 2016.

  11. Бюллетень машинного фонда русского языка /отв. редактор В.М. Андрющенко / – М., 1996, Вып.3

  12. Виноградов, В.В. Об основных типах фразеологических единиц в русском языке // Виноградов В. В. Избранные труды. Лексикология и лексикография. – М., 1977. - С. 140-161.

  13. Гак, В.Г. К проблеме семантической синтагматики // Проблемы структурной лингвистики. – М.: Наука, 1972. – С. 367-395.

  14. Захаров, В.П. Электронный обменный формат проекта TEI (Text Encoding Initiative) для словарей. Учебное пособие. – СПб.: СПбГУ. РИО. Филологический факультет, 2013. – 80 с.

  15. Захаров, В.П., Богданова, С.Ю. Корпусная лингвистика: Учебник для студентов направления Лингвистика. 2-е изд., перераб. и дополн., – СПб.: СПбГУ. РИО. Филологический факультет, 2013. – 148 с.

  16. Захаров, В.П., Хохлова, М.В. Анализ эфффективности статистических методов выявления коллокаций в текстах на русском языке // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции Диалог’2010. – М., 2010

  17. Караулов, Ю.Н. Анализ метаязыка словаря с помощью ЭВМ / Караулов Ю.Н., Молчанов В.И., Афанасьев В.А., Михалев Н.В. – М., 1982.

  18. Кобозева, И.М. Лингвистическая семантика: Учебник для вузов. – М.: УРСС, 2000. 350 с.

  19. Кощеева, С.С. Сравнение методов автоматического выделения глагольно-именных словосочетаний // Технологии информационного общества в науке, образовании и культуре: сборник научных статей. Труды XVII Всероссийской объединённой конференции «Интернет и современное общество» (IMS-2014), Санкт-Петербург, 19-20 ноября 2014 г. – СПб: Университет ИТМО, 2014. – С. 298-303.

  20. Крижановский, А.А. Оценка использования корпусов и электронных библиотек в Русском Викисловаре // Труды Международной научной конференции Корпусная лингвистика-2011. – СПбГУ, Филологический факультет Санкт-Петербург, 2011. С. 217-222.

  21. Крижановский, А.А. Построение машинно-читаемого словаря на основе русского викисловаря. Тр. СПИИРАН, 2009, в. 11. С. 228-233

  22. Крылов, С.А., Митрофанова, О.А. «Типовой контекст»: случайность или закономерность? // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции Диалог’2006 (Бекасово, 31 мая – 4 июня 2006 г.). – М.: Издательство РГГУ, 2006. – C. 382-388.

  23. Крылов, С.А., Старостин, С.А. Металингвистическая разметка текстовых баз данных в системе STARLING и современные задачи корпусной лингвистики // Прикладная лингвистика в поиске новых путей. Международная конференция Megaling’2005. 27 июня - 2 июля 2005. – Симферополь, Таврический национальный университет им. В.И. Вернадского, 2005. С. 33.

  24. Марчук Ю.Н. Вычислительная лексикография. – М.: ВЦП, 1976, 175 с.

  25. Мельчук, И.А. Опыт теории лингвистических моделей "Смысл-Текст" : Семантика, синтаксис / И.А. Мельчук. – [Переизд.]. – М : Шк. "Языки рус. культуры", 1999. – 345 с.

  26. Мельчук, И.А., Иорданская, Л.Н. Смысл и сочетаемость в словаре. – М., 2007.

  27. Панченко, А. RUSSE: семинар по оценке семантической близости для русского языка. / Панченко, А., Лукашевич Н.В., Усталов Д., Паперно Д., Мейер К.М., Константинова Н. // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции Диалог (Москва, 27 - 30 мая 2015 г.). Вып. 14 (21). – М.: Изд-во РГГУ, 2015. – C. 89

  28. Телия, В. Н. Русская фразеология: Семантический, прагматический и лингвокультурологический аспекты. – М., 1996.

  29. Телия, В.Н., Типы языковых значений : Связан. значение слова в яз. – М : Наука, 1981. – 269 с.

  30. Шанский, Н.М. Фразеология современного русского языка / Н. М. Шанский. – 3-е изд., испр. и доп. – М., 1985. – 160 с.

  31. Янус, Э. Пять польских словарных статей // Научно-техническая информация, Серия 2, N 11. С. 21-24.

  1. Altenberg, B. On the phraseology of spoken English: the evidence of recurrent word-combinations. // A. P. Cowie (ред.), Phraseology: theory, analysis and applications (pp. 101-122). – Oxford: Oxford University Press, 1998.

  2. Amsler, R.A. Computational lexicology: a research program // Proceedings of the June 7-10, 1982, national computer conference, 657-63. – ACM, 1982.

  3. Antonova, A., Misyurev, A. Automatic Creation of Human-Oriented Translation Dictionaries // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialog 2014” [Komp’yuternaya Lingvistika I Intellektual’nye Tekhnologii: Trudy Mezhdunarodnoy Konferentsii “Dialog 2014”]. – М., 2014.

  4. Antonova, A., Misyurev, A. Russian dependency parser SyntAutom at the DIALOGUE-2012 parser evaluation task // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialog 2012” [Komp’yuternaya Lingvistika i Intellektual’nye Tekhnologii: Trudy Mezhdunarodnoy Konferentsii “Dialog 2012”]. – М., 2012.

  5. Antonova, A. The influence of different data sources on finding and ranking synonyms for a large-scale vocabulary / Antonova, A., Kobernik, T., Misyurev, A. // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialog 2016” [Komp’yuternaya Lingvistika i Intellektual’nye Tekhnologii: Trudy Mezhdunarodnoy Konferentsii “Dialog 2016”]. – М., 2016. [в печати]

  6. Atkins, S. Theoretical Lexicography and its relation to Dictionary-making”. // Dictionaries: the Journal of the Dictionary Society of North Americaю – DSNA, Cleveland Ohio, 1993. С. 4-43.

  7. Atkins, S., Rundell M. The Oxford Guide to Practical Lexicography. – Oxford University Press, 2008.

  8. Bai M. DOMCAT: a bilingual concordancer for domain-specific computer assisted translation / Bai, M., Hsieh Y., Chen K., Chang J.S. // Proceedings of the ACL 2012 System Demonstrations, 55–60. – Association for Computational Linguistics, 2012.

  9. Bally Ch. Traité de stylistique française. – Paris, 1951.

  10. Bansal M. Unsupervised translation sense clustering / Bansal, M., DeNero J., Lin D. // Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 773–82. – Association for Computational Linguistics, 2012.

  11. Barlow, M. Parallel Concordancing and Translation // Translating and the Computer, 2004.

  12. Baroni M. Frege in space: A program of compositional distributional semantics. / Baroni, M., Bernardi, R., Zamparelli, R. // Linguistic Issues in Language Technology 9, 2014.

  13. Bouamor Dh. Building Specialized Bilingual Lexicons Using Word Sense Disambiguation / Bouamor, D., N. Semmar, P. Zweigenbaum. // – IJCNLP, 2013. С. 952–956.

  14. Breiman L. Random Forests. // Machine Learning 45 (1): 5–32. 2001.

  15. Brown P.F. The mathematics of statistical machine translation: Parameter estimation / Brown P.F., Della Pietra V., Della Pietra S., Mercer R. // Computational linguistics 19/ 2 (1993). – C. 263–311.

  16. Butina-Koller E. Kollokationen im zweisprachigen Wörterbuch. Zur Behandlung lexikalischer Kollokationen in allgemeinsprachlichen Wörterbüchern des Sprachenpaares Französisch/Russisch. Lexicographica. Series Maior 124. – De Gruyter, 2005

  17. Chatterjee D. Co-occurrence graph based iterative bilingual lexicon extraction from comparable corpora / Chatterjee D., Sarkar S., Mishra A. // Proceedings of the 4th Workshop on Cross Lingual Information Access, COLING 2010 workshop, 2010. С. 25-42.

  18. Chen S.F., Goodman J. An Empirical Study of Smoothing Techniques for Language Modeling // Technical Report TR-10-98, Computer Science Group, Harvard University, 1998.

  19. Church, K. W., Hanks P. Word association norms, mutual information, and lexicography. // Computational linguistics. V.16, No. 1 (1990). С. 22–29.

  20. Collocations, corpus, dictionnaires / P. Blumenthal, F.J. Hausmann. - Paris : Larousse, 2006. – 128 с.

  21. Cowie A.P. The Oxford History of English Lexicography. – Oxford: Clarendon Press, 2009.

  22. Dunning, T. Accurate methods for the statistics of surprise and coincidence. Computational Linguistics, 19(1). – MIT Press, 1999. С. 61–74

  23. Evert, S. The Statistics of Word Cooccurences Word Pairs and Collocations. PhD thesis. – Institut für Maschinelle Sprachverarbeitung (IMS), Universität Stuttgart: 2004.

  24. Firth, J. R. The Technique of Semantics. – Transactions of the Philological Society, 1935. С. 36-72.

  25. Firth, J.R. Modes of Meanings. Reprinted in Papers in Linguistics 1934-1951. – London: Oxford University Press, 1957. С. 190-215.

  26. Fišer, D., Ljubešic, N. Bilingual lexicon extraction from comparable corpora for closely related languages // Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP’11), 2011. С. 125–31.

  27. Fung, P. A statistical view on bilingual lexicon extraction // Parallel Text Processing. – Springer, 2000. C. 219-236.

  28. Grundfragen der elektronischen Lexikographie : elexico - das Online-Informationssystem zum deutschen Wortschatz / Сост. Ulrike Haβ. – Berlin ; New York : de Gruyter, cop. 2005. – 334 c. – (Schriften des Instituts für deutsche Sprache ; Bd. 12).

  29. Halliday, M.A.K. Lexis as a linguistic level // In Memory of J.R. Firth. – London: Longman, 1966. C. 150-61.

  30. Hanks, P. Definitions and Explanations // Looking Up – An account of the Cobuild project in lexical computing. – London: William Collins Sons & Co. Ltd., 1987.

  31. Hanks, P. How people use words to make meanings: Semantic types meet valencies // Input, Process and Product: Developments in Teaching and Language Corpora, 2012. C. 54–69.

  32. Hausmann, F.J. Un dictionnaire des collocations est-il possible? // Travaux de linguistique et de litterature 17/1. 1979. C. 187-195.

  33. Hazem, A., Morin, E. Adaptive Dictionary for Bilingual Lexicon Extraction from Comparable Corpora // LREC, 2012. С. 288–92.

  34. Herbst, Th. A Valency Dictionary of English: A Corpus-based Analysis of the Complementation Patterns of English Verbs, Nouns, and Adjectives‬ // Topics in English linguistics (V. 40)‬‬‬‬, 2004.‬‬‬‬‬‬‬‬

  35. Herbst, Th. What are collocations: Sandy Beaches or False Teeth? // English Studies V.4, 1996. C. 379-93.

  36. Herbst, Th. Why Construction Grammar Catches the Worm and Corpus Data can Drive you Crazy: Accounting for Idiomatic and Non-Idiomatic Idiomaticity // Journal of Social Sciences 11, V. 3, 2015. C. 91–110.

  37. Hjelm, H. Using a Third Language to Improve Extraction of Bilingual Term Correspondences. Term Paper, 2006.

  38. Hornby, A.S. Idiomatic and syntactic English dictionary. – Tokyo, Institute for Research in Language Teaching, 1942.

  39. Huck, M. Lexicon models for hierarchical phrase-based machine translation / Huck, M., Mansour S., Wiesler S., Ney H. // IWSLT, 2011. С. 191–98.

  40. Ismail, A., Manandhar S. Bilingual lexicon extraction from comparable corpora using in-domain terms // Proceedings of the 23rd International Conference on Computational Linguistics: Posters. –Association for Computational Linguistics, 2010. С. 481–89.

  41. Jian, J. TANGO: Bilingual collocational concordancer / Jian, J., Chang Y., Chang J.S. // Proceedings of the ACL 2004 on Interactive poster and demonstration sessions, 19. – Association for Computational Linguistics, 2004.

  42. Kilgariff, A. GDEX: Automatically finding good dictionary examples in a corpus / Kilgariff A., Rychlý, P, Husák M., Rundell, M., Mcadam K. // Proceedings of the XIII EURALEX International Congress. 1. – Barcelona: Institut Universitari de Lingüística Aplicada, 2008. С. 425-432.

  43. Kilgarriff A. Collocationality (and how to measure it) // Proceedings of the Euralex International Congress. – Torino, 2006.

  44. Kilgarriff, A. Using corpora as data source for dictionaries. The Bloomsbury Companion to Lexicography. – London: Bloomsbury, 2013. С. 77–96.

  45. Kitamura, M., Matsumoto Y. Automatic extraction of word sequence correspondences in parallel corpora // Proceedings of the 4th Workshop on Very Large Corpora, 1996. С. 79–87.

  46. Kjaersgaard, P. S. RefTex – a context-based translation aid // Third conference of the European Chapter of the Association for Computational Linguistics: Proceedings of the conference. – Copenhagen, 1987.

  47. Koehn, P. Statistical Machine Translation. – Cambrige University Press, 2010.

  48. Kučera H. , Francis, W. N. Manual of Information to accompany A Standard Corpus of Present-Day Edited American English, for use with Digital Computers. – Providence, Rhode Island: Department of Linguistics, Brown University, 1964.

  49. Langlois, L. Bilingual concordancers: a new tool for bilingual lexicographers // Expanding MT horizons: Proceedings of the Second Conference of the Association for Machine Translation in the Americas. – Montreal, Quebec, Canada, 1996.

  50. Laws, F. A Linguistically Grounded Graph Model for Bilingual Lexicon Extraction. / Laws F., Heid U., Michelbacher L., Christian Scheible, Beate Dorow, и Hinrich Sch¨utze. // Coling Poster Session. – COLING, 2010.

  51. Li, L. Cyberdictionaries // English Today. V. 14/2. – Cambrige University Press, 1998.

  52. Liu, Z. Two-word collocation extraction using monolingual word alignment method / Liu Z., Wang H., Wu H., Li Sh. // ACM Transactions on Intelligent Systems and Technology (TIST) 3/1. – ACM, 2011. C. 16.

  53. Luo J., Lepage Y. Extraction of Potentially Useful Phrase Pairs for Statistical Machine Translation // Journal of Information Processing. V. 23, N. 3, 2015.

  54. Melamed, I. D. Automatic construction of clean broad-coverage translation lexicons. 1996.

  55. Mickievicz, A. Computational Lexicography of Multi-Word Units: How Efficient Can It Be? / Mickiewicz, A., Savary, A., Czerepowicka, M. , Makowiecki F. // 23rd International Conference on Computational Linguistics, 2. – ACL, 2010.

  56. Mikolov, T. Efficient Estimation of Word Representations in Vector Space / Mikolov T., Chen K., Corrado G., Dean J. // Proceedings of Workshop at ICLR, 2013. (Mikolov 2013a)

  57. Mikolov, T. Linguistic Regularities in Continuous Space Word Representations / Mikolov T., Yih W., Zweig G. // Proceedings of NAACL HLT, 2013. (Mikolov 2013b).

  58. Mittman, B. Pragmatik und Wörterbücher: Präfabrizierte Einheiten der gesprochenen Sprache. // Th. Herbst, G. Lorenz, B. Mittmann, M. Schnell (ред.): Lexikografie, ihre Basis- und Nachbarwissenschaften. (Englische) Wörterbücher zwischen 'common sense' und angewandter Theorie (= Lexicographica. Series Maior 118). – Tübingen: Niemeyer, 2004. C. 137-148.

  59. Morin, E., Prochasson E. Bilingual lexicon extraction from comparable corpora enhanced with parallel corpora // Proceedings of the 4th workshop on building and using comparable corpora: comparable corpora and the web. – Association for Computational Linguistics, 2011. С. 27–34.

  60. Och F.J., Ney H. Improved Statistical Alignment Models // Proceedings of the 38th Annual Meeting on Association for Computational Linguistics. – ACL, 2000. C. 440-447.

  61. Och, F. J., Ney, H. A Systematic Comparison of Various Statistical Alignment Models // Computational linguistics 29 (1), 2003. C. 19-51.

  62. P5: Guidelines for Electronic Text Encoding and Interchange. Chapter 9. Dictionaries. URL: http://www.tei-c.org/release/doc/tei-p5-doc/en/html/DI.html (дата обращения 18.05.2016)

  63. Palmer, H. E. Second Interim Report on English Collocations. – Tokyo: Institute for Research in English Teaching, 1933.

  64. Panicheva, P. Evaluating Distributional Semantic Models with Russian Noun-Adjective Compositions / Panicheva P., Bukiya G., Protopopova E., Mitrofanova O. // Analysis of Images, Social Networks and Texts: 5th International Conference, AIST 2016. – Yekaterinburg, Russia, 2016, Revised Selected Papers. [в печати]

  65. Polguere A., Kahane S. Formal foundation of lexical functions. В Proceedings of ACL/EACL 2001 Workshop on Collocation, 8–15, 2001.

  66. Polguère, A. Towards a theoretically-motivated general public dictionary of semantic derivations and collocations for French // Proceedings of the Ninth EURALEX International Congress, EURALEX 2000. – Stuttgart, Germany, August 8th-12th, 2000. C. 517–27.

  67. Protopopova, E. Acquiring relevant context examples for a translation dictionary / Protopopova, E., Antonova, A., Misyurev, A. // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialog 2015” [Komp’yuternaya Lingvistika i Intellektual’nye Tekhnologii: Trudy Mezhdunarodnoy Konferentsii “Dialog 2015”]. – М., 2015.

  68. Rees, N. W., J. D. Riding. Automatic Concordance Creation for Texts in Any Language // Proceedings of Translating and the Computer. 2009.

  69. Sadat, F. A combination of models for bilingual lexicon extraction from comparable corpora / Sadat, F., Dejean H., Gaussier E. // Proceedings of the Séminaire Papillon 2002, 2002.

  70. Sinclair, J. Beginning the study of lexis // In memory of J.R. Firth. – London: Longman, 1966. С. 410-430.

  71. Soderland, St. Compiling a massive, multilingual dictionary via probabilistic inference / Soderland, St., Etzioni O., Weld D., Skinner M., Bilmes J. // Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 1. – Association for Computational Linguistics, 2009. C. 262–70.

  72. Stolcke, A. SRILM – An Extensible Language Modeling Toolkit. Proc. Intl. Conf. on Spoken Language Processing, vol. 2. – Denver, 2002. C. 901-904

  73. Storjohann, P., Mohrs, Ch. Das elexiko-Wörterbuch im Wandel - Typische Verwendungen neu beleuchtet // Sprachreport 23.– Mannheim, 2007. C. 12-16

  74. Tamura, A. Bilingual lexicon extraction from comparable corpora using label propagation / Tamura A, Watanabe T., Sumita E. // Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. – Association for Computational Linguistics, 2012. C. 24–36.

  75. Tomaszczyk, J. The bilingual dictionary under review // Zurilex’86 Proceedings: Papers Read at the Euralex International Congress. – University of Zurich, 1986. C. 289–97.

  76. Tsunakawa, T. Building a Bilingual Lexicon Using Phrase-based Statistical Machine Translation via a Pivot Language / Tsunakawa T., Okazaki N., и Tsujii T. // COLING (Posters), 2008. C. 127–30.

  77. Turcato, D. Automatically creating bilingual lexicons for machine translation from bilingual text // Proceedings of the 17th international conference on Computational linguistics-Volume 2. – Association for Computational Linguistics, 1998. C. 1299–1306.

  78. Tyers, F. M., Pienaar J.A. Extracting bilingual word pairs from Wikipedia // Collaboration: interoperability between people in the creation of language resources for less-resourced languages 19, 2008. C. 19–22.

  79. Uszkoreit, J. Large scale parallel document mining for machine translation / Uszkoreit J., Ponte J.M., Popat A.C., Dubiner M. // Proceedings of the 23rd International Conference on Computational Linguistics. – Association for Computational Linguistics, 2010. C. 1101–9.

  80. Wang, M. A critical evaluation of bilingual Chinese/English dictionaries for elementary and intermediate Mandarin learners at Stellenbosch University. – University of Stellenbosch, 2012.

  81. Wu, J.-C. TOTALrecall: A bilingual concordance for computer assisted translation and language learning / Wu J.-C., Yeh K.C., Chuang T.C., Shei W.-Ch., Chang J.S. // Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 2. – Association for Computational Linguistics, 2003. C. 201–4.

  82. Yamamoto, K., Matsumoto, Y. Acquisition of phrase-level bilingual correspondence using dependency structure // Proceedings of the 18th conference on Computational linguistics-Volume 2. – Association for Computational Linguistics, 2000. C. 933–39.

  83. Yu, K., Tsujii J. Extracting bilingual dictionary from comparable corpora with dependency heterogeneity // Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Companion Volume: Short Papers. – Association for Computational Linguistics, 2009. C. 121–24.

Приложение А.
Сравнение и оценка ранжирования иллюстрирующих контекстов с помощью разных методов

Ранжирование контекстов на основе меры MI

ключ en

ключ ru

пример en

пример ru

оценка

area

зона

dining

обеденная <зона>

1

area

местность

mountainous

гористая <местность>

1

balance

балансирование

balance

балансировать

d market

балансирующий рынок

1

balance

балансировка

balance

балансовый

sheet value

балансовая стоимость

1

balance

вес

balance

весы

false

неверные <весы>

1

balance

остаток

unspent

неизрасходованный <остаток>

1

balance

противовес

balance

равновесие

emotional

душевное <равновесие>

1

balance

сбалансировать

well d diet

хорошо сбалансированная диета

1

capacity

качество

in various capacities

в различном качестве

1

capacity

мощность

nominal

номинальная <мощность>

1

capacity

потенциал

statistical building

наращивание статистического <потенциал>а

0

care

беречь

of Russia

<беречь> Россию

0

care

внимательность

prenatal

пренатальная <внимательность>

0

care

волновать

care

забота

fatherly

отеческая <забота>

0

care

заботить

care

заботиться

really

действительно <заботиться>

1

care

осторожность

utmost

предельная <осторожность>

1

care

плевать

care

позаботиться

take

<позаботиться> о том

carrier

переносчик

carrier

теплоноситель

carrier

транспортер

caterpillar

гусеничный <транспортер>

1

character

признак

morphological s

морфологические <признак>и

0

character

символ

unprintable s

непечатные <символ>ы

1

community

общество

civil

гражданское <общество>

1

concert

выступление

solo

сольное <выступление>

1

concert

концертировать

pianist

концертирующий пианист

1

concert

концертный

chamber hall

камерный <концертный> зал

1

containment

удержание

systems

система удержания

0

control

борьба

pest

<борьба> с вредителями

1

control

диспетчерский

tower

диспетчерская вышка

1

control

контролирование

control

контролировать

remotely

дистанционно <контролировать>

1

control

надзор

fire

пожарный <надзор>

1

control

проверка

audit

аудиторская <проверка>

1

control

проконтролировать

control

регулирование

infinitely variable

бесступенчатое <регулирование>

1

control

регулировать

control

регулировка

automatic volume

автоматическая <регулировка> громкости

1

detention

лишение

arbitrary

произвольное <лишение>

1

detention

содержание

on remand

<содержание> под стражей

1

eventually

впоследствии

become

<впоследствии> стать

1

eventually

наконец

eventually

окончательн

eventually

окончательно

come

<окончательно> прийти

0

eventually

с

feast

банкет

feast

застолье

celebratory

праздничное <застолье>

1

feast

пир

wedding

брачный <пир>

1

feast

пировать

feast

пиршество

wedding

свадебное <пиршество>

1

feast

празднество

feast

праздник

of tabernacles

<праздник> кущей

0

guy

мужчина

guy

паренек

guy

парень

skinny

тощий <парень>

1

guy

парнишка

guy

пацан

guy

тип

type of

<тип> ванты

0

guy

человек

young

молодой <человек>

1

guy

чувак

history

краеведческий

regional museum

<краеведческий> музей

0

history

хронология

file

<хронология> файлов

1

however

вместе

however

же

however

ни

strange

<ни> странно

0

however

но

however

однако

improve

повысить

dramatically

существенно <повысить>

1

improve

повыситься

improve

повышать

greatly

значительно <повышать>

1

improve

улучшаться

continually

постоянно <улучшаться>

1

improve

улучшиться

significantly

существенно <улучшиться>

1

industry

сфера

banking

банковская <сфера>

1

industry

хозяйство

agricultural

сельское <хозяйство>

1

insurance

страхование

compulsory pension

обязательное пенсионное <страхование>

1

insurance

страхсбор

pet

<страхсбор> любимчика

0

integration

включение

possible

возможное <включение>

0

integration

внедрение

easy

легкое <внедрение>

0

integration

встраивание

integration

интеграционный

European process

европейский <интеграционный> процесс

1

integration

интеграция

Eurasian economic

Евразийская экономическая <интеграция>

1

less

низко

less

поменьше

less

редко

manufacturer

промышленник

association of s

ассоциация <промышленник>ов

1

manufacturer

товаропроизводитель

domestic

отечественный <товаропроизводитель>

1

manufacturer

фабрикант

textile

текстильный <фабрикант>

0

mode

вид

different transport s

различные <вид>ы транспорта

1

mode

время

real time

режим реального времени

1

mode

метод

safe

невредимый <метод>

0

mode

мода

waveguide s

волноводные моды

0

mode

способ

capitalist

капиталистический <способ>

0

report

донесение

intelligence

разведывательное <донесение>

1

report

заключение

auditor's

аудиторское <заключение>

1

report

отчет

stenographic

стенографический <отчет>

1

report

рапортовать

report

репортаж

televised s

телевизионные <репортаж>и

1

report

сводка

meteorological

метеорологическая <сводка>

1

report

сообщать

promptly

незамедлительно <сообщать>

1

report

сообщение

unconfirmed s

неподтвержденные сообщения

1

save

экономия

toner mode

режим экономии тонера

0

sitting

сидячий

meditation

сидячая медитация

1

sitting

усаживание

size

величина

maximal

максимальная <величина>

1

size

габарит

small

малые <габарит>ы

1

size

крупность

size

масштаб

size

объем

total

суммарный <объем>

1

size

площадь

actual

реальная <площадь>

1

size

размерный

range

<размерный> ряд

1

size

типоразмер

frame

<типоразмер> корпуса

1

size

формат

custom paper

бумага нестандартного <формат>а

1

small

малогабаритный

apartment

малогабаритная квартира

0

small

маломерный

vessels

маломерных судов

0

small

малочисленный

numerically peoples

малочисленные народы

1

small

малый

microscopically

микроскопически <малый>

1

sole

единственный

proprietorship

единственное право собственности

1

sure

точно

know for

<точно> знать

1

sure

убедиться

always make

всегда <убедиться>

0

sure

уверенн

sure

уверенный

not quite

не совсем <уверенный>

1

sure

удостовериться

threaten

грозить

together

воедино

together

сочетание

too

излишне

too

очень

bad

<очень> жаль

0

too

чересчур

risky

<чересчур> рискованный

1

too

чрезмерно

high

<чрезмерно> высокий

1

too

чрезмерный

much alcohol

чрезмерное употребление алкоголя

0

wheat

пшеница

bran

отруби пшеницы

1

wheat

пшеничный

bran

пшеничные отруби

1

wireless

беспроводный

LAN

беспроводная локальная сеть

1

Ранжирование контекстов на основе частоты перевода

ключ en

ключ ru

пример en

пример ru

оценка

area

зона

dining

обеденная <зона>

1

area

местность

rural

сельская <местность>

1

balance

балансирование

careful

тщательное <балансирование>

0

balance

балансировать

market

<балансирующий> рынок

1

balance

балансировка

load

<балансировка> нагрузки

1

balance

балансовый

sheet

<балансовая> ведомость

1

balance

вес

law

закон <весов>

1

balance

весы

analytical

аналитические <весы>

1

balance

остаток

unspent

неизрасходованный <остаток>

1

balance

противовес

additional

дополнительные <противовесы>

0

balance

равновесие

ecological

экологическое <равновесие>

1

balance

сбалансировать

approach

<сбалансированный> подход

0

capacity

качество

business

деловые <качества>

1

capacity

мощность

production

производственная <мощность>

1

capacity

потенциал

national

национальный <потенциал>

0

care

беречь

cartridges

<беречь> патроны

0

care

внимательность

dental

зубоврачебная <внимательность>

0

care

волновать

really

особо <волновать>

1

care

забота

special

особая <забота>

1

care

заботить

more

<заботить> больше

0

care

заботиться

really

действительно <заботиться>

1

care

осторожность

great

большая <осторожность>

1

care

плевать

deeply

глубоко <плевать>

0

care

позаботиться

best

лучше <позаботиться>

0

carrier

переносчик

oxygen

<переносчик> кислорода

1

carrier

теплоноситель

temperature

температура <теплоносителя>

0

carrier

транспортер

horizontal

горизонтальный <транспортер>

0

character

признак

sexual

половой <признак>

0

character

символ

special

специальный <символ>

1

community

общество

local

местное <общество>

1

concert

выступление

live

живое <выступление>

1

concert

концертировать

organist

<концертирующий> органист

1

concert

концертный

hall

<концертный> зал

1

containment

удержание

systems

система <удержания>

0

control

борьба

biological

биологическая <борьба>

0

control

диспетчерский

center

<диспетчерский> центр

1

control

контролирование

costs

<контролирование> расходов

0

control

контролировать

substance

<контролируемое> вещество

0

control

надзор

state

государственный <надзор>

1

control

проверка

internal

внутренние <проверки>

1

control

проконтролировать

flood

<проконтролировать> поток

0

control

регулирование

measure

мера <регулирования>

1

control

регулировать

substance

<регулируемое> вещество

0

control

регулировка

automatic

автоматическая <регулировка>

1

detention

лишение

unlawful

незаконное <лишение>

0

detention

содержание

conditions

условия <содержания>

1

eventually

впоследствии

become

<впоследствии> стать

0

eventually

наконец

lessen

уменьшать <наконец>

0

eventually

окончательн

lead

<окончательн> вести

0

eventually

окончательно

become

<окончательно> стать

0

eventually

с

defeat

<со> счетом

0

feast

банкет

wedding

свадебный <банкет>

1

feast

застолье

georgian

грузинское <застолье>

0

feast

пир

wedding

свадебный <пир>

1

feast

пировать

together

<пировать> вместе

0

feast

пиршество

great

большое <пиршество>

1

feast

празднество

winter

зимние <празднества>

1

feast

праздник

great

великий <праздник>

1

guy

мужчина

white

белый <мужчина>

0

guy

паренек

poor

бедный <паренек>

1

guy

парень

bad

плохой <парень>

1

guy

парнишка

little

маленький <парнишка>

0

guy

пацан

normal

нормальный <пацан>

0

guy

тип

bald

лысый <тип>

1

guy

человек

young

молодой <человек>

1

guy

чувак

cool

крутой <чувак>

1

history

краеведческий

museum

<краеведческий> музей

0

history

хронология

job

<хронология> задания

1

however

вместе

great

<вместе> великий

0

however

же

cold

<же> холод

0

however

ни

strange

<ни> странно

0

however

но

sooner

<но> рано

0

however

однако

much

<однако> много

0

improve

повысить

significantly

значительно <повысить>

1

improve

повыситься

capacity

<повысившийся> потенциал

0

improve

повышать

significantly

значительно <повышать>

1

improve

улучшаться

gradually

постепенно <улучшаться>

1

improve

улучшиться

significantly

значительно <улучшиться>

1

industry

сфера

banking

банковская <сфера>

1

industry

хозяйство

fish

рыбное <хозяйство>

0

insurance

страхование

health

медицинское <страхование>

1

insurance

страхсбор

auto

автоматический <страхсбор>

0

integration

включение

possible

возможное <включение>

0

integration

внедрение

system

<внедрение> системы

0

integration

встраивание

perfect

идеальное <встраивание>

0

integration

интеграционный

process

<интеграционный> процесс

1

integration

интеграция

european

европейская <интеграция>

1

less

низко

be

быть <ниже>

1

less

поменьше

nervous

<поменьше> нервничать

0

less

редко

meet

встречаться <реже>

0

manufacturer

промышленник

russian

российский <промышленник>

0

manufacturer

товаропроизводитель

domestic

отечественный <товаропроизводитель>

1

manufacturer

фабрикант

textile

текстильный <фабрикант>

0

mode

вид

different

различные <виды>

1

mode

время

animation

шкала <времени>

0

mode

метод

safe

невредимый <метод>

0

mode

мода

wave

волновая <мода>

0

mode

способ

capitalist

капиталистический <способ>

0

report

донесение

intelligence

разведывательное <донесение>

1

report

заключение

medical

медицинское <заключение>

1

report

отчет

annual

годовой <отчет>

1

report

рапортовать

regular

периодически <рапортуя>

0

report

репортаж

special

специальный <репортаж>

1

report

сводка

weather

<сводка> погоды

1

report

сообщать

also

также <сообщать>

0

report

сообщение

official

официальное <сообщение>

1

save

экономия

time

<экономия> времени

0

sitting

сидячий

position

<сидячее> положение

1

sitting

усаживание

area

зона <усаживания>

0

size

величина

average

средняя <величина>

0

size

габарит

small

малый <габарит>

1

size

крупность

boundary

граничная <крупность>

0

size

масштаб

small

малый <масштаб>

1

size

объем

total

общий <объем>

1

size

площадь

total

общая <площадь>

1

size

размерный

range

<размерный> ряд

1

size

типоразмер

different

различных <типоразмеров>

0

size

формат

different

различных <форматов>

0

small

малогабаритный

apartment

<малогабаритная> квартира

0

small

маломерный

vessels

<маломерных> судов

0

small

малочисленный

people

<малочисленный> народ

0

small

малый

business

<малый> бизнес

1

sole

единственный

purpose

<единственная> цель

1

sure

точно

entirely

сказать <точно>

0

sure

убедиться

make

сначала <убедиться>

0

sure

уверенн

pakistan

<уверенн> пакистан

0

sure

уверенный

absolutely

абсолютно <уверенный>

1

sure

удостовериться

make

окончательно <удостовериться>

0

threaten

грозить

latvia

<грозить> латвии

0

together

воедино

bring

свести <воедино>

1

together

сочетание

bad

неплохое <сочетание>

0

too

излишне

long

<излишне> длинный

1

too

очень

often

<очень> часто

1

too

чересчур

be

быть <чересчур>

0

too

чрезмерно

high

<чрезмерно> высокий

1

too

чрезмерный

busy

<чрезмерная> занятость

0

wheat

пшеница

winter

озимая <пшеница>

1

wheat

пшеничный

flour

<пшеничная> мука

1

wireless

беспроводный

network

<беспроводная> сеть

1

Ранжирование

ключ en

ключ ru

пример en

пример ru

оценка

area

зона

priority

приоритетная <зона>

0

area

местность

vast

обширная <местность>

1

balance

балансирование

constant

постоянное <балансирование>

0

balance

балансировать

document

<балансирующий> документ

0

balance

балансировка

exceptional

исключительная <балансировка>

0

balance

балансовый

part

<балансовая> часть

1

balance

вес

interface

интерфейс <весов>

0

balance

весы

family

семейные <весы>

0

balance

остаток

life

<остаток> жизни

0

balance

противовес

application

применение <противовесов>

0

balance

равновесие

optimal

оптимальное <равновесие>

1

balance

сбалансировать

approach

<сбалансированный> подход

0

capacity

качество

structural

структурные <качества>

0

capacity

мощность

total

общая <мощность>

1

capacity

потенциал

total

общий <потенциал>

1

care

беречь

sister

<беречь> сестру

0

care

внимательность

palliative

паллиативная <внимательность>

0

care

волновать

really

особо <волновать>

1

care

забота

loving

любящая <забота>

0

care

заботить

more

<заботить> больше

0

care

заботиться

daily

ежедневно <заботиться>

0

care

осторожность

maximum

максимальная <осторожность>

0

care

плевать

even

вообще <плевать>

0

care

позаботиться

daily

<позаботиться> ежедневно

0

carrier

переносчик

information

информационный <переносчик>

0

carrier

теплоноситель

transportation

транспортировка <теплоносителя>

0

carrier

транспортер

tracked

гусеничный <транспортер>

1

character

признак

main

главный <признак>

0

character

символ

control

управляющий <символ>

1

community

общество

international

международное <общество>

1

concert

выступление

live

живое <выступление>

1

concert

концертировать

russia

<концертировать> россией

0

concert

концертный

organization

<концертная> организация

1

containment

удержание

systems

система <удержания>

0

control

борьба

programme

программа <борьбы>

1

control

диспетчерский

panel

<диспетчерский> пульт

1

control

контролирование

costs

<контролирование> расходов

0

control

контролировать

system

<контролирующая> система

1

control

надзор

police

полицейский <надзор>

1

control

проверка

system

система <проверки>

1

control

проконтролировать

situation

<проконтролировать> ситуацию

1

control

регулирование

system

система <регулирования>

1

control

регулировать

system

<регулирующая> система

1

control

регулировка

system

система <регулировки>

1

detention

лишение

illegal

незаконное <лишение>

1

detention

содержание

illegal

незаконное <содержание>

1

eventually

впоследствии

reach

<впоследствии> достичь

0

eventually

наконец

see

увидеть <наконец>

0

eventually

окончательн

lead

<окончательн> вести

0

eventually

окончательно

work

работать <окончательно>

0

eventually

с

defeat

<со> счетом

0

feast

банкет

greatest

большой <банкет>

0

feast

застолье

family

семейное <застолье>

1

feast

пир

mental

<пир> разума

0

feast

пировать

forever

<пировать> вечно

0

feast

пиршество

family

<пиршество> семьи

1

feast

празднество

big

большое <празднество>

1

feast

праздник

favorite

любимый <праздник>

1

guy

мужчина

big

крупный <мужчина>

1

guy

паренек

young

молодой <паренек>

1

guy

парень

big

здоровенный <парень>

1

guy

парнишка

small

маленький <парнишка>

1

guy

пацан

solid

солидные <пацаны>

0

guy

тип

big

важный <тип>

1

guy

человек

big

большой <человек>

0

guy

чувак

arab

арабский <чувак>

0

history

краеведческий

museum

<краеведческий> музей

0

history

хронология

data

данные <хронологии>

0

however

вместе

great

<вместе> великий

0

however

же

possible

<же> способы

0

however

ни

far

<ни> далеко

0

however

но

sooner

<но> рано

0

however

однако

own

<однако> иметь

0

improve

повысить

significantly

значительно <повысить>

1

improve

повыситься

demand

<повысившийся> спрос

1

improve

повышать

significantly

значительно <повышать>

1

improve

улучшаться

continuously

постоянно <улучшаться>

1

improve

улучшиться

significantly

значительно <улучшиться>

1

industry

сфера

construction

строительная <сфера>

1

industry

хозяйство

agricultural

сельское <хозяйство>

1

insurance

страхование

policy

политика <страхования>

1

insurance

страхсбор

policy

<страхсбор> политика

0

integration

включение

psychological

психологическое <включение>

0

integration

внедрение

numerical

численное <внедрение>

0

integration

встраивание

russian

<встраивание> россии

0

integration

интеграционный

organization

<интеграционная> организация

0

integration

интеграция

economic

экономическая <интеграция>

1

less

низко

buy

покупать <низко>

0

less

поменьше

pay

платить <поменьше>

0

less

редко

pay

платить <реже>

0

manufacturer

промышленник

russian

российский <промышленник>

0

manufacturer

товаропроизводитель

domestic

отечественный <товаропроизводитель>

1

manufacturer

фабрикант

russian

русский <фабрикант>

0

mode

вид

control

<вид> управления

1

mode

время

day

дневное <время>

0

mode

метод

improved

усовершенствованный <метод>

0

mode

мода

standby

бай <мод>

0

mode

способ

proper

верный <способ>

1

report

донесение

police

полицейское <донесение>

1

report

заключение

police

<заключения> полиции

1

report

отчет

entitled

озаглавленный <отчет>

0

report

рапортовать

regular

периодически <рапортуя>

0

report

репортаж

big

большой <репортаж>

0

report

сводка

police

полицейская <сводка>

1

report

сообщать

immediately

немедленно <сообщать>

1

report

сообщение

immediately

незамедлительное <сообщение>

1

save

экономия

money

<экономия> средств

0

sitting

сидячий

accommodation

<сидячие> места

1

sitting

усаживание

pretty

милое <усаживание>

0

size

величина

great

крупная <величина>

0

size

габарит

total

суммарные <габариты>

1

size

крупность

maximum

максимальная <крупность>

0

size

масштаб

physical

физический <масштаб>

1

size

объем

engine

рабочий <объем>

1

size

площадь

internal

внутренняя <площадь>

1

size

размерный

relation

<размерное> соотношение

1

size

типоразмер

large

большие <типоразмеры>

0

size

формат

large

большой <формат>

1

small

малогабаритный

module

<малогабаритный> модуль

1

small

маломерный

boats

<маломерные> суда

1

small

малочисленный

organization

<малочисленная> организация

1

small

малый

part

<малая> часть

1

sole

единственный

owner

<единственный> владелец

1

sure

точно

need

<точно> надо

0

sure

убедиться

arguments

<убедиться> рассуждениями

0

sure

уверенн

pakistan

<уверенн> пакистан

0

sure

уверенный

way

<уверенный> шаг

0

sure

удостовериться

first

сначала <удостовериться>

0

threaten

грозить

america

<грозить> сша

0

together

воедино

put

складывать <воедино>

1

together

сочетание

bring

достичь <сочетания>

0

too

излишне

fast

<излишне> голодать

0

too

очень

far

<очень> далеко

1

too

чересчур

fast

<чересчур> быстрый

1

too

чрезмерно

care

<чрезмерно> опекать

0

too

чрезмерный

fast

<чрезмерная> торопливость

0

wheat

пшеница

buy

покупать <пшеницу>

0

wheat

пшеничный

money

<пшеничные> деньги

0

wireless

беспроводный

device

<беспроводное> устройство

1

Ранжирование

ключ en

ключ ru

пример en

пример ru

оценка

area

зона

beach

пляжная <зона>

1

area

местность

rural

сельская <местность>

1

balance

балансирование

careful

тщательное <балансирование>

0

balance

балансировать

market

<балансирующий> рынок

1

balance

балансировка

quality

качество <балансировки>

0

balance

балансовый

sheet

<балансовая> ведомость

1

balance

вес

law

закон <весов>

1

balance

весы

analytical

аналитические <весы>

1

balance

остаток

account

<остаток> счета

1

balance

противовес

additional

дополнительные <противовесы>

0

balance

равновесие

ecological

экологическое <равновесие>

1

balance

сбалансировать

food

<сбалансированное> питание

1

capacity

качество

moral

моральные <качества>

1

capacity

мощность

full

полная <мощность>

1

capacity

потенциал

trade

торговый <потенциал>

1

care

беречь

cartridges

<беречь> патроны

0

care

внимательность

hospital

<внимательность> стационара

0

care

волновать

really

особо <волновать>

1

care

забота

skin

<забота> кожи

0

care

заботить

more

<заботить> больше

0

care

заботиться

watchful

чутко <заботиться>

0

care

осторожность

due

должная <осторожность>

1

care

плевать

even

вообще <плевать>

0

care

позаботиться

watchful

хорошенько <позаботиться>

0

carrier

переносчик

healthy

здоровый <переносчик>

0

carrier

теплоноситель

temperature

температура <теплоносителя>

0

carrier

транспортер

caterpillar

гусеничный <транспортер>

1

character

признак

morphological

морфологические <признаки>

0

character

символ

class

класс <символов>

1

community

общество

kazakhstan

казахстанское <общество>

0

concert

выступление

next

ближайшее <выступление>

1

concert

концертировать

organist

<концертирующий> органист

1

concert

концертный

program

<концертная> программа

1

containment

удержание

systems

система <удержания>

0

control

борьба

effective

эффективная <борьба>

1

control

диспетчерский

area

<диспетчерский> район

0

control

контролирование

erosion

<контролирование> эрозии

1

control

контролировать

substance

<контролируемое> вещество

0

control

надзор

technical

технический <надзор>

1

control

проверка

customs

таможенная <проверка>

1

control

проконтролировать

personally

лично <проконтролировать>

1

control

регулирование

thermal

термостатическое <регулирование>

1

control

регулировать

substance

<регулируемое> вещество

0

control

регулировка

level

<регулировка> уровня

0

detention

лишение

illegal

незаконное <лишение>

1

detention

содержание

illegal

незаконное <содержание>

1

eventually

впоследствии

use

<впоследствии> использовать

0

eventually

наконец

arrive

<наконец> дойти

0

eventually

окончательн

lead

<окончательн> вести

0

eventually

окончательно

reach

<окончательно> достигнуть

1

eventually

с

defeat

<со> счетом

0

feast

банкет

wedding

свадебный <банкет>

1

feast

застолье

wedding

свадебное <застолье>

1

feast

пир

wedding

свадебный <пир>

1

feast

пировать

priests

<пирующие> жрецы

0

feast

пиршество

real

настоящее <пиршество>

1

feast

празднество

winter

зимние <празднества>

0

feast

праздник

church

церковный <праздник>

1

guy

мужчина

white

белый <мужчина>

0

guy

паренек

italian

итальянский <паренек>

0

guy

парень

big

большой <парень>

1

guy

парнишка

nice

милый <парнишка>

1

guy

пацан

normal

нормальный <пацан>

0

guy

тип

big

важный <тип>

1

guy

человек

bad

плохой <человек>

1

guy

чувак

normal

нормальный <чувак>

0

history

краеведческий

department

<краеведческий> отдел

0

history

хронология

file

файл <хронологии>

0

however

вместе

great

<вместе> великий

0

however

же

cold

<же> холод

0

however

ни

strange

<ни> странно

0

however

но

sooner

<но> рано

0

however

однако

much

<однако> много

0

improve

повысить

significantly

существенно <повысить>

1

improve

повыситься

moderately

умеренно <повыситься>

1

improve

повышать

efficiency

<повышать> эффективность

1

improve

улучшаться

also

также <улучшаться>

0

improve

улучшиться

significantly

значительно <улучшиться>

1

industry

сфера

banking

банковская <сфера>

1

industry

хозяйство

water

водное <хозяйство>

0

insurance

страхование

money

<страхование> деньги

0

insurance

страхсбор

pet

<страхсбор> любимчика

0

integration

включение

progressive

постепенное <включение>

0

integration

внедрение

easy

легкое <внедрение>

0

integration

встраивание

easy

простое <встраивание>

0

integration

интеграционный

initiative

<интеграционная> инициатива

0

integration

интеграция

regional

региональная <интеграция>

1

less

низко

anticipations

<ниже> ожиданий

0

less

поменьше

drink

пить <поменьше>

1

less

редко

appear

появляться <реже>

0

manufacturer

промышленник

domestic

отечественные <промышленники>

1

manufacturer

товаропроизводитель

russian

российский <товаропроизводитель>

0

manufacturer

фабрикант

textile

текстильный <фабрикант>

0

mode

вид

alternative

альтернативный <вид>

1

mode

время

animation

шкала <времени>

0

mode

метод

treatment

<метод> лечения

1

mode

мода

wave

волновая <мода>

0

mode

способ

alternative

альтернативный <способ>

1

report

донесение

combat

боевые <донесения>

1

report

заключение

audit

аудиторское <заключение>

1

report

отчет

final

итоговый <отчет>

1

report

рапортовать

regular

периодически <рапортуя>

0

report

репортаж

exclusive

эксклюзивный <репортаж>

1

report

сводка

weather

<сводка> погоды

1

report

сообщать

also

также <сообщать>

0

report

сообщение

media

<сообщение> сми

1

save

экономия

money

<экономия> средств

0

sitting

сидячий

position

<сидячее> положение

1

sitting

усаживание

position

положение <усаживания>

0

size

величина

average

средняя <величина>

0

size

габарит

small

небольшой <габарит>

1

size

крупность

feed

начальная <крупность>

0

size

масштаб

project

<масштаб> проекта

1

size

объем

total

общий <объем>

1

size

площадь

total

общая <площадь>

1

size

размерный

group

<размерная> группа

1

size

типоразмер

valve

<типоразмер> клапана

1

size

формат

page

<формат> страницы

1

small

малогабаритный

apartment

<малогабаритная> квартира

0

small

маломерный

boats

<маломерные> суда

1

small

малочисленный

nation

<малочисленный> народ

0

small

малый

business

<малый> бизнес

1

sole

единственный

source

<единственный> источник

1

sure

точно

entirely

сказать <точно>

0

sure

убедиться

make

сначала <убедиться>

0

sure

уверенн

pakistan

<уверенн> пакистан

0

sure

уверенный

absolutely

абсолютно <уверенный>

1

sure

удостовериться

make

окончательно <удостовериться>

0

threaten

грозить

latvia

<грозить> латвии

0

together

воедино

come

сойтись <воедино>

1

together

сочетание

bring

достичь <сочетания>

0

too

излишне

restrictive

<излишне> ограничительный

0

too

очень

ask

требовать <очень>

0

too

чересчур

active

<чересчур> активный

1

too

чрезмерно

high

<чрезмерно> высокий

1

too

чрезмерный

busy

<чрезмерная> занятость

0

wheat

пшеница

winter

озимая <пшеница>

1

wheat

пшеничный

field

<пшеничное> поле

1

wireless

беспроводный

keyboard

<беспроводная> клавиатура

1

Ранжирование

ключ en

ключ ru

пример en

пример ru

оценка

area

зона

conflict

<зона> конфликта

1

area

местность

mountainous

гористая <местность>

1

balance

балансирование

constant

постоянное <балансирование>

0

balance

балансировать

deftly

ловко <балансировать>

1

balance

балансировка

load

<балансировка> нагрузки

1

balance

балансовый

account

<балансовый> счет

1

balance

вес

sensitivity

чувствительность <весов>

1

balance

весы

electronic

электронные <весы>

1

balance

остаток

account

<остаток> счета

1

balance

противовес

additional

дополнительные <противовесы>

0

balance

равновесие

delicate

хрупкое <равновесие>

1

balance

сбалансировать

budget

<сбалансированный> бюджет

1

capacity

качество

sea

мореходные <качества>

0

capacity

мощность

maximum

максимальная <мощность>

1

capacity

потенциал

production

производственный <потенциал>

1

care

беречь

special

особенно <беречь>

0

care

внимательность

tips

концы <внимательности>

0

care

волновать

really

особо <волновать>

1

care

забота

special

особая <забота>

1

care

заботить

more

<заботить> больше

0

care

заботиться

particularly

особенно <заботиться>

1

care

осторожность

special

особая <осторожность>

1

care

плевать

deeply

глубоко <плевать>

0

care

позаботиться

best

лучше <позаботиться>

0

carrier

переносчик

energy

<переносчик> энергии

1

carrier

теплоноситель

temperature

температура <теплоносителя>

0

carrier

транспортер

tracked

гусеничный <транспортер>

1

character

признак

morphological

морфологические <признаки>

0

character

символ

special

специальный <символ>

1

community

общество

human

человеческое <общество>

1

concert

выступление

live

живое <выступление>

1

concert

концертировать

organist

<концертирующий> органист

1

concert

концертный

tour

<концертный> тур

1

containment

удержание

systems

система <удержания>

0

control

борьба

rigid

жесткая <борьба>

1

control

диспетчерский

point

<диспетчерский> пункт

1

control

контролирование

obstacle

<контролирование> препятствий

1

control

контролировать

study

<контролируемое> исследование

0

control

надзор

fire

пожарный <надзор>

1

control

проверка

fiscal

налоговые <проверки>

1

control

проконтролировать

situation

<проконтролировать> ситуацию

1

control

регулирование

temperature

<регулирование> температуры

1

control

регулировать

automatically

автоматически <регулировать>

1

control

регулировка

level

<регулировка> уровня

0

detention

лишение

unlawful

незаконное <лишение>

0

detention

содержание

conditions

условия <содержания>

1

eventually

впоследствии

become

<впоследствии> стать

0

eventually

наконец

turn

<наконец> обратить

0

eventually

окончательн

lead

<окончательн> вести

0

eventually

окончательно

come

<окончательно> прийти

0

eventually

с

defeat

<со> счетом

0

feast

банкет

wedding

свадебный <банкет>

1

feast

застолье

abundant

обильное <застолье>

1

feast

пир

marriage

брачный <пир>

1

feast

пировать

priests

<пирующие> жрецы

0

feast

пиршество

grandiose

грандиозное <пиршество>

1

feast

празднество

sumptuous

пышное <празднество>

1

feast

праздник

great

великий <праздник>

1

guy

мужчина

burly

дородный <мужчина>

1

guy

паренек

puny

маленький <паренек>

1

guy

парень

bad

плохой <парень>

1

guy

парнишка

funny

веселый <парнишка>

1

guy

пацан

normal

нормальный <пацан>

0

guy

тип

nasty

мерзкий <тип>

1

guy

человек

nice

порядочный <человек>

0

guy

чувак

coolest

прикольный <чувак>

1

history

краеведческий

museum

<краеведческий> музей

0

history

хронология

brief

краткая <хронология>

1

however

вместе

great

<вместе> великий

0

however

же

also

<же> тоже

0

however

ни

regrettable

<ни> прискорбно

0

however

но

sooner

<но> рано

0

however

однако

there

<однако> есть

0

improve

повысить

performance

<повысить> производительность

1

improve

повыситься

demand

<повысившийся> спрос

1

improve

повышать

performance

<повышать> производительность

1

improve

улучшаться

gradually

постепенно <улучшаться>

1

improve

улучшиться

considerably

значительно <улучшиться>

1

industry

сфера

energy

энергетическая <сфера>

1

industry

хозяйство

fishing

рыбное <хозяйство>

0

insurance

страхование

personal

личное <страхование>

1

insurance

страхсбор

art

<страхсбор> искусства

0

integration

включение

full

полноценное <включение>

0

integration

внедрение

strategy

стратегия <внедрения>

0

integration

встраивание

easy

простое <встраивание>

0

integration

интеграционный

process

<интеграционный> процесс

1

integration

интеграция

successful

успешная <интеграция>

1

less

низко

zero

<ниже> нуля

0

less

поменьше

talk

<поменьше> говорить

0

less

редко

occur

происходить <реже>

0

manufacturer

промышленник

major

крупный <промышленник>

1

manufacturer

товаропроизводитель

domestic

отечественный <товаропроизводитель>

1

manufacturer

фабрикант

french

французский <фабрикант>

0

mode

вид

alternative

альтернативный <вид>

1

mode

время

zoom

шкала <времени>

0

mode

метод

safe

невредимый <метод>

0

mode

мода

demo

демонстрация <мод>

0

mode

способ

manual

ручной <способ>

1

report

донесение

battle

боевые <донесения>

1

report

заключение

medical

медицинское <заключение>

1

report

отчет

view

просмотр <отчетов>

0

report

рапортовать

regular

периодически <рапортуя>

0

report

репортаж

special

специальный <репортаж>

1

report

сводка

weather

<сводка> погоды

1

report

сообщать

immediately

незамедлительно <сообщать>

1

report

сообщение

official

официальное <сообщение>

1

save

экономия

energy

<экономия> энергии

0

sitting

сидячий

position

<сидячее> положение

1

sitting

усаживание

done

сделанное <усаживание>

0

size

величина

physical

физическая <величина>

1

size

габарит

maximum

максимальные <габариты>

1

size

крупность

maximum

максимальная <крупность>

0

size

масштаб

immense

огромные <масштабы>

1

size

объем

maximum

максимальный <объем>

1

size

площадь

actual

жилая <площадь>

1

size

размерный

range

<размерный> ряд

1

size

типоразмер

different

различных <типоразмеров>

0

size

формат

standard

стандартный <формат>

1

small

малогабаритный

apartment

<малогабаритная> квартира

0

small

маломерный

vessels

<маломерных> судов

0

small

малочисленный

nation

<малочисленный> народ

0

small

малый

weight

<малый> вес

1

sole

единственный

reason

<единственная> причина

1

sure

точно

need

<точно> надо

0

sure

убедиться

quite

окончательно <убедиться>

0

sure

уверенн

pakistan

<уверенн> пакистан

0

sure

уверенный

absolutely

абсолютно <уверенный>

1

sure

удостовериться

quite

окончательно <удостовериться>

0

threaten

грозить

israel

<грозить> израилю

0

together

воедино

gather

собрать <воедино>

1

together

сочетание

bad

неплохое <сочетание>

0

too

излишне

impressionable

<излишне> впечатлительный

1

too

очень

weak

<очень> слабый

1

too

чересчур

prove

оказаться <чересчур>

0

too

чрезмерно

high

<чрезмерно> высокий

1

too

чрезмерный

emotional

<чрезмерная> эмоциональность

0

wheat

пшеница

variety

сорт <пшеницы>

1

wheat

пшеничный

beer

<пшеничное> пиво

1

wireless

беспроводный

connection

<беспроводное> соединение

1

Ранжирование

ключ en

ключ ru

пример en

пример кг

оценка

area

зона

geographic

географическая <зона>

1

area

местность

scenic

живописная <местность>

1

balance

балансирование

constant

постоянное <балансирование>

0

balance

балансировать

market

<балансирующий> рынок

1

balance

балансировка

dynamic

динамическая <балансировка>

0

balance

балансовый

account

<балансовый> счет

1

balance

вес

calibration

поверка <весов>

1

balance

весы

analytical

аналитические <весы>

1

balance

остаток

outstanding

непогашенный <остаток>

1

balance

противовес

additional

дополнительные <противовесы>

0

balance

равновесие

ecological

экологическое <равновесие>

1

balance

сбалансировать

approach

<сбалансированный> подход

0

capacity

качество

moral

нравственные <качества>

1

capacity

мощность

maximum

максимальная <мощность>

0

capacity

потенциал

strengthening

укрепление <потенциала>

0

care

беречь

cartridges

<беречь> патроны

0

care

внимательность

foundation

учредительство <внимательностей>

0

care

волновать

really

особо <волновать>

1

care

забота

maternal

материнская <забота>

1

care

заботить

more

<заботить> больше

0

care

заботиться

special

особо <заботиться>

1

care

осторожность

special

особая <осторожность>

1

care

плевать

deeply

глубоко <плевать>

0

care

позаботиться

best

лучше <позаботиться>

0

carrier

переносчик

glucose

<переносчик> глюкозы

1

carrier

теплоноситель

temperature

температура <теплоносителя>

0

carrier

транспортер

tracked

гусеничный <транспортер>

1

character

признак

distinctive

отличительный <признак>

1

character

символ

control

управляющий <символ>

1

community

общество

civil

гражданское <общество>

1

concert

выступление

live

живое <выступление>

1

concert

концертировать

organist

<концертирующий> органист

1

concert

концертный

venue

<концертная> площадка

1

containment

удержание

reliable

надежное <удержание>

1

control

борьба

tactics

тактика <борьбы>

1

control

диспетчерский

center

<диспетчерский> центр

1

control

контролирование

regular

регулярное <контролирование>

1

control

контролировать

trial

<контролируемое> исследование

0

control

надзор

veterinary

ветеринарный <надзор>

1

control

проверка

thorough

тщательная <проверка>

1

control

проконтролировать

situation

<проконтролировать> ситуацию

1

control

регулирование

system

система <регулирования>

1

control

регулировать

valve

<регулирующая> арматура

0

control

регулировка

pressure

<регулировка> давления

0

detention

лишение

illegal

незаконное <лишение>

1

detention

содержание

illegal

незаконное <содержание>

1

eventually

впоследствии

become

<впоследствии> стать

0

eventually

наконец

turn

<наконец> обратить

0

eventually

окончательн

lead

<окончательн> вести

0

eventually

окончательно

destroy

<окончательно> погубить

1

eventually

с

defeat

<со> счетом

0

feast

банкет

wedding

свадебный <банкет>

1

feast

застолье

wedding

свадебное <застолье>

1

feast

пир

marriage

брачный <пир>

1

feast

пировать

forever

<пировать> вечно

0

feast

пиршество

wedding

свадебное <пиршество>

1

feast

празднество

sumptuous

пышное <празднество>

1

feast

праздник

religious

религиозный <праздник>

1

guy

мужчина

old

пожилой <мужчина>

1

guy

паренек

young

молодой <паренек>

1

guy

парень

big

здоровенный <парень>

1

guy

парнишка

young

молодой <парнишка>

1

guy

пацан

tough

крутой <пацан>

1

guy

тип

nasty

мерзкий <тип>

1

guy

человек

smart

умный <человек>

1

guy

чувак

cool

крутой <чувак>

1

history

краеведческий

museum

<краеведческий> музей

0

history

хронология

brief

краткая <хронология>

1

however

вместе

great

<вместе> великий

0

however

же

provide

<же> предоставить

0

however

ни

regrettable

<ни> прискорбно

0

however

но

sooner

<но> рано

0

however

однако

own

<однако> иметь

0

improve

повысить

significantly

значительно <повысить>

1

improve

повыситься

demand

<повысившийся> спрос

1

improve

повышать

significantly

значительно <повышать>

1

improve

улучшаться

gradually

постепенно <улучшаться>

1

improve

улучшиться

significantly

значительно <улучшиться>

1

industry

сфера

banking

банковская <сфера>

1

industry

хозяйство

agricultural

сельское <хозяйство>

1

insurance

страхование

health

<страхование> здоровья

1

insurance

страхсбор

personal

приватный <страхсбор>

0

integration

включение

smooth

плавное <включение>

0

integration

внедрение

gradual

постепенное <внедрение>

1

integration

встраивание

easy

простое <встраивание>

0

integration

интеграционный

process

<интеграционный> процесс

1

integration

интеграция

process

процесс <интеграции>

1

less

низко

zero

<ниже> нуля

0

less

поменьше

smoke

<поменьше> надо

0

less

редко

common

<редко> встречающийся

0

manufacturer

промышленник

russian

российский <промышленник>

0

manufacturer

товаропроизводитель

domestic

отечественный <товаропроизводитель>

1

manufacturer

фабрикант

wealthy

богатый <фабрикант>

1

mode

вид

widespread

распространенный <вид>

0

mode

время

day

дневное <время>

0

mode

метод

safe

невредимый <метод>

0

mode

мода

high

высокая <мода>

0

mode

способ

capitalist

капиталистический <способ>

0

report

донесение

investigation

<донесения> разведки

1

report

заключение

audit

аудиторское <заключение>

1

report

отчет

preparation

составление <отчетов>

1

report

рапортовать

regular

периодически <рапортуя>

0

report

репортаж

special

специальный <репортаж>

1

report

сводка

police

милицейские <сводки>

1

report

сообщать

immediately

немедленно <сообщать>

1

report

сообщение

official

официальное <сообщение>

1

save

экономия

money

<экономия> денег

0

sitting

сидячий

position

<сидячее> положение

1

sitting

усаживание

baby

<усаживание> младенца

0

size

величина

physical

физическая <величина>

1

size

габарит

compact

компактные <габариты>

1

size

крупность

maximum

максимальная <крупность>

0

size

масштаб

enormous

огромные <масштабы>

1

size

объем

total

суммарный <объем>

1

size

площадь

actual

жилая <площадь>

1

size

размерный

range

<размерный> ряд

1

size

типоразмер

range

ассортимент <типоразмеров>

0

size

формат

custom

нестандартный <формат>

1

small

малогабаритный

apartment

<малогабаритная> квартира

0

small

маломерный

vessels

<маломерное> судно

0

small

малочисленный

nation

<малочисленный> народ

0

small

малый

part

<малая> толика

1

sole

единственный

shareholder

<единственный> акционер

1

sure

точно

indication

<точно> определить

0

sure

убедиться

beforehand

<убедившись> предварительно

0

sure

уверенн

pakistan

<уверенн> пакистан

0

sure

уверенный

step

<уверенный> шаг

0

sure

удостовериться

first

сначала <удостовериться>

0

threaten

грозить

israel

<грозить> израилю

0

together

воедино

merge

слиться <воедино>

1

together

сочетание

bad

неплохое <сочетание>

0

too

излишне

speak

говорить <излишне>

0

too

очень

loud

<очень> шумный

1

too

чересчур

addicted

<чересчур> увлекаться

0

too

чрезмерно

worry

<чрезмерно> беспокоиться

0

too

чрезмерный

optimistic

<чрезмерный> оптимизм

0

wheat

пшеница

food

продовольственная <пшеница>

1

wheat

пшеничный

bran

<пшеничные> отруби

1

wireless

беспроводный

device

<беспроводное> устройство

1

2 см. описание словаря:

http://www.lingvo-online.ru/ru/LingvoDictionaries/Details?dictionary=LingvoUniversal%20(En-Ru)

3 http://otipl.philol.msu.ru/~soiza/testsynt/res00/duo.php



Похожие документы:

  1. «Компьютерная лингвистика и интеллектуальные технологии» (2)

    Документ
    ...   Кафедра математической лингвистики Направление: «Лингвистика» Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» Выявление информации ...
  2. «Компьютерная лингвистика и интеллектуальные технологии» (3)

    Документ
    ... Кафедра математической лингвистики Направление: «Лингвистика» Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» Кластеризация языковых ...
  3. Как единица устной речи: общая характеристика и прагматический потенциал

    Документ
    ... результаты исследования // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной ... Пересказывательность в русском языке // Компьютерная лингвистика и интеллектуальные технологии: материалы Международной конференции «Диалог ...
  4. Сводные данные международных мероприятий в области образования, науки и инноваций на 20 1 3 – 2015 гг

    Документ
    ... . ноябрь 2013 612 Международная конференция «Компьютерная лингвистика и интеллектуальные технологии» – Диалог 2013 Ин-т проблем ... техни-ческий конгресс по интеллектуальным системам и информационным технологиям Таганрогский технологический ин-т Южного ...
  5. Материал из Semantic Future

    Документ
    ... знаний на основе онтологий // Компьютерная лингвистика и интеллектуальные технологии: Труды международного семинара “Диалог ... для интернет-портала знаний // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции “Диалог ...

Другие похожие документы..