Поиск

Полнотекстовый поиск:
Где искать:
везде
только в названии
только в тексте
Выводить:
описание
слова в тексте
только заголовок

Рекомендуем ознакомиться

'Документ'
Наука о террито-ой дифференциации полит.явлений и процессов. Основным направлением полит.географии является геополитика. Главной задачей ее является и...полностью>>
'Урок'
Цели и задачи: формировать умение применять теоретические и практические знания, полученные на уроках, при проведении соревнований, совершенствовать р...полностью>>
'Документ'
В связи с тем, что лицей является региональной площадкой проведения школьных предметных олимпиад различного уровня, которые проводятся в соответствии ...полностью>>
'Документ'
Проблемы с освоением материала по рассматриваемой теме выявило и задание с развернутым ответом С5. Объяснить, какой смысл обществоведы вкладывают в по...полностью>>

Главная > Программа дисциплины

Сохрани ссылку в одной из сетей:
Информация о документе
Дата добавления:
Размер:
Доступные форматы для скачивания:

IV.Формы контроля и структура итоговой оценки

Текущий контроль – контрольная работа (80 мин.), домашнее задание в третьем модуле.

Промежуточный контроль – устный зачёт в конце третьего модуля;

Итоговый контроль – письменный экзамен в конце четвертого модуля.

В третьем модуле оценка за текущий контроль рассчитывается следующим образом:

Отекущий = 0,5·Ок/р + 0,5·Од/з

Оценка промежуточного контроля в форме зачета выставляется по формуле:

Опромежуточный = 0,5·Озачет +0,5·Отекущий

где Озачет – оценка за работу непосредственно на устном зачете.

Итоговая оценка по курсу выставляется по следующей формуле:

Оитоговый = 0,5 Оэкзамен + 0,5·Осам. работа

где Оэкзамен – оценка за работу непосредственно на экзамене, а Осам. работа оценка самостоятельной работы студентов при выполнении домашних заданий по текущим темам курса в четвертом модуле.

В диплом выставляется результирующая оценка по данной учебной дисциплине по формуле: Одисциплина = 0,5·Опромежуточный + 0,5·Оитоговый

Таблица соответствия оценок по десятибалльной системе и системе зачет/незачет

Оценка по 10-балльной шкале

Оценка по 5-балльной шкале

1

незачет

2

3

4

зачет

5

6

7

8

9

10

Таблица соответствия оценок по десятибалльной и пятибалльной системе

По десятибалльной шкале

По пятибалльной системе

1 – неудовлетворительно

2 – очень плохо

3 – плохо

неудовлетворительно – 2

4 – удовлетворительно

5 – весьма удовлетворительно

удовлетворительно – 3

6 – хорошо

7 – очень хорошо

хорошо – 4

8 – почти отлично

9 – отлично

10 – блестяще

отлично – 5

V.Содержание курса
«Компьютерная лингвистика»

Тема 1. Введение

1. Компьютерная лингвистика и автоматическая обработка текстов на естественном языке (ЕЯ): основные задачи и история развития. Междисциплинарный характер направления, связь со смежными научными дисциплинами.

2. Особенности ЕЯ, понятия языкового знака и языковой системы. Принципиальные отличия естественных и искусственных (формальных) языков: открытость, избыточность, нестандартная сочетаемость, асимметрия знаков и смыслов.

3. Уровни языковой системы (от фонетики до дискурса), их взаимосвязь. Основные единицы текста. Уровень фонем и символов. Синтаксический и морфологический уровни. Лексическая система. Словоформы и лексемы.

4. Понятие модели в компьютерной лингвистике. Основные уровни обработки текста и виды моделей. Модель «Смысл-Текст». Лингвистический процессор и лингвистические ресурсы (компьютерные словари и тезаурусы, грамматики, корпуса текстов).

Основная литература

  1. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие / Большакова Е.И. и др. – М.: МИЭМ, 2011.

  2. Леонтьева Н. Н. Автоматическое понимание текстов: Системы, модели, ресурсы: Учебное пособие – М.: Академия, 2006.

Дополнительная литература

  1. Белоногов Г.Г. Компьютерная лингвистика и перспективные информационные технологии. – М.: Русский мир, 2004.

  2. Касевич В.Б. Элементы общей лингвистики. — М., Наука, 1977.

  3. Bolshakov, I.A., Gelbukh A. Computational Linguistics. Models, Resources, Applications. Mexico, IPN, 2004.

  4. The Oxford Handbook on Computational Linguistics. R. Mitkov (Ed.). Oxford University Press, 2005.

Тема 2. Статистические модели

1. Статистика словоупотреблений в текстах на ЕЯ. Закон Ципфа-Мандельброта и его интерпретация. Статистические характеристики слов ЕЯ. Средняя длина словоформы, зависимость длины слова от его частоты. Частотные словари ЕЯ.

2. Статистика встречаемости букв и буквосочетаний: биграмм, триграмм, N-грамм. Метод N-грамм для букв и для слов текста. Статистические языковые модели. Цепи Маркова и их применение. Алгоритм Витерби. Приложения статистических моделей.

4. Статистика встречаемости сочетаний слов, понятие коллокации. Устойчивые словосочетания, методы их автоматического извлечения на базе статистики. Меры устойчивости.

Основная литература

  1. Manning, Ch. D., H. Schütze. Foundations of Statistical Natural Language Processing. MIT Press, 1999.

  2. The Oxford Handbook on Computational Linguistics. R. Mitkov (Ed.). Oxford University Press, 2005.

Дополнительная литература

  1. Jurafsky D., Martin J. Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. Prentice Hall, 2000.

  2. Пиотровский Р.Г. , Бектаев К.Б., Пиотровская А.А. Математическая лингвистика. – М.: Высшая школа, 1977.

  3. Чатуев М.Б., Чеповский А.М. Частотные методы в компьютерной лингвистике: учебное пособие – М. МГУП, 2011.

Тема 3. Морфологические модели

1. Основные понятия морфологических моделей: морфема, аффикс, основа, флексия, словоизменительная парадигма, флективный класс. Принципы построения морфологических моделей на базе словаря. Словари основ и словари словоформ.

2. Состав морфологического словаря. Особенности русской морфологии. Морфологическая зона толково-комбинаторного словаря в модели «Смысл-Текст». Морфологический синтез. Сравнение морфологических моделей.

3. Виды морфологического анализа: выделение основы, лемматизация, полный морфоанализ. Основные методы морфологического анализа: анализ на базе словаря, бессловарный анализ, анализ без опоры на грамматику. Программные модули автоматического морфологического анализа для русского языка.

4. Морфемный состав слова. Виды морфем. Морфотактики. Вычислительные модели морфологии на базе конечных автоматов. Приложения морфологических моделей.

Основная литература

  1. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие / Большакова Е.И. и др. – М.: МИЭМ, 2011.

  2. Васильев В. Г., Кривенко М. П. Методы автоматизированной обработки текстов. – М.: ИПИ РАН, 2008.

  3. Леонтьева Н. Н. Автоматическое понимание текстов: Системы, модели, ресурсы: Учебное пособие – М.: Академия, 2006.

Дополнительная литература

  1. Апресян Ю.Д. и др. Лингвистическое обеспечение системы ЭТАП-2. М.: Наука, 1989.

  2. Болховитянов А.В., Гусев А.В., Чеповский А.М. Морфологические модели компьютерной лингвистики: учеб. пособие – М. МГУП, 2010.

  3. The Oxford Handbook on Computational Linguistics. R. Mitkov (Ed.). Oxford University Press, 2005.

Тема 4. Методы синтаксического анализа

1. Различные подходы к анализу синтаксиса предложений ЕЯ. Основная задача синтаксического анализа. Синтаксические деревья: деревья непосредственных составляющих и деревья зависимостей. Понятия синтаксического предиката, валентности и актанта, модели управления. Синтаксические связи. Синтаксическая зона толково-комбинаторного словаря в модели «Смысл-Текст».

2. Трансформационный подход. Формальные языки и грамматики, классификация по Хомскому. Контекстно-зависимые, контекстно-свободные и регулярные (автоматные) грамматики. Задача синтаксического разбора для контекстно-свободных (КС) грамматик. Нисходящий и восходящий разбор.

3. Методы и алгоритмы синтаксического анализа для контекстно-свободных языков. Синтаксический разбор на базе автоматов и преобразователей с конечным числом состояний (Finite State Transducers). Расширенные сети переходов Вудса. Анализ на основе унификационных грамматик.

4. Частичный синтаксический анализ. Словосочетания и их основные типы. Выделение словосочетаний и синтаксических групп. Задача синтаксической сегментации текста. Словосочетания и коллокации.

Основная литература

  1. Гладкий А.В. Синтаксические структуры естественного языка в автоматизированных системах общения. — М., Наука, 1985.

  2. Леонтьева Н. Н. Автоматическое понимание текстов: Системы, модели, ресурсы: Учебное пособие – М.: Академия, 2006.

  3. The Oxford Handbook on Computational Linguistics. R. Mitkov (Ed.). Oxford University Press, 2005.

Дополнительная литература

  1. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие / Большакова Е.И. и др. – М.: МИЭМ, 2011.

  2. Апресян Ю.Д. и др. Лингвистическое обеспечение системы ЭТАП-2. М.: Наука, 1989.

  3. Васильев В. Г., Кривенко М. П. Методы автоматизированной обработки текстов. – М.: ИПИ РАН, 2008.

  4. Касевич В.Б. Элементы общей лингвистики. — М., Наука, 1977.

  5. Bolshakov, I.A., Gelbukh A. Computational Linguistics. Models, Resources, Applications. Mexico, IPN, 2004.

  6. Jurafsky D., Martin J. Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. Prentice Hall, 2000.

Тема 5. Модели дискурса и семантики

1. Характеристики связного текста (дискурса): тематическая связность, риторическая связность, лексическая связность, референциальная связность. Целостность и связность. Анафорические ссылки, кореференция, лексические повторы, дискурсивные слова.

2. Тематическая и композиционная структура текста. Сверхфразовые единства. Композиционные и дискурсивные особенности текстов разных жанров и стилей, их учет при обработке текстов.

3. Моделирование свойств связного текста. Построение лексических цепочек, автоматическое разрешение референции, автоматическое выявление риторической, композиционной, тематической структуры текста.

4. Модели представления семантики. Язык предикатов первого и высших порядков. Типизированные структуры.

Основная литература

  1. Леонтьева Н. Н. Автоматическое понимание текстов: Системы, модели, ресурсы: Учебное пособие – М.: Академия, 2006.

  2. Лукашевич Н.В. Тезаурусы в задачах информационного поиска. – М.: Изд-во Московского университета, 2011.

Дополнительная литература

  1. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие / Большакова Е.И. и др. – М.: МИЭМ, 2011.

  2. Ван Дейк Т.А., Кинч В. Стратегия понимания связного текста.// Новое в зарубежной лингвистике. Вып. XXIII — М., Прогресс, 1988, с. 153-211.

  3. Зубов А.В., Зубова И.И. Основы искусственного интеллекта для лингвистов. – М., Логос, 2007.

  4. Кобозева И.М. Лингвистическая семантика. – М., 2009.

  5. Кронгауз М.А. Семантика. - М.: Издательский центр «Академия», 2005. 

Тема 7. Разработка и применение лингвистических ресурсов

1. Система понятий и терминов как основа описания предметной области. Синонимия и лексическая многозначность. Смысловые (парадигматические) отношения лексических единиц. Лексические ресурсы WordNet и EvroNet.

2. Рубрикаторы и таксономии: функции и принципы создания. Информационно-поисковые тезаурусы (ИПТ). Стандарты по разработке ИПТ. Онтологии в информационно-поисковых системах.

3. Методы извлечения терминологических слов и словосочетаний из текстов. Способы оценки качества извлечения. Извлечение терминов как многофакторный процесс. Извлечение терминологических сочетаний в задаче индексирования текстов. Методы выявления терминологических связей: извлечение синонимов терминов, установление родовидовых отношений. Автоматизация построения таксономий.

4. Коллекции и корпуса текстов. Корпусная лингвистика. Виды разметки текстов. Параллельные и псевдопараллельные корпуса текстов, их применение.

Основная литература

  1. Лукашевич Н.В. Тезаурусы в задачах информационного поиска. – М.: Изд-во Московского университета, 2011.

  2. Biber, D., Conrad S., and Reppen D. Corpus Linguistics. Investigating Language Structure and Use. Cambridge University Press, Cambridge, 1998.

  3. Hirst, G. Ontology and the Lexicon. In.: Handbook on Ontologies in Information Systems. Berlin, Springer, 2003.

  4. Word Net: an Electronic Lexical Database. /Edit. by Christiane Fellbaum. Cambridge, MIT Press, 1998.

Дополнительная литература

  1. Кобозева И.М. Лингвистическая семантика. – М., 2009. 

  2. Национальный Корпус Русского Языка. http://ruscorpora.ru

  3. Manning, Ch. D., H. Schütze. Foundations of Statistical Natural Language Processing. MIT Press, 1999.

  4. The Oxford Handbook on Computational Linguistics. R. Mitkov (Ed.). Oxford University Press, 2005.

Тема 7. Построение приложений КЛ

1. Обзор приложений компьютерной лингвистики: машинный перевод, распознавание речи, автоматизация редактирования текстов, обучение языку, генерация текстов, диалог на ЕЯ, индексирование, реферирование и аннотирование текстов, извлечение информации и знаний из текстов. Основные подходы к разработке приложений: подход, основанный на знаниях (правилах) и подход, основанный статистике и машинном обучении.

2. Машинный перевод (МП). Лингвистические стратегии машинного перевода и поколения систем МП. Автоматический перевод, основанный на правилах. Интерлингва. Оценки качества машинного перевода. Статистический машинный перевод.

3. Генерация текстов документов. Стратегии синтеза текста. Генерация многоязыковых руководств пользователя (инструкций) по формальному описанию проблемной области.

4. Извлечение информации из текстов (Information Extraction) как одно из основных направлений КЛ. Технологии извлечения при подходе. Лингвистические шаблоны и их использование. Проблемы распознавания кореференции. Качество извлечения информации.

5. Автоматическое индексирование текстов. Извлечение ключевых слов.

Основная литература

        1. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие / Большакова Е.И. и др. – М.: МИЭМ, 2011.

        2. Леонтьева Н. Н. Автоматическое понимание текстов: Системы, модели, ресурсы: Учебное пособие – М.: Академия, 2006.

        3. The Oxford Handbook on Computational Linguistics. R. Mitkov (Ed.). Oxford University Press, 2005.

Дополнительная литература

  1. Васильев В. Г., Кривенко М. П. Методы автоматизированной обработки текстов. – М.: ИПИ РАН, 2008.

  2. Маккьюин К. Дискурсивные стратегии для синтеза текста на естественном языке // Новое в зарубежной лингвистике. Вып. XXIV. М.: Прогресс, 1989, с.311-356.

  3. Brown P., Pietra S., Mercer R., Pietra V. The Mathematics of Statistical Machine Translation. // Computational Linguistics, Vol. 19(2): 263-311. 1993.

VI.Тематика заданий по формам текущего контроля

Примеры заданий на контрольной работе

  1. Дать определения терминов: N-грамма; лексема; валентность; кореференция. Проиллюстрировать эти понятия на примере слова прослушивание.

  2. Что такое статистическая языковая модель? В каких приложениях компьютерной лингвистики применяются эти модели?

  3. Что является результатом полного морфологического анализа заданной словоформы? Поясните на примере конкретной словоформы.

  4. В чем отличие синтаксических деревьев непосредственно составляющих от синтаксических деревьев зависимостей?

  5. Для заданной формальной грамматики и описать порождаемый ею язык. Привести примеры предложений (фраз) языка, и для одного из них указать соответствующее синтаксическое дерево разбора.

  6. В заданном связном тексте указать и кратко пояснить межфразовые связи.

  7. Какие основные виды смысловых связей терминов представлены тезаурусах?

Примеры домашних заданий

    1. Построение для заданной коллекции текста статистической языковой модели.

    2. Разработка программы на базе конечного автомата для сегментации и начального лексического анализа неформатированного текста на естественном языке.

    3. Разработка программы для синтаксического анализа текста методом рекурсивного спуска на основе контекстно-свободной грамматики.

    4. Для заданного слова русского языка найти и сравнить его толкования в различных толковых словарях, а также в Национальном корпусе русского языка.

    5. Для заданного набора словосочетаний отобрать явные термины и явные нетермины, объяснить принятые решения.

VII.Вопросы для оценки качества освоения дисциплины

Тема 1.

  1. С какими научными дисциплинами связана область автоматической обработки текстов?

  2. В чем особенности естественного языка как знаковой системы?

  3. Перечислите основные отличия естественных языков от искусственных.

  4. В чем суть явления полисемии? омонимии? Приведите примеры.

  5. Перечислите основные уровни (подсистемы) языковой системы.

  6. В чем особенности компьютерных моделей естественного языка?

  7. Назовите основные уровни (модули) автоматического анализа текста.

Тема 2.

  1. Охарактеризуйте количественную меру информации и неопределенности.

  2. В чем заключается закон Ципфа-Мальдельброта?

  3. Какие основные статистические характеристики применяются для изучения естественного языка?

  4. Объясните понятие цепи Маркова.

  5. Что такое коллокация?

  6. Объясните понятие устойчивого словосочетания.

  7. Что такое мера взаимной информации MI?

  8. Какие статистические меры применяются для извлечения коллокаций?

Тема 3.

  1. Охарактеризуйте понятие лексемы.

  2. Что такое морфема? аффикс? Какие виды аффиксов вы знаете?

  3. Чем основа слова отличается от корня? Приведите примеры.

  4. Что такое словоизменительная парадигма?

  5. Какая информация представляется в морфологических словарях?

  6. Что такое лемматизация?

  7. Назовите основные стратегии морфологического анализа.

  8. Приведите пример морфологической омонимии.

Тема 4.

  1. Назовите основные подходы в анализу синтаксиса предложений ЕЯ.

  2. Что такое синтаксическое дерево?

  3. В чем особенность деревьев составляющих? Приведите пример.

  4. В чем особенность деревьев зависимостей? Приведите пример.

  5. Что такое валентность? Актант? Приведите примеры.

  6. Опишите основные особенности трансформационного метода по Хомскому.

  7. Что такое формальный язык? Формальная грамматика?

  8. Опишите классификацию формальных грамматик по Хомскому.

  9. Каие методы и алгоритмы анализа контекстно-свободных языков вы знаете?

  10. Что такое преобразователь с конечным числом состояний и для чего он используется при обработке текстов?

  11. В чем состоит синтаксическая сегментация текста?

  12. Какие типы словосочетаний вы знаете?

Тема 5.

  1. Назовите отличительные характеристики связного текста.

  2. Что такое анафорическая ссылка?

  3. Поясните понятие сверхфразового единства.

  4. Приведите пример дискурсивной особенности текста.

  5. Что такое автоматическое разрешение референции?

  6. Объясните понятие лексической цепочки. Приведите примеры.

  7. Что такое тематическая структура текстов?

  8. Укажите принципы автоматического разрешения референции.

  9. Что такое риторическая структура текста?

  10. Какие модели семантики текста вы знаете?

Тема 6.

  1. Что такое термин? Приведите примеры.

  2. Назовите основные свойства терминов.

  3. Что такое информационно-поисковый тезаурус?

  4. Что такое дескриптор тезауруса?

  5. Охарактеризуйте понятие лингвистической онтологии.

  6. Какие свойства родовидовых (таксономических отношений) вы знаете?

  7. Укажите принципы установления родовидовых (таксономических) отношений.

  8. Назовите свойства отношения часть-целое.

  9. Какие подвиды отношения часть-целое вы можете назвать?

  10. Что такое параллельный и псевдопараллельный корпус?

Тема 7.

  1. Назовите типичные приложения автоматической обработки текстов.

  2. Укажите приложения АОТ, в которых нужен морфологический анализ.

  3. В каких приложениях АОТ применяется синтаксический анализ?

  4. Укажите особенности задачи извлечения информации из текстов.

  5. Укажите основные стратегии машинного перевода.

  6. Что такое интерлингва?

  7. Назовите известные системы машинного перевода.

  8. Как измеряется качество машинного перевода?

  9. Что такое мера BLEU?

  10. В каких прикладных задачах применяется генерация текста?

Авторы программы: _____________________________/ Большакова Е.И. /

_____________________________/ Лукашевич Н.В. /



Похожие документы:

  1. Программа дисциплины Ведение в интеллектуальные информационные системы для направления 010400. 68 «Прикладная математика и информатика» подготовки магистра Авторы программы

    Программа дисциплины
    ... И ИНФОРМАТИКИ Программа дисциплины Ведение в интеллектуальные информационные системы для направления 010400.68 «Прикладная математика и информатика» подготовки магистра Авторы программы: Большакова Е.И., кандидат физ.-мат. наук, доцент (eibolshakova ...

Другие похожие документы..