Поиск

Полнотекстовый поиск:
Где искать:
везде
только в названии
только в тексте
Выводить:
описание
слова в тексте
только заголовок

Рекомендуем ознакомиться

'Документ'
(указать вид пенсии: трудовая, федеральная, по инвалидности или потере кормильца, досрочная, оформляемая через органы труда и занятости) « ....полностью>>
'Документ'
Не соблюдается требование п. 12 Постановления Правительства Российской Федерации от 15.08.1997 года № 1036 «Правила оказания услуг общественного питан...полностью>>
'Методические рекомендации'
1. Для утверждения уполномоченным органом исполнительной власти, осуществляющим управление в сфере государственного регулирования цен (тарифов) в Киро...полностью>>
'Программа'
В настоящее время человечество все больше охватывает череда экологических проблем и кризисов. В связи с чем, происходит экологизация науки в целом и, ...полностью>>

Главная > Документ

Сохрани ссылку в одной из сетей:
Информация о документе
Дата добавления:
Размер:
Доступные форматы для скачивания:

Санкт-Петербургский государственный университет

Филологический факультет 

Кафедра математической лингвистики

Направление: «Лингвистика»

Образовательная программа: «Прикладная и экспериментальная лингвистика»

Профиль: «Компьютерная лингвистика и интеллектуальные технологии»

Выявление информации о конфликтных ситуациях в новостных текстах

(на базе семантического описания RussNet)

Выпускная квалификационная работа

соискателя на степень магистра филологии

Лукина Никиты Сергеевича

Научный руководитель: к. ф. н., доц. Азарова

Ирина Владимировна

Санкт-Петербург

2016


Введение

Представленная работа производится на базе описания Russnet – электронного тезауруса русского языка, перенявшего большую часть методологии построения лексико-семантической базы данных у WordNet-проектов, представляющими собой сеть, элементами которой являются синонимические ряды (синсеты) и слова, входящие в них. Аналогичный проект RussNet, начало создания которого приходится на 1999 год, поставил перед собой цель охватить всю базовую общеупотребительную лексику. Наполнение словаря ведется методом отбора и анализа лексико-семантических полей, в состав которых входят высокочастотные лексемы, которые предположительно формируют ядерную часть лексико-семантических полей.

Целью данной работы является выявление структуры лексико-семантического поля глаголов, описывающих конфликтные ситуации. Для этого были поставлены следующие задачи:

  1. Выявить основные параметры лексико-семантического поля (в том числе при помощи описания теории валентностей и теории фреймов)

  2. Собрать корпус с последующим выделением наиболее частотных лексем, относящихся к конфликтной ситуации, а также создать фрейм с целью обеспечить наиболее полное исчисление лексем, соответствующих структуре поля.

Корпус, на основе которого было проведено представленное исследование, собран на материале Википедии. В него вошло около 30 обширных статей, посвященных описанию вооруженных действий в 2000-2015 годах, например, таких, как: Афгано-пакистанский пограничный конфликт, конфликт в Южной Осетии, конфликт на Украине, гражданская война в Либерии, Ливии и другие. Общий объем корпуса составляет около 60 тысяч словоупотреблений. Несмотря на свой объем корпус репрезентативен как с точки зрения представленности в нем конфликтных ситуаций (в нем подробно описаны все виды боевых действий и связанные с ними элементы (место, время и т.д.), интересующие нас в данном исследовании), так и с точки зрения лексики.

При помощи Томита-парсера были отобраны наиболее часто встречающиеся глаголы, при этом частотными считались те глаголы, которые встретились в корпусе более 15 раз. Из них были отобраны глаголы, имеющие явное отношение с точки зрения семантики к военным действиям, а также подобные глагольные конструкции с глаголами «быть» и «стать». Полученные глаголы (20 единиц) были разделены на те, которые составляют «ядро» семантического поля и «периферию». Для глаголов, относящихся к ядру, были подстроены актантные модели и были отмечены особенности каждой из конструкций. Кроме того, эти глаголы были объединены в синсеты с указанием их рамок валентностей, значением слов и примерами употребления для дальнейшей интеграции в RussNet.

Основная мысль, заложенная во фреймовом описании конфликтной ситуации, заключается в существовании конфликтных макроситуаций и микроситуаций, которые можно описать при помощи фреймов.

В нашем случае конфликтной ситуацией считается ситуация, которая обладает тремя составляющими конфликта: биполярностью, наличием сторон конфликта, наличием действий.

Микроситуацией является мельчайшее действие, в нашем случае – конфликтного характера. Микроситуация опирается на текст, она вербоцентрична. Фрейм микроситуации состоит из слотов «действие», «субъект», «объект» и «место» с указанием их лексического выражения и грамматического значения.

Макроситуацией же считается сумма связанных между собой микроситуаций, описывающая конфликт в конкретном тексте. Как правило, при наличии нескольких микроситуаций связь между ними представляют собой логические операции (импликация или конъюнкция). Конфликтная ситуация также опирается как на текст, так и на контекст, поэтому структура фрейма конфликтной макроситуации более сложна. Она состоит из слотов «Общая характеристика», в которой прописывается точка зрения на конфликт, аспекты и участники конфликтной ситуации, «Микроситуации», слот, ссылающийся на фреймы микроситуаций, а также слот «Характеристика действия», в которой указывается связь между микроситуациями, характеристика локализации конфликта и особенности времени.

Таким образом, представленная работа состоит из трех частей:

1. В первой главе описаны теоретические аспекты выявления конфликтных ситуаций, а именно:

  • описание теории семантического поля и лексико-семантических групп

  • описание теории валентностей и семантических ролей

  • описание теории фреймов

  • описание структур WordNet-тезаурусов и RussNet’а в частности

2. Во второй главе произведено исследование состава и структуры фреймов конфликтных ситуаций, а именно:

  • описан материал, на основе которого проведено представленное исследование

  • произведено исследование лексики и рамок валентностей

  • спроектированы фреймы конфликтных микро- и макроситуаций

3. В приложении представлены синсеты, включающие в себя глаголы, относящиеся к «ядру» исследуемого семантического поля, описанные в терминах RussNet, а также приведены примеры фреймов конфликтных микроситуаций с каждым из этих глаголов с примерами.

Методы, используемые в работе:

  • Теория семантических полей (с целью описать лексико-семантического поле конфликтной ситуации)

  • Теория валентностей и семантических ролей (с целью определить основные параметры конфликтной ситуации с их грамматическим значением).

  • Теория фреймов (с целью построения фрейма конфликтной ситуации)

Новизна представленной работы заключается в построении фрейма, описывающего конфликтную ситуацию, так как подобных исследований в рамках методики RussNet еще не было.

Актуальность же исследования заключается в том, что в настоящее время получен грант РГНФ на интеграцию данных RussNet в YARN (Yet Another RussNet, проект Уральского Государственного Университета им. Горького, направленный на создание большого открытого тезауруса русского языка с использованием краудсорсинга), поэтому возникает задача проверить имеющиеся данные по областям RussNet, пополнить их максимально и поместить синсеты и семантические отношения в YARN.



Похожие документы:

  1. «Компьютерная лингвистика и интеллектуальные технологии» (1)

    Документ
    ... Кафедра математической лингвистики Направление: «Лингвистика» Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» Параллельный конкорданс ...
  2. «Компьютерная лингвистика и интеллектуальные технологии» (3)

    Документ
    ... Кафедра математической лингвистики Направление: «Лингвистика» Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» Кластеризация языковых ...
  3. Как единица устной речи: общая характеристика и прагматический потенциал

    Документ
    ... результаты исследования // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной ... . И. Б. Пересказывательность в русском языке // Компьютерная лингвистика и интеллектуальные технологии: материалы Международной конференции «Диалог ...
  4. Сводные данные международных мероприятий в области образования, науки и инноваций на 20 1 3 – 2015 гг

    Документ
    ... . ноябрь 2013 612 Международная конференция «Компьютерная лингвистика и интеллектуальные технологии» – Диалог 2013 Ин-т проблем ... техни-ческий конгресс по интеллектуальным системам и информационным технологиям Таганрогский технологический ин-т Южного ...
  5. Материал из Semantic Future

    Документ
    ... , к увеличению числа пользователей, активно использующих технологии и сервисы Semantic Web, но революции ... доступ к систематизированным знаниям и данным, относящимся к компьютерной лингвистике, т.е. возможность поиска и получения информации в терминах ...

Другие похожие документы..