Поиск

Полнотекстовый поиск:
Где искать:
везде
только в названии
только в тексте
Выводить:
описание
слова в тексте
только заголовок

Рекомендуем ознакомиться

'Конкурс'
Любовь к родному языку воспитывается, прежде всего, через пробуждение у учеников интереса к предмету «русский язык», возникающего как на учебных занят...полностью>>
'Документ'
Какой ряд чисел отражает распределение электронов по электронным слоям в атоме химического элемента. Занимающего в периодической системе химических эл...полностью>>
'Урок'
Учитель. Здравствуйте, ребята. Сегодня у нас будет необычный урок. Я предлагаю вам отправиться в морское путешествие и сыграть в математический морско...полностью>>
'Документ'
1. Основной целью деятельности отдела является правовое обеспечение деятельности администрации района и ее структурных подразделений, защита их прав и...полностью>>

Главная > Документ

Сохрани ссылку в одной из сетей:
Информация о документе
Дата добавления:
Размер:
Доступные форматы для скачивания:

1. Интернет как социальное пространство и пространство социологического исследования

Автор:

Павлова Юлия Валерьевна,

НИУ ВШЭ — Санкт-Петербург, факультет социологии,

2-ой курс магистратуры,

E-mail: Julia.v.pavlova@

Научный руководитель:

Кольцова Олеся Юрьевна,

декан факультета социологии,

доцент кафедры социологии,

заведующая Лабораторией Интернет-исследований,

.

Метод автоматического анализа тональности текста в применении к социологическим задачам: на примере анализа комментариев к постам Живого Журнала

Анализ тональности текста, или Sentiment analysis (SA), – одно из направлений автоматического или полуавтоматического текстового анализа, главной целью которого является определение эмоциональной окраски текста для выявления отношения автора текста к какому-либо объекту, определенной теме, процессу или явлению. Наиболее распространенные задачи sentiment analysis автоматическое определение оценок какого-либо объекта (персона, марка товара, бренд, событие, организация и т.д.) на основании корпуса текстов, посвященных этому предмету, например, отзывов; т.о. SA используется, прежде всего, в маркетинговых и рекламных исследованиях. Тексты обычно разделяются на оценочные и нейтральные в отношении оценки. При определении оценок чаще всего используется поляризованная шкала: позитивная—негативная оценка либо эмоция, иногда дополняемая количественными индексами. Основными источниками информации для автоматического определения оценок в тексте являются, прежде всего, лексика (слова и сочетания, имеющие оценочное значение); также может учитываться пунктуация (например, восклицательные знаки, особенно несколько подряд) и специальные конвенции, свойственные данному типу текстов (например, эмотиконы для интернет-коммуникации).

Основные трудности при переносе методологии sentiment analysis в другие области, в том числе для решения задач социологического анализа блогосферы, кроются в том, что способы выражения оценок в тексте могут значительно варьироваться в зависимости от сферы и жанра коммуникации, медиа, предметной области.

Тексты блогосферы — посты и комментарии — представляют собой сферу, где ожидается выражение субъективной оценки автора к тому или другому явлению, событию, к определенной группе или личности, выражение эмоций. Располагая инструментарием для автоматического определения эмоциональной и оценочной окраски текста, можно обследовать выборки текстов блогосферы значительного объема. Зная тематическую принадлежность или другие характеристики исследуемых текстов, можно определять, какие сегменты блогосферы связаны с выражением положительных или отрицательных оценок и эмоций. Т.к. повышенная эмоциональная нагруженность текстов обычно является индикатором повышенного интереса и зачастую проблемности обсуждаемого в тексте объекта, таким образом можно выявлять темы, которые в наибольшей степени волнуют общество, а также определять, существует ли социальная напряженность по отношению к тем или иным общественным процессам или явлениям, и тем самым предугадывать возможные социальные изменения или волнения в обществе.

В рамках проекта1 была проделана работа по адаптации ПО Sentistrength2 к русскому языку и апробация его на русскоязычных данных. SentiStrength был выбран, т.к. по отношению ко многим другим пакетам он показывает лучшее качество и по нему существует достаточное количество академических публикаций3. Процесс адаптации включал в себя перевод англоязычного словаря, на основе которого работает ПО, на русский язык, подбор подходящих русских эквивалентов к полученным словам, составление частотного словаря на основе комментариев к постам ЖЖ, включение частотных слов в словарь и кодирование словаря по шкале эмоциональности от -5 до 5.

Таким образом, словарь, который использовался в русскоязычной версии, включал в себя слова, не только выражающие какое-то эмоциональное отношение, но и наиболее часто употребляющиеся при написании постов и комментариев в русскоязычных блогах.

Апробация осуществлялась на трех выборках комментариев к постам в ЖЖ. Комментарии были выбраны для анализа вместо постов по двум причинам. Во-первых, эмоциональная оценка объектов, обсуждаемых в постах, как правило, наиболее ярок выражена в комментариях. Сами посты могут содержать перепечатки, не отражающие эмоционального настроя авторов. Во-вторых, посты, как правило, имеют больший объем, а в ходе предыдущих исследований установлено, что инструменты SA показывают низкое качество на больших текстах и особенно на журналистских статьях.

Каждая из исследованных выборок содержала по 1000 комментариев к постам блогеров Живого Журнала, входящим в топ-1400 рейтинга ЖЖ. Живой журнал был выбран как блог-платформа, отличающаяся наибольшей активностью пользователей и наибольшей их склонностью освещать социально значимые темы. Две выборки (за 15.08-15.09.2011 и за декабрь 2011 года) были условно названы «исламскими», так как посты, к которым относились выкаченные комментарии, содержали корни слов «ислам*» или «мусульман*»; третья выборка была случайным образом сформирована из обоих временных периодов и играла роль контрольной, по отношению к которой определялось, отличается ли эмоциональная заряженность комментариев к теме «мусульманство» от заряженности случайных комментариев. Операционализация темы через ключевые слова имеет свои ограничения, рассмотренные в докладе «Разработка методологии составления выборок электронных текстов для социологического анализа русскоязычных блогов»4.

Тексты были лемматизированы5 и подвергнуты автоматическому анализу с помощью адаптированной к русскому языку версии SentiStrength. Частотные распределения, построенные на основе полученных результатов автоматической оценки текстов, показали, что преимущественно все комментарии как в «исламских» выборках за оба периода, так и по случайной выборке не имеют ярко выраженной эмоциональной окраски. То есть большинство комментариев имеет оценки 0 или 1. Если взять распределение по исламской выборке за сентябрь (при этом стоит обратить внимание на то, что это комментарии ЖЖ накануне и сразу после Ураза-байрама), то оно мало чем будет отличаться от декабрьской выборки (условно нейтральной по отношению к исламским событиям). Полученные результаты могут свидетельствовать об отсутствии ярко выраженного эмоционального отношения к теме «ислама», а, следовательно, об отсутствии какой-то социальной напряженности по отношению к данной теме.

Учитывая тот факт, что автоматический анализ может не учитывать некоторых нюансов выражения эмоций (сарказм, контекст, переносные значения слов), следующий шаг для проверки полученных результатов - кодирование тех же самых текстов по трем выборкам кодировщиками с целью сравнить результаты, полученные автоматическим способом, с ручным кодированием. При кодировании текстов ориентация идет уже не столько на отдельные слова, а на контекст, в которых эти слова употребляются, поэтому и оценка, вполне возможно, является более точной.

По результатам ручного кодирования можно сделать вывод, что, не смотря на аналогичное преобладание 0 и 1 в оценках комментариев, значительно большее число комментариев было закодировано как -3, -4, -5 по сравнению с автоматическим анализом. Особенно такое различие видно на выборке комментариев, взятых в ЖЖ за сентябрь, периоде вокруг мусульманского праздника Ураза-байрам. Это свидетельствует о том, что данная тема вызвала эмоции у пользователей ЖЖ, и по большей части они все-таки являются негативными. В целом, доля совпадений между автоматическим и ручным кодированием в наших экспериментах значительно уступает аналогичным экспериментам М.Фелвола на английском языке.

Различие между автоматическим анализом текстов и ручным кодированием может быть вызвано тем, что составленный словарь не включает в себя все основные слова, которые могут выражать эмоциональное отношение в блогах. Также вполне допустимо, что, не смотря на высокую степень надежности интеркодирования (около 0,8), кодировщики не совсем правильно поняли задачу при кодировании словаря и присвоили значимые оценки словам, которые не часто употребляются в комментариях и постах или, напротив, присвоили «заниженные» оценки значимым в эмоциональном отношении словам.

Стоит обратить внимание на то, что ПО SentiStrength работает практически исключительно с отдельными словами. Словарь — это набор слов-маркеров, на присутствие которых в тексте реагирует Sentistrength. Если у слова из словаря значится положительная оценка, то и текст получит положительную оценку и наоборот. Контекст же практически не влияет. Из этого способа использования следует главный принцип отбора: нужно составить словарь так, что только по этим отдельным словам можно с достаточной надежностью судить о том, что позиция автора оценочна, а не нейтральна. С другой стороны, нужно помнить, что многие слова употребляются не только в прямых, но и в переносных значениях. При этом в прямом значении - это описательные неоценочные слова, а в переносном — оценочные. При анализе же ручного кодирования не стоит забывать о возможной субъективности кодировщика и механических ошибках при выставлении оценок.

Таким образом, сильными сторонами подобного автоматического метода исследования текстов является его способность работать с большим массивом данных и выдавать быстрый результат, по которому можно судить о наличии или отсутствии социального напряжения по отношению к той или иной теме, событию, персоне. Слабой же стороной является сложность учета всех нюансов при составлении словаря, с помощью которого работает программа и необходимость привлечения человеческих ресурсов для постоянного совершенствования словаря и проверки полученных данных.

1 проект «Разработка методологии сетевого и семантического анализа блогов для социологических задач», рук. Е.Ю.Кольцова, грант Научного Фонда ГУ-ВШЭ в рамках конкурса «Учитель-Ученики 2011-2012 гг.»

2 Программное обеспечение для sentiment analysis разработано проф. Майклом Феллволем, главой Statistical Cybernetics Research Group университета Вулверэмптона и ассоциированным научным сотрудником Oxford Internet Institute, Великобритания.

3 Thelwall, M., Buckley, K., Paltoglou, G. Cai, D., & Kappas, A. (2010). Sentiment strength detection in short informal text. Journal of the American Society for Information Science and Technology, 61(12), 2544–2558.

4 Павлова Ю.В. Разработка методологии составления выборок электронных текстов для социологического анализа русскоязычных блогов // Избранные тезисы докладов III Студенческой социологической межвузовской конференции. НИУ-ВШЭ(СПб), 2012, с.10

5 Лемматизация – приведение слова к его начальной языковой форме



Похожие документы:

  1. Методика анализа тональности текста

    Документ
    ... или негативной стороны описывается объект в текстах. Глава 2. Метод автоматического анализа тональности текста в применении к социологическим задачам: на примере анализа комментариев к постам Живого Журнала. В рамках данного кейса было ...
  2. На протяжении вот уже полувека историки, политологи, социологи во всём мире вновь и вновь возвращаются к поискам ответа на вопрос, остающийся наиболее сложной и

    Документ
    ... на изделия государственной промышленности"2. Решение этой задачи автоматически ... к применению "военизированных" методов на " ... анализа реальных исторических фактов и тенденций, содержащего элементы объективной истины, делаются реакционные социологические ...
  3. Анна готлиб качественное социологическое исследование познавательные и экзистенциальные горизонты

    Документ
    ... автоматически ... комментарий, в котором теоретические понятия «переплетены» с метафорами, аналогиями, фрагментами «живого» текста ... анализу текстов и возможность их применения в социологических исследованиях // Методология и методы социологических ... на примере ...
  4. Питер москва Санкт-Петарбург -нижний Новгород • Воронеж Ростов-на-Дону • Екатеринбург • Самара Киев- харьков • Минск 2003 ббк 88. 1(0)

    Документ
    ... живо и полно, насколько сможете». С точки зрения Титченера, постоянное применение этого метода ... Danziger, 1990) использует социологические методы для того, чтобы ... анализ, приведенный Марром, давайте рассмотрим простой арифметический пример. На ...
  5. Вадим Руднев Прочь от реальности: Исследования по философии текста

    Документ
    ... примененную последним при анализе ... методами ... социологического ... живое ... на примере анализа ... текст и комментарий в «Бесконечном тупике» Галковского, многочисленные тексты в тексте ... задача философа, подобно задаче ... автоматическим ... // На посту, № 2, ... Ф. Тональные основы ...

Другие похожие документы..