Использование текстов жанра «интернет-откровение» в контексте решения задач сентимент-анализа

Материал поступил в редколлегию 15.03.2019

Аннотация

Статья посвящена анализу валидности текстов жанра «интернет-откровение» в качестве источника данных для обучающей выборки в целях тренировки модели компьютерного классификатора интернет-текстов на русском языке по критерию их эмоциональной тональности. Целью осуществляемого проекта является создание программы, способной автоматически оценивать тексты как вербализующие одну из 8 эмоций, согласно модели Г. Левхейма, или как эмоционально нейтральные. Для достижения цели возникла необходимость в формировании обучающей выборки – коллекции интернет-текстов, где каждому из них уже приписана определенная эмоция или оценка «нейтрально». В качестве источника подобных данных выбраны тексты из публичной группы Подслушано в социальной сети «ВКонтакте». Всем текстам паблика присущи определенные специфические черты, что позволяет рассматривать их совокупность как отдельный нарративный жанр – жанр «интернет-откровение», свойства которого описаны с применением метода нарративной семиотики А.Ж. Греймаса. Выявлены качественные и формальные преимущества текстов данного жанра в качестве источника данных для сентимент-анализа.

Преимуществами текстов интернет-откровений являются: а) качественные: тот факт, что роль адресанта в данных текстах выполняет человеческая личность, стремящаяся преодолеть чувство отчужденности, а ее адресатом становится общечеловеческое «я» социума, обусловливает тяготение данных текстов именно к реализации категории эмотивности, а не экспрессивности или оценочности, которые также присутствуют, но они вторичны; б) формальные: данные тексты уже подвержены первичной эмоциональной разметке при помощи хештегов, что облегчает их извлечение и, для значительной части данных, позволяет избежать затратной в финансовом и временном плане процедуры разметки асессорами; размер текстов данного жанра оптимален для восприятия экспертами или асессорами; при выраженной категории эмотивности рассматриваемые тексты сохраняют лексическую, синтаксическую и графическую специфику, свойственную в целом персональному интернет-дискурсу социальных сетей.

В качестве ограничения, накладываемого текстами жанра «интернет-откровение» на выборку, выступает их нарративный характер, что исключает из коллекции данных иные типы дискурсивных единиц, например, аргументативы или дескриптивы.

Ключевые слова: сентимент-анализ, обучающая выборка, интернет-тексты, жанр «интернет-откровение», социальные сети, нарратив.

Выходные данные: Колмогорова А.В. Использование текстов жанра «интернет-откровение» в контексте решения задач сентимент-анализа. Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 17, 3. C. 71–82. DOI: 10.25205/1818-7935-2019-17-3-71-82