- Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация
- Архив
- 2019
- Том 17. Выпуск 3
- Прикладная лингвистика
Использование текстов жанра «интернет-откровение» в контексте решения задач сентимент-анализа
Аннотация
Статья посвящена анализу валидности текстов жанра «интернет-откровение» в качестве источника данных для обучающей выборки в целях тренировки модели компьютерного классификатора интернет-текстов на русском языке по критерию их эмоциональной тональности. Целью осуществляемого проекта является создание программы, способной автоматически оценивать тексты как вербализующие одну из 8 эмоций, согласно модели Г. Левхейма, или как эмоционально нейтральные. Для достижения цели возникла необходимость в формировании обучающей выборки – коллекции интернет-текстов, где каждому из них уже приписана определенная эмоция или оценка «нейтрально». В качестве источника подобных данных выбраны тексты из публичной группы Подслушано в социальной сети «ВКонтакте». Всем текстам паблика присущи определенные специфические черты, что позволяет рассматривать их совокупность как отдельный нарративный жанр – жанр «интернет-откровение», свойства которого описаны с применением метода нарративной семиотики А.Ж. Греймаса. Выявлены качественные и формальные преимущества текстов данного жанра в качестве источника данных для сентимент-анализа.
Преимуществами текстов интернет-откровений являются: а) качественные: тот факт, что роль адресанта в данных текстах выполняет человеческая личность, стремящаяся преодолеть чувство отчужденности, а ее адресатом становится общечеловеческое «я» социума, обусловливает тяготение данных текстов именно к реализации категории эмотивности, а не экспрессивности или оценочности, которые также присутствуют, но они вторичны; б) формальные: данные тексты уже подвержены первичной эмоциональной разметке при помощи хештегов, что облегчает их извлечение и, для значительной части данных, позволяет избежать затратной в финансовом и временном плане процедуры разметки асессорами; размер текстов данного жанра оптимален для восприятия экспертами или асессорами; при выраженной категории эмотивности рассматриваемые тексты сохраняют лексическую, синтаксическую и графическую специфику, свойственную в целом персональному интернет-дискурсу социальных сетей.
В качестве ограничения, накладываемого текстами жанра «интернет-откровение» на выборку, выступает их нарративный характер, что исключает из коллекции данных иные типы дискурсивных единиц, например, аргументативы или дескриптивы.
Ключевые слова: сентимент-анализ, обучающая выборка, интернет-тексты, жанр «интернет-откровение», социальные сети, нарратив.