Автоматическое извлечение дискурсивных формул из текстов на русском языке

Материал поступил в редколлегию 31.03.2018
Статья посвящена проблеме создания модуля автоматического извлечения из текстов русского языка особых единиц - дискурсивных формул. Под дискурсивными формулами (ДФ) мы понимаем неоднословные конструкции, которые, однако, не содержат переменных и выступают в роли ответных реплик на вербальный стимул. Работа над программным модулем включала в себя несколько этапов, в том числе ручную разметку пьес по выявленным в ходе работы критериям. Процесс автоматического извлечения ДФ предусматривает деление текста на синтаксические единицы, соотносимые с клаузой, предсказание принадлежности каждой из единиц к классу ДФ на основании выделенного нами набора признаков и формирование итогового списка ДФ. В качестве алгоритма классификации используется равновесное голосование четырех классификаторов: Random Forest Classifier, Logistic Regression, Ridge Classifier, Support Vector Classifier.

Ключевые слова: дискурсивные формулы, грамматика конструкций, машинное обучение, автоматическое извлечение сущностей

 
Выходные данные: Пужаева С.Ю., Герасименко Е.А., Захарова Е.С., Рахилина Е.В. Автоматическое извлечение дискурсивных формул из текстов на русском языке. Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 16, 2. С. 5–18. DOI: 10.25205/1818-7935-2018-16-2-5-18