Сравнение моделей векторного представления текстов в задаче создания чат-бота

Материал поступил в редколлегию 21.02.2020
Аннотация
На сегодняшний день одним из стремительно развивающихся направлений научных исследований является
создание разговорного интеллекта, способного поддерживать полноценный человеко-машинный диалог на
произвольное количество тем. Благодаря большому количеству индустриальных разработок, нуждающихся во взаимодействии гаджетов и человека, интерес к этой проблеме возрос в последние годы. В данной работе представлен краткий обзор архитектур современных разговорных агентов (чат-ботов) по выдаче ответа пользователю, выделены основные преимущества и недостатки каждого подхода. Отдельно приведен краткий обзор и сравнительный анализ актуальных на сегодняшний день методов векторизации текстовых данных в задачах создания современных разговорных агентов. Представлены результаты эксперимента по созданию русскоязычного чат-бота ранжирующего типа: проанализированы особенности открытых источников данных с диалогами на русском языке, описан алгоритм обработки собранных данных для реализации бота, ранжирования ответов и выбора ответной реплики, опубликован итоговый набор данных и программный код. Также были проанализированы проблемы чат-ботов ранжирующего типа (на примере создания бота, поддерживающего беседу по узкопрофильной теме о пленочной фотографии). Кроме того, были проанализированы особенности открытых источников данных с диалогами на русском языке, доступных на сегодняшний день, собран и проанализирован необходимый набор данных для обучения чат-бота, продемонстрирована его работа, а также количественная оценка качества ответов пользователю. Авторы раскрывают проблематику оценки качества работы чат-ботов, в частности обсуждаются вопросы выбора метрик. Также демонстрируются примеры диалогов чат-бота, реализованного на моделях векторизации, давших хорошие показатели при автоматической оценке.
Ключевые слова
обработка естественного языка, компьютерная лингвистика, машинное обучение, диалоговые системы, интеллектуальные чат-боты, эмбеддинги слов, разговорный интеллект, ранжирующие чат-боты, порождающие модели, векторные представления текста

Выходные данные: Жеребцова Ю.А., Чижик А.В. Сравнение моделей векторного представления текстов в задаче создания чат-бота. Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2020. Том 18, 3. C. 16–34. DOI: 10.25205/1818-7935-2020-18-3-16-34