Количественная оценка грамматической неоднозначности некоторых европейских языков

Материал поступил в редколлегию 25.10.2019
Аннотация Неоднозначность слов по их грамматическим категориям является хорошо исследованной областью, однако существующие методы ее оценки в текстах на различных естественных языках являются скорее количественными, чем качественными. В данной статье предлагается разделение всех слов на несколько классов неоднозначности. Подобное разделение позволяет ввести количественный метод оценки, основанный на расчете статистики употребления слов. В статье проводится исследование неоднозначности для таких языков, как английский, немецкий, шведский, испанский, каталанский, французский, итальянский, португальский, русский, польский, словенский, турецкий. Нами было численно показано, что распределение слов по классам неоднозначности зависит от выбранного корпуса или системы морфологического анализа, однако остается уникальным для заданного языка. Так, славянские языки, а также французский и итальянский, обладают самой низкой частотой слов, неоднозначных по части речи. Наибольшей неоднозначностью по собственно грамматическим параметрам обладают славянские языки, немецкий и шведский. Кроме того, была обнаружена зависимость неоднозначности от частотности слова. В статье показывается, что наибольшей степенью неоднозначности обладают слова из первой тысячи самых частотных слов. Для большинства исследованных языков при снижении частоты слов также падает и процент слов, неоднозначных по части речи. Учет разных классов неоднозначности позволяет более корректно проводить оценку систем снятия грамматической неоднозначности, применяемых для разных языков. Обычно сравнение проводится на всем тексте, тогда как мы предлагаем сравнивать результаты только на неоднозначных словах, поскольку их процент существенно отличается от языка к языку. Наши эксперименты, не вошедшие в данную статью, показали, что учет класса неоднозначности позволяет несколько улучшить работу системы автоматического снятия неоднозначности. Ключевые слова автоматическая обработка текстов, грамматическая неоднозначность, статистика употребления
Выходные данные: Клышинский Э. С., Логачева В. К., Карпик О. В., Бондаренко А. В. Количественная оценка грамматической неоднозначности некоторых европейских языков. Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2020, Том 18, Выпуск 1. C. 5–21. DOI: DOI 10.25205/1818-7935-2020-18-1-5-21