- Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация
- Архив
- 2017
- Том 15. Выпуск 1
- Компьютерная лингвистика
Индексы концентрации частотных словарей
Материал поступил в редколлегию 05.02.2017
АннотацияРассматривается система индексов, характеризующих частотную концентрацию и рассеяние лексических единиц в частотных словарях. Если представить частотный словарь в форме рангового распределения, то к нему может быть применен классический индекс итальянского ученого К. Джини, а также индексы отечественного статистика В. П. Трофимова и два индекса Г. Я. Мартыненко, основанные на ранговом среднем. Исследуются связи между данными индексами, показана возможность их применения при исследовании структуры частотных словарей. Исследуемые индексы представляют собой важные обобщающие статистики, позволяющие сравнивать частотные словари друг с другом с точки зрения экспликации феномена концентрации и рассеяния. Рассматриваются классические статистические распределения (Ципфа - Парето, Вейбулла, логистическое) в ранговой форме и аналитические выражения, соответствующие этим распределениям. Возможность применения рассматриваемых индексов концентрации показана на материале трех частотных словарей художественной прозы (А. П. Чехов, Л. Н. Андреев и А. И. Куприн), специализированного словаря по электронике и двух малых частотных словарей.
Ключевые слова: частотный словарь, автоматический анализ текста, ранговое распределение, статусное распределение, концентрация, рассеяние, ранговое среднее, индекс концентрации, индекс Джини, индекс Трофимова, индексы Мартыненко, распределение Ципфа, распределение Вейбулла, логистическое распределение
Выходные данные: Мартыненко Г.Я., Григорьев Ю.Д. Индексы концентрации частотных словарей. Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 15, 1. C. 41–53.