Ограничения применения метода на основе сжатия данных к классификации аннотаций публикаций, индексируемых в Scopus

Селиванова Ирина Вячеславовна
1. ГПНТБ СО РАН
selivanova@spsl.nsc.ru
Материал поступил в редколлегию 08.04.2020
Приводятся ограничения применения метода классификации научных текстов, основанного на сжатии данных, ко всем категориям из классификации ASJC, используемой в библиографической базе данных Scopus. Показано, что автоматическое создание обучающих выборок для каждой категории является достаточно трудоемким процессом, а в ряде случаев невозможно из-за ограничения на выгрузку данных, установленного в Scopus, и отсутствия названий категорий в Scopus Search API. Другим фактором является то, что во многих областях наук полностью отсутствуют журналы и, соответственно, публикации, у которых указана только од-на категория. Применение метода ко всем 26 областям наук невозможна в виду их обширности, а также изначальной классификации Scopus. Часто в разных областях наук находятся терминологически близкие категории, что затрудняет отнесение публикации к верной области. Проведенная работа также указывает на то, что многие исследования, основанные на использовании проклассифицированных по ASJC публикаций, могут иметь некоторые неточности.
Выходные данные: И.В. Селиванова Ограничения применения метода на основе сжатия данных к классификации аннотаций публикаций, индексируемых в Scopus. Вестник НГУ. Серия: Информационные технологии. 2020 Т.18, №3. C. 57–68. DOI: DOI 10.25205/1818-7900-2020-18-3-57-68