Новый комплекс инструментов автоматической обработки текста для платформы TXM и его апробация на корпусе для анализа экстремистских текстов

Материал поступил в редколлегию 29.05.2018
Аннотация
Платформа TXM предоставляет широкие возможности корпусного анализа, такие как анализ соответствий, кластеризация, построение лексических таблиц, поиск сложных лексических конструкций, выделение подкорпусов по различным параметрам. По умолчанию платформа работает со словоупотреблениями в качестве структурных единиц анализа. Она интегрирована с единственным расширением TreeTagger, позволяющим проводить лишь морфологический анализ и лемматизацию словоупотреблений. Однако пользователь может сопроводить каждое словоупотребление набором дополнительных характеристик, позволяющих существенно усложнить анализ, сделать его более гибким. В настоящей работе описывается разработанный нами набор утилит, позволяющий, опираясь как на наши собственные программные решения, так и на готовые средства анализа, расширить и усложнить анализ корпусов в платформе TXM. Особого внимания заслуживают выделение псевдоосновы в словах текста с использованием метода структурных схем и выявление именных групп в структуре текста. Эти расширения позволяют повысить эффективность таких используемых TXM методов, как анализ специфичности и анализ соответствий. В порядке апробации излагаются результаты эксперимента по анализу корпуса, содержащего тексты, оцененные экспертами как экстремистские, и «нейтральные» тексты схожей тематики (религия, политика, идеология). Все тесты показывают ярко выраженное противостояние нейтральных и маркированных текстов и позволяют на основе полученных результатов продолжить работу по автоматическому и полуавтоматическому выявлению потенциально противоправных текстов.

Ключевые слова: корпусная лингвистика, автоматический морфологический анализ, автоматический синтаксический анализ, платформа TXM, анализ соответствий, специфичность, выявление экстремистских текстов.

   
Выходные данные: Лаврентьев А.М., Соловьев Ф.Н., Суворова (Ананьева) М.И., Фокина А.И., Чеповский А.М. Новый комплекс инструментов автоматической обработки текста для платформы TXM и его апробация на корпусе для анализа экстремистских текстов. Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 16, 3. C. 19–31. DOI: 10.25205/1818-7935-2018-16-3-19-31