Использование триграмм при автоматическом распознавании речи

Материал поступил в редколлегию 18.03.2020
Аннотация Среди существующих теорий распознавания речи наиболее вероятным является понимание восприятия как адаптивного процесса, в котором процедура восприятия информации подчинена средствам выделения сигнала и цели слушания. Выявлен момент опознания слова как точка распознавания, начиная с которой эта последовательность сегментов ассоциируется с определенным словом. Сложность решения задачи автоматического распознавания слитной речи связана с большой изменчивостью акустических сигналов, что объясняется рядом причин: различиями в реализации одних и тех же фонем в устной речи в различных позициях и техническими помехами в ее записи. Границы слова могут быть определены лишь в процессе распознавания, посредством подбора оптимальной последовательности слов, наилучшим образом согласующейся с входным потоком речи по акустическим, лингвистическим и прагматическим критериям. Среди способов реализации автоматического распознавания речи выделен метод укрупнения единиц кодирования, под которым понимается взаимосвязь между элементами определенной последовательности сигналов, которые в последующем связаны наиболее сильно. Выявлены пороги распознания неосмысленных последовательностей, которые предполагается считать наиболее удачным количеством неосмысленных последовательностей состоящих из трёх звуков – триграммы. Основываясь на исследовании о трудности произношения русских триграмм, предположено, что легкопроизносимые триграммы распознаются верно с более высокой долей вероятности, нежели те, что оказались труднопроизносимыми. Использование триграмм во время декодирования повысит вероятность качества распознавания речи, так как при делении на триграммы в составе слова большей длины выделяется слог, он является более произносимым. Отмечено, что многие триграммы соответствуют типичному русскому слогу, что позволяет при распознавании речи, поделенной на триграммы, предположить вероятностное прогнозирование последующих звуков. При таком подходе возможно использование скрытых марковских моделей, где цепь представляется в виде графа, узлами которого являются состояния, а дуги являются возможными переходами между состояниями, где каждый переход имеет собственную вероятность происхождения.
Ключевые слова распознавание речи, триграммы, марковские модели, звукосочетание, язык, акустический сигнал

Выходные данные: Бутенко Ю.И. Использование триграмм при автоматическом распознавании речи. Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2020. Том 18, 3. C. 5–15. DOI: 10.25205/1818-7935-2020-18-3-5-15