Оценка качества перевода художественного текста с амхарского на английский язык с использованием методов сжатия данных
Материал поступил в редколлегию 31.07.2025
Оценка качества перевода является важной задачей в области компьютерной лингвистики. В данном исследовании рассматривается использование методов сжатия данных для оценки точности перевода путем выявления характерных языковых закономерностей. Традиционные методы оценки перевода основаны на анализе стилистических показателей и машинном обучении, однако на эти подходы часто влияют длина текста и предопределенные лингвистические особенности. Чтобы устранить эти ограничения, мы используем теоретико-информационный метод, основанный на сжатии данных. Наша методология использует алгоритмы сжатия для анализа перевода с целью оценки качества. Мы оцениваем неосознанный стилистический вклад переводчиков, сравнивая несколько переводов одних и тех же литературных произведений. Кроме того, мы применяем классификацию на основе сжатия, чтобы различать оригинальные тексты на амхарском языке, тексты, переведенные человеком с амхарского на английский, и тексты, переведенные компьютером. В наших экспериментах мы использовали шесть оригинальных романов на амхарском языке для анализа авторских стилей, а для оценки качества перевода – известные произведения, переведенные как переводчиками-людьми, так и компьютерными переводчиками. Среди различных алгоритмов сжатия данных без потерь были протестированы следующие: Prediction by Partial Matching (PPM), кодирование Хаффмана, преобразование Барроуза – Уилера (BWT) и алгоритм Лемпеля – Зива – Маркова (LZMA) с целью оценки их эффективности. Согласно коэффициенту V Крамера, рассчитанному по результатам различных экспериментов, алгоритм Prediction by Partial Matching (PPM) показал наивысшую стабильность и поэтому был выбран для всех последующих анализов. Результаты показывают, что алгоритм PPM достигает наивысшей точности классификации: коэффициент Крамера (V) составил 0,89 для авторских текстов на амхарском языке, 0,762 и 1 для текстов, переведенных человеком с английского на амхарский, 0,91 для текстов, переведенных компьютером с амхарского на английский, и 0,53 для задач компьютерного перевода с английского на амхарский. Исследование демонстрирует, что методы сжатия данных обеспечивают жизнеспособный, не зависящий от языка подход к оценке качества перевода, особенно для языков с ограниченными ресурсами, таких как амхарский. Эти результаты подчеркивают потенциал теоретико-информационных методов в лингвистическом анализе и компьютерных исследованиях перевода.Выходные данные: Лулу Й.Г. Оценка качества перевода художественного текста с амхарского на английский язык с использованием методов сжатия данных. Вестник НГУ. Серия: Информационные технологии. 2025, Т.23, №4. C. 62–73. DOI: 10.25205/1818-7900-2025-23-4-62-73