Исследование методов оптимизации скорости исполнения больших языковых моделей для задачи распознавания команд

Гончаренко Александр Игоревич
1. Институт интеллектуальной робототехники НГУ
a.goncharenko@expasoft.tech
Чупров Максим Иванович
1. ООО «Экспасофт»
m.chuprov@expasoft.tech
Нежевенко Евгений Семенович
1. Институт автоматики и электрометрии СО РАН
nedj@iae.nsk.su
Материал поступил в редколлегию 23.08.2025
больших языковых моделей для задачи function calling, а также сравнение точности и скорости работы полученных моделей. В качестве базовой модели была выбрана модель Mistral-7B. Для эффективной тренировки модели использовался датасет glaive-function-calling-v2, предназначенный для задачи function calling. Для обучения базовой модели использовалось квантование до 4 бит в формате nf4 и двойное квантование в сочетании с методом QLoRA (Quantized Low-Rank Adaptation). Оптимизация модели проводилась несколькими способами: (1) с использованием метода ShortGPT, (2) с помощью критерия Тейлора для послойного прунинга, (3) методом LLM-Pruner, который отбрасывает параметры модели поканально, оставляя при этом количество слоев модели неизменным, и (4) методом PowerInfer, который использует свойство контекстуальной разреженности в больших языковых моделях. Для всех перечисленных способов оптимизации были построены оптимизированные модели, и проведено сравнение точности и скорости работы полученных моделей. Результаты экспериментов показали, что наибольшая точность была достигнута на модели, которая была оптимизирована с помощью метода послойного прунинга по критерию Тейлора важности слоя. Для данного метода был проведен ряд экспериментов, в которых исследовалась разная расстановка гейтов внутри слоя декодера, а также различные способы агрегирования важности слоя на гейтах. По итогам экспериментов можно сделать вывод, что расстановка гейтов после блоков Multi-Head Attention и использование агрегирования важности с помощью L2-нормы вектора градиентов дают наибольшую точность по сравнению с другими возможными вариантами. Научная значимость работы состоит в сравнении передовых методов прунинга, исходя из соотношения качество/скорость модели, и получении ускоренной версии модели для задачи function calling.
Выходные данные: Гончаренко А.И., Чупров М.И., Нежевенко Е.С. Исследование методов оптимизации скорости исполнения больших языковых моделей для задачи распознавания команд. Вестник НГУ. Серия: Информационные технологии. 2025, Т.23, №4. C. 44–61. DOI: 10.25205/1818-7900-2025-23-4-44-61