Дообучение модели CodeBERT для написания комментариев к SQL-запросам

Комлев Данила Александрович
1. НИТУ МИСИС
komlevdanila742@gmail.com
Материал поступил в редколлегию 15.10.2024
Автоматизированное создание комментариев к исходному коду – актуальная тема в разработке программного
обеспечения, где модели машинного перевода применяются для «перевода» кода в текстовые описания. Предоб-
ученная на шести языках программирования модель CodeBERT используется для поиска кода, генерации доку-
ментации, исправления ошибок. Эта модель хорошо понимает семантики естественного языка, языков програм-
мировани, а также связи между ними, эта модель хорошо подходит для дообучения на различные прикладные
задачи, связанные с кодом. В статье рассматривается дообучение модели CodeBERT для генерации коммента-
риев к SQL-запросам. Эта задача является актуальной, так как в крупных проектах может использоваться мно-
жество SQL-запросов различной сложности, и комментарии помогают улучшить их читаемость и понимание.
Однако ручное написание и поддержание актуальности комментариев требует времени и усилий разработчиков.
В статье предложено использовать предобученную модель CodeBERT для автоматической генерации коммен-
тариев к SQL-коду, что сократит время и позволит поддерживать комментарии в актуальном состоянии. Для
дообучения используются открытые датасеты, содержание SQL-запрос, а также комментарий к нему. Результа-
ты тестирования показали, что дообученная модель успешно справляется с задачей создания комментариев к
SQL-запросам, что также подтверждается полученными значениями метрики Bleu.

Выходные данные: Д.А. Комлев Дообучение модели CodeBERT для написания комментариев к SQL-запросам. Вестник НГУ. Серия: Информационные технологии. 2024 Т.22, №3. C. 28–39. DOI: 10.25205/1818-7900-2024-22-3-28-39