Please use this identifier to cite or link to this item: http://elar.urfu.ru/handle/10995/140525
Title: Дообучение больших языковых моделей для решения специализированных задач : магистерская диссертация
Other Titles: LLM Tuning for Specific Tasks
Authors: Молчанова, Т. А.
Molchanova, T. A.
metadata.dc.contributor.advisor: Долганов, А. Ю.
Dolganov, A. Yu.
Issue Date: 2024
Publisher: б. и.
Citation: Молчанова, Т. А. Дообучение больших языковых моделей для решения специализированных задач : магистерская диссертация / Т. А. Молчанова ; Уральский федеральный университет имени первого Президента России Б. Н. Ельцина, Институт радиоэлектроники и информационных технологий-РТФ, Кафедра информационных технологий и систем управления. — Екатеринбург, 2024. — 79 с. — Библиогр.: с. 73-79 (48 назв.).
Abstract: В выпускной квалификационной работе рассмотрены методы дообучения больших языковых моделей для решения специализированных задач. В качестве специализированной задачи был выбран мультиязычный перевод в сфере информационной безопасности. Для дообучения и оценки моделей был собран датасет из 1001 тройки параллельных предложений на русском, английском и испанском языках из документов компаний Trellix, IBM, Kaspersky и Dr. Web. В качестве моделей для дообучения были выбраны Mistral Instruct 7B и Llama Chat 7B. Дообучение моделей проводилось методами zero-shot, few-shot и PEFT ввиду ограничений исследования, заключающихся в использовании одного устройства с одной видеокартой объёмом 12-24 ГБ. Оценка качества переводов полученных моделей рассчитывалась на основе метрики BLEU.
The work is devoted to comparison of LLM-tuning methods for specific tasks. Multilingual translation in the domain of information security was chosen as a specific task. In order to tune and evaluate the models, a dataset of 1001 triples of parallel sentences in Russian, English and Spanish was collected from documentation of Trellix, IBM, Kaspersky and Dr. Web. The models that were used for tuning are Mistral Instruct 7B and Llama Chat 7B. As for the tuning technics, zero-shot, few-shot and PEFT were used due to the limitations grounded in usage of one device with one GPU of 12-24 GB. The translation capabilities of the resulting models were measured by the BLEU metric.
Keywords: MASTER'S THESIS
LANGUAGE MODELLING
LARGE LANGUAGE MODELS
TRANSFORMERS
MODEL TUNING
MODEL QUANTIZATION
MACHINE TRANSLATION
MULTILINGUAL MACHINE TRANSLATION
МАГИСТЕРСКАЯ ДИССЕРТАЦИЯ
ЯЗЫКОВОЕ МОДЕЛИРОВАНИЕ
БОЛЬШИЕ ЯЗЫКОВЫЕ МОДЕЛИ
ТРАНСФОРМЕРЫ
ДООБУЧЕНИЕ МОДЕЛЕЙ
КВАНТИЗАЦИЯ МОДЕЛЕЙ
МАШИННЫЙ ПЕРЕВОД
МУЛЬТИЯЗЫЧНЫЙ МАШИННЫЙ ПЕРЕВОД
URI: http://elar.urfu.ru/handle/10995/140525
Access: Предоставлено автором на условиях простой неисключительной лицензии
License text: http://elar.urfu.ru/handle/10995/31613
Appears in Collections:Магистерские диссертации

Files in This Item:
File Description SizeFormat 
m_th_t.a.molchanova_2024.pdf1,34 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.