Please use this identifier to cite or link to this item: https://elar.urfu.ru/handle/10995/147276
Title: Применение больших языковых моделей как универсального интерфейса для задач классификации по табличным данным : магистерская диссертация
Other Titles: Using Large Language Models as a Universal Interface for Tabular Data Classification Tasks
Authors: Ларионов, А. В.
Larionov, A. V.
Advisor: Петренко, Т. С.
Petrenko, T. S.
Issue Date: 2025
Citation: Ларионов, А. В. Применение больших языковых моделей как универсального интерфейса для задач классификации по табличным данным : магистерская диссертация / А. В. Ларионов ; Уральский федеральный университет имени первого Президента России Б. Н. Ельцина, Институт радиоэлектроники и информационных технологий-РТФ, Кафедра информационных технологий и систем управления. — Екатеринбург, 2025. — 69 с. — Библиогр.: с. 60-67 (53 назв.).
Abstract: In recent years, large language models (LLMs) have been increasingly used not only for text processing but also for working with tabular data. However, their effectiveness in classifying structured information compared to traditional machine learning methods remains understudied. This work explores how well the T0_3B LLM performs in tabular data classification tasks. We focus on its ability to handle incomplete and noisy data, as well as how its performance scales with training dataset size. We compare it against classical algorithms (CatBoost, Random Forest) on various datasets, measuring accuracy, F1-score, and ROC-AUC.
В последние годы большие языковые модели (БЯМ) активно применяются не только для обработки текста, но и для работы с табличными данными. Однако их эффективность в классификации структурированной информации по сравнению с традиционными методами машинного обучения, изучена недостаточно. В данной работе мы исследуем, насколько БЯМ T0_3B пригодна для решения задач классификации табличных данных. Основное внимание уделяется ее способности работать с неполными и зашумлёнными данными, а также зависимости ее производительности от размера обучающей выборки. Мы сравниваем модель с классическими алгоритмами (CatBoost, Random Forest) на различных наборах данных, оценивая точность, F1-меру и ROC-AUC.
Keywords: MASTER'S THESIS
LARGE LANGUAGE MODELS
TABULAR DATA CLASSIFICATION
CLASSICAL CLASSIFICATION ALGORITHMS
NOISY DATA
INCOMPLETE DATA
МАГИСТЕРСКАЯ ДИССЕРТАЦИЯ
БОЛЬШИЕ ЯЗЫКОВЫЕ МОДЕЛИ
КЛАССИФИКАЦИЯ ТАБЛИЧНЫХ ДАННЫХ
КЛАССИЧЕСКИЕ АЛГОРИТМЫ КЛАССИФИКАЦИИ
ЗАШУМЛЕННЫЕ ДАННЫЕ
НЕПОЛНЫЕ ДАННЫЕ
URI: https://elar.urfu.ru/handle/10995/147276
Access: Предоставлено автором на условиях простой неисключительной лицензии
License text: http://elar.urfu.ru/handle/10995/31612
PURE ID: 92143812
Appears in Collections:Магистерские диссертации

Files in This Item:
File Description SizeFormat 
m_th_a.v.larionov_2025.pdf1,37 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.