Please use this identifier to cite or link to this item:
https://elar.urfu.ru/handle/10995/147276| Title: | Применение больших языковых моделей как универсального интерфейса для задач классификации по табличным данным : магистерская диссертация |
| Other Titles: | Using Large Language Models as a Universal Interface for Tabular Data Classification Tasks |
| Authors: | Ларионов, А. В. Larionov, A. V. |
| Advisor: | Петренко, Т. С. Petrenko, T. S. |
| Issue Date: | 2025 |
| Citation: | Ларионов, А. В. Применение больших языковых моделей как универсального интерфейса для задач классификации по табличным данным : магистерская диссертация / А. В. Ларионов ; Уральский федеральный университет имени первого Президента России Б. Н. Ельцина, Институт радиоэлектроники и информационных технологий-РТФ, Кафедра информационных технологий и систем управления. — Екатеринбург, 2025. — 69 с. — Библиогр.: с. 60-67 (53 назв.). |
| Abstract: | In recent years, large language models (LLMs) have been increasingly used not only for text processing but also for working with tabular data. However, their effectiveness in classifying structured information compared to traditional machine learning methods remains understudied. This work explores how well the T0_3B LLM performs in tabular data classification tasks. We focus on its ability to handle incomplete and noisy data, as well as how its performance scales with training dataset size. We compare it against classical algorithms (CatBoost, Random Forest) on various datasets, measuring accuracy, F1-score, and ROC-AUC. В последние годы большие языковые модели (БЯМ) активно применяются не только для обработки текста, но и для работы с табличными данными. Однако их эффективность в классификации структурированной информации по сравнению с традиционными методами машинного обучения, изучена недостаточно. В данной работе мы исследуем, насколько БЯМ T0_3B пригодна для решения задач классификации табличных данных. Основное внимание уделяется ее способности работать с неполными и зашумлёнными данными, а также зависимости ее производительности от размера обучающей выборки. Мы сравниваем модель с классическими алгоритмами (CatBoost, Random Forest) на различных наборах данных, оценивая точность, F1-меру и ROC-AUC. |
| Keywords: | MASTER'S THESIS LARGE LANGUAGE MODELS TABULAR DATA CLASSIFICATION CLASSICAL CLASSIFICATION ALGORITHMS NOISY DATA INCOMPLETE DATA МАГИСТЕРСКАЯ ДИССЕРТАЦИЯ БОЛЬШИЕ ЯЗЫКОВЫЕ МОДЕЛИ КЛАССИФИКАЦИЯ ТАБЛИЧНЫХ ДАННЫХ КЛАССИЧЕСКИЕ АЛГОРИТМЫ КЛАССИФИКАЦИИ ЗАШУМЛЕННЫЕ ДАННЫЕ НЕПОЛНЫЕ ДАННЫЕ |
| URI: | https://elar.urfu.ru/handle/10995/147276 |
| Access: | Предоставлено автором на условиях простой неисключительной лицензии |
| License text: | http://elar.urfu.ru/handle/10995/31612 |
| PURE ID: | 92143812 |
| Appears in Collections: | Магистерские диссертации |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| m_th_a.v.larionov_2025.pdf | 1,37 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.