Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://elar.urfu.ru/handle/10995/140346
Название: Исследование методов обработки естественного языка для классификации медицинских текстов разной длины : магистерская диссертация
Другие названия: Study of methods of natural language processing for classification of medical texts of different lengths
Авторы: Маяцкая, Е. A.
Mayatskaya, E. A.
Научный руководитель: Ронкин, М. В.
Ronkin, M. V.
Дата публикации: 2024
Библиографическое описание: Маяцкая Е. A. Исследование методов обработки естественного языка для классификации медицинских текстов разной длины : магистерская диссертация / Е. A. Маяцкая ; Уральский федеральный университет имени первого Президента России Б. Н. Ельцина, Институт радиоэлектроники и информационных технологий-РТФ, Кафедра информационных технологий и систем управления. — Екатеринбург, 2024. — 80 с. — Библиогр.: с. 74-80 (46 назв.).
Аннотация: The object of the study is the classification of medical text sequences of different lengths. The subject of the study is methods for creating a vector representation of text data, as well as algorithms capable of processing data without restrictions on the length of the sequence. The goal of the final qualification work of the master is to study methods of natural language processing for classification of medical texts of different lengths. Research methods: analysis, mathematical modeling, synthesis, comparison, experiment. The result of the work is: a review of existing methods for processing long texts; a collected dataset including more than 18,000 medical texts; a developed approach for processing long texts and accelerating the transformer model when encoding texts of different lengths. Based on the analysis results, the developed approach achieved the best classification results and inference time compared to the methods considered in the work.
Объект исследования – классификация медицинских текстовых последовательностей разной длины. Предметом исследования являются методы по созданию векторного представления текстовых данных, а также алгоритмы способные обрабатывать данные без ограничения на длину последовательности. Цель выпускной квалификационной работы магистра – исследование методов обработки естественного языка для классификации медицинских текстов разной длины. Методы исследования: анализ, математическое моделирование, синтез, сравнение, эксперимент. Результатом работы является: обзор существующих методов, позволяющих обрабатывать длинные тексты; собранный набор данных, включающий более 18 000 медицинских текстов; разработанный подход, позволяющий обрабатывать длинные тексты и ускоряющий модель трансформера при кодировке текстов разной длины. По итогам анализа разработанный подход достиг наилучший результатов классификации и времени инференса по сравнению с рассматриваемыми в работе методами.
Ключевые слова: MASTER'S THESIS
MACHINE LEARNING
NATURAL LANGUAGE PROCESSING
LARGE LANGUAGE MODELS
RECURRENT NEURAL NETWORKS
МАГИСТЕРСКАЯ ДИССЕРТАЦИЯ
МАШИННОЕ ОБУЧЕНИЕ
ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА
БОЛЬШИЕ ЯЗЫКОВЫЕ МОДЕЛИ
РЕККУРЕНТНЫЕ НЕЙРОННЫЕ СЕТИ
URI: http://elar.urfu.ru/handle/10995/140346
Условия доступа: Предоставлено автором на условиях простой неисключительной лицензии
Текст лицензии: http://elar.urfu.ru/handle/10995/31613
Располагается в коллекциях:Магистерские диссертации

Файлы этого ресурса:
Файл Описание РазмерФормат 
m_th_m.a.mayatskaya_2024.pdf3,38 MBAdobe PDFПросмотреть/Открыть


Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.