Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://elar.urfu.ru/handle/10995/140561
Название: Decoding Emotions in Speech: A Deep Learning Approach Using Convolutional Neural Networks : master's thesis
Авторы: Ризу, М. Р. У. И.
Rizu, M. R. U. I.
Научный руководитель: Борисов, В. И.
Borisov, V. I.
Дата публикации: 2024
Издатель: б. и.
Библиографическое описание: Ризу, М. Р. У. И. Decoding Emotions in Speech: A Deep Learning Approach Using Convolutional Neural Networks : master's thesis / М. Р. У. И. Ризу ; Уральский федеральный университет имени первого Президента России Б. Н. Ельцина, Институт радиоэлектроники и информационных технологий-РТФ, Кафедра информационных технологий и систем управления. — Екатеринбург, 2024. — 59 с. — Библиогр.: с. 56-59 (46 назв.).
Аннотация: Работа предложила систему идентификации эмоций с использованием глубокого обучения. Исследование продвигает взаимодействие человека и компьютера, мониторинг психического здоровья, маркетинговые исследования, анализ настроений и подчеркивает необходимость нейронных сетей. Оно стремится построить модель, которая учится на основе сырой речи. Оно разработано с использованием модели CNN и LSTM, блок классификации использует блоки LSTM для захвата долгосрочных временных корреляций. Это происходит после того, как блок извлечения признаков использует одновременные CNN и MFCC. Эти методы гарантируют, что блок категоризации может точно отображать данные. Подготовка данных для обучения и тестирования модели прогнозирования эмоций на основе набора данных CREMA-D является значительной. Для оптимизации производительности нейронной сети метод включает разделение признаков и меток, кодирование, разделение набора данных, стандартизацию и изменение формы данных. Для упрощения и снижения сложности он исключает подходы к дополнению данных. Модель обучается и оценивается с использованием CREMA-D, набор данных содержит 7442 голосовых записи, представляющих различные эмоции. В исследовании принимают участие 84 мужчины и 43 женщины в возрасте от 20 до 74 лет. Средняя точность модели составляет 86,92% по результатам проверки. В будущем исследования могут быть сосредоточены на разработке приложений для идентификации эмоций в реальном времени и интеграции мультимодальных данных для повышения точности и надежности систем обнаружения эмоций.
The work proposed emotion identification system using deep learning. The research advances human-computer interaction, mental health monitoring, market research, sentiment analysis and emphasizes the necessity of neural networks. It’s seeking to construct a model that learns from raw speech audio. It’s developed using CNNs and LSTMs model, a classification block uses LSTM units to capture long-term temporal correlations. This happens after a feature extraction block uses imultaneous CNNs and MFCCs. These methods ensure the categorization block can accurately display data. Data preparation for training and testing a CREMA-D dataset-based emotion prediction model is considerable. To optimize neural network performance, the method includes feature-label separation, encoding, dataset splitting, standardization, and data reshaping. To simplify and reduce complexity, it excludes data augmentation approaches. The model is trained and evaluated using CREMA-D, dataset contains 7,442 voice recordings representing different emotions. There are 84 male and 43 female performers, with ages ranging from 20 to 74 years old. The model has an average accuracy of 86.92% across validation. In the future, research may focus on developing real-time emotion identification applications and integrating multimodal data to enhance the accuracy and robustness of emotion detection systems.
Ключевые слова: MASTER'S THESIS
AUTOMATION
SPEECH EMOTION RECOGNITION
CONVOLUTIONAL NEURAL NETWORKS
LONG SHORT-TERM MEMORY NETWORKS
МАГИСТЕРСКАЯ ДИССЕРТАЦИЯ
АВТОМАТИЗАЦИЯ
РАСПОЗНАВАНИЕ ЭМОЦИЙ РЕЧИ
СВЕРТОЧНЫЕ НЕЙРОННЫЕ СЕТИ
СЕТИ ДОЛГОВРЕМЕННОЙ КРАТКОВРЕМЕННОЙ ПАМЯТИ
URI: http://elar.urfu.ru/handle/10995/140561
Условия доступа: Предоставлено автором на условиях простой неисключительной лицензии
Текст лицензии: http://elar.urfu.ru/handle/10995/31613
Располагается в коллекциях:Магистерские диссертации

Файлы этого ресурса:
Файл Описание РазмерФормат 
m_th_m.r.u.i.rizu_2024.pdf1,33 MBAdobe PDFПросмотреть/Открыть


Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.