Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://elar.urfu.ru/handle/10995/141171
Название: APPLICATION OF DEEP LEARNING IN SPEECH RECOGNITION APPLICATION OF HAINAN LINGAO DIALECTLINGAO DIALECT
Другие названия: Применение глубокого обучения для распознования речи на хайнаньском диалекте Лигао
Авторы: Цзынь, Сянфэн
Jin, Xiangfeng
Дата публикации: 2024
Издатель: Издательский дом «Ажур»
Библиографическое описание: Jin Xiangfeng. APPLICATION OF DEEP LEARNING IN SPEECH RECOGNITION APPLICATION OF HAINAN LINGAO DIALECTLINGAO DIALECT / Xiangfeng Jin. – Текст : электронный // Роль технического регулирования и стандартизации в эпоху цифровой экономики : сборник статей участников VI Международной научно-практической конференции молодых ученых (Екатеринбург, 19 декабря 2024 г.) . – Издательский дом «Ажур» : Екатеринбург, 2024. – С. 250-256.
Аннотация: Диалект Лингао является уникальным и важным диалектом провинции Хайнань. Разработка системы распознования речи сталкивается со смногими трудностями из-за за нехватки речевых ресурсов и отсутствия стандартизации.Чтобы повысить точность распознавания речи на диалекте Лингао. В данной статье собраны многомерные данные о распознавания речи на диалекте Лингао продолжительностью более 400 часов и создан специализированный набор данных. Используется платформа WeNet 3.0 с открытым исходным кодом, при этом используется сверточно-усовершенствованная модель преобразования Conformer для углубленного обучения. Благодаря многократным раундам оптимизации в этой модели распознования речи частота ошибок в словах достигает 8,04%.
Lingao dialect is a unique and importandialect dialect in Hainan Province. The development of speech recognition system faces many challenges due to the scarcity of speech resources and lack of nd lack of standardization. In order to improve the speech recognition accuracy of Lingao dialect, this paper collects more than 400 hours of Lingao speech data in a multi-dimensional way, and constructs a specialized dataset. On this basis, paper utilizes the WeNet3.0 open-source platform and adopts the convolutionally enhanced Transformer (Conformer) model for in-depth training. Through multiple rounds of optimization, this speech recognition model achieves a word error rate 8.04%.
Ключевые слова: ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ
ГЛУБОКОЕ ОБУЧЕНИЕ
РАСПОЗНАВАНИЕ РЕЧИ
ARTIFICIAL INTELLIGENCE
DEEP LEARNING
SPEECH RECOGNITION
URI: http://elar.urfu.ru/handle/10995/141171
Конференция/семинар: VI международная научно-практическая конференция молодых ученых «Роль технического регулирования и стандартизации в эпоху цифровой экономики»
VI International Scientific and Practical Conference of Young Scientists "The Role of Technical Regulation and Standardization in the Era of the Digital Economy"
Дата конференции/семинара: 19.12.2024
ISBN: 978-5-91256-699-8
Источники: Роль технического регулирования и стандартизации в эпоху цифровой экономики. — Екатеринбург, 2024
Располагается в коллекциях:Конференции, семинары

Файлы этого ресурса:
Файл Описание РазмерФормат 
978-5-91256-699-8_2024_042.pdf370,76 kBAdobe PDFПросмотреть/Открыть


Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.