Please use this identifier to cite or link to this item:
http://elar.urfu.ru/handle/10995/141171
Title: | APPLICATION OF DEEP LEARNING IN SPEECH RECOGNITION APPLICATION OF HAINAN LINGAO DIALECTLINGAO DIALECT |
Other Titles: | Применение глубокого обучения для распознования речи на хайнаньском диалекте Лигао |
Authors: | Цзынь, Сянфэн Jin, Xiangfeng |
Issue Date: | 2024 |
Publisher: | Издательский дом «Ажур» |
Citation: | Jin Xiangfeng. APPLICATION OF DEEP LEARNING IN SPEECH RECOGNITION APPLICATION OF HAINAN LINGAO DIALECTLINGAO DIALECT / Xiangfeng Jin. – Текст : электронный // Роль технического регулирования и стандартизации в эпоху цифровой экономики : сборник статей участников VI Международной научно-практической конференции молодых ученых (Екатеринбург, 19 декабря 2024 г.) . – Издательский дом «Ажур» : Екатеринбург, 2024. – С. 250-256. |
Abstract: | Диалект Лингао является уникальным и важным диалектом провинции Хайнань. Разработка системы распознования речи сталкивается со смногими трудностями из-за за нехватки речевых ресурсов и отсутствия стандартизации.Чтобы повысить точность распознавания речи на диалекте Лингао. В данной статье собраны многомерные данные о распознавания речи на диалекте Лингао продолжительностью более 400 часов и создан специализированный набор данных. Используется платформа WeNet 3.0 с открытым исходным кодом, при этом используется сверточно-усовершенствованная модель преобразования Conformer для углубленного обучения. Благодаря многократным раундам оптимизации в этой модели распознования речи частота ошибок в словах достигает 8,04%. Lingao dialect is a unique and importandialect dialect in Hainan Province. The development of speech recognition system faces many challenges due to the scarcity of speech resources and lack of nd lack of standardization. In order to improve the speech recognition accuracy of Lingao dialect, this paper collects more than 400 hours of Lingao speech data in a multi-dimensional way, and constructs a specialized dataset. On this basis, paper utilizes the WeNet3.0 open-source platform and adopts the convolutionally enhanced Transformer (Conformer) model for in-depth training. Through multiple rounds of optimization, this speech recognition model achieves a word error rate 8.04%. |
Keywords: | ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ ГЛУБОКОЕ ОБУЧЕНИЕ РАСПОЗНАВАНИЕ РЕЧИ ARTIFICIAL INTELLIGENCE DEEP LEARNING SPEECH RECOGNITION |
URI: | http://elar.urfu.ru/handle/10995/141171 |
Conference name: | VI международная научно-практическая конференция молодых ученых «Роль технического регулирования и стандартизации в эпоху цифровой экономики» VI International Scientific and Practical Conference of Young Scientists "The Role of Technical Regulation and Standardization in the Era of the Digital Economy" |
Conference date: | 19.12.2024 |
ISBN: | 978-5-91256-699-8 |
Origin: | Роль технического регулирования и стандартизации в эпоху цифровой экономики. — Екатеринбург, 2024 |
Appears in Collections: | Конференции, семинары |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
978-5-91256-699-8_2024_042.pdf | 370,76 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.