Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
 
+7 (4912) 72-03-73
 
Интернет-портал РГРТУ: https://rsreu.ru

УДК 004.032.26

РАЗРАБОТКА И ПРИМЕНЕНИЕ МЕТОДОВ РАСПОЗНАВАНИЯ ЗАШУМЛЕННЫХ АУДИОФАЙЛОВ ПОСРЕДСТВОМ НЕЙРОСЕТЕВЫХ ТЕХНОЛОГИЙ

Ю. Л. Леохин, д.т.н., профессор, проректор по научной работе МТУСИ, Москва, Россия;
orcid.org/0000-0003-3321-4497, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
Т. Д. Фатхулин, к.т.н., доцент кафедры МК и ИТ МТУСИ, Москва, Россия;
orcid.org/0000-0003-0998-1055, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
М. В. Ментус, студент МТУСИ, Москва, Россия;
orcid.org/0009-0005-8300-6954, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

Рассматривается задача распознавания речи в условиях присутствия посторонних шумов различного происхождения. Целью работы являются разработка и оценка эффективности методов, дающих возможность распознать речь при наличии шумов с помощью нейросетевых технологий. Актуальность работы обусловлена тем, что благодаря развитию нейросетевых технологий значительно расширился круг отраслей, в которых распознавание речи стало значительно проще и эффективнее. Рассматриваются программные решения «Whisper» и «Vosk», позволяющие транскрибировать (распознавать) речь. Приводится классификация аудиошумов, описаны существующие методы борьбы с ними. Показано влияние шумов на обучение системы распознавания речи. Разработаны методы обучения системы распознавания речи с использованием синтетически сгенерированного датасета с зашумлением. Спроектирован и разработан модуль зашумления данных, собран тестовый стенд. Приведена апробация разработанных методов. В заключении представлены результаты анализа данных, полученных в ходе экспериментов, сделаны выводы.

Ключевые слова: системы распознавания речи, системы синтеза речи, обучение нейросетей, шум, эффективность, Word Error Rate, генерация датасета, зашумленные данные

 Скачать статью