УДК 004.891.3
ОБЗОР МЕТОДОВ КЛАССИФИКАЦИИ ЗВУКОВ ГОРОДСКОЙ СРЕДЫ
Г. М. Мкртчян, аспирант, ассистент кафедры МКиИТ МТУСИ, Москва, Россия;
orcid.org/0000-0002-5802-5513, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
Н. А. Кравченко, студент МТУСИ, Москва, Россия;
orcid.org/0009-0006-8897-2331, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
Классификация звуков городской среды – сложная задача, которая имеет некоторые общие грани и с задачей классификации изображений, и с задачей обработки естественного языка. Описываются методы подготовки аудиоданных, представлены некоторые типы архитектур глубоких нейронных сетей, используемых для классификации звуков городской среды, такие как 1DCNN, EsResNet, AST, PaSST. Обсуждаются преимущества и недостатки таких архитектур. Рассмотрены методы дистилляции и переноса знаний, используемые для повышения эффективности используемых методов. Целью работы является сравнение результатов обучения моделей на нескольких наборах данных, включая ESC-50, UrbanSound8K и FSD50K, на основе метрик mAP и Accuracy.
Ключевые слова: свёрточная нейронная сеть, end-to-end, 1D-CNN, ESResNet, AST, PaSST, перенос знаний, дистилляция знаний, UrbanSound8k, ESC-50, FSD50K, классификация аудиосигналов, извлечение признаков, спектрограмма, наборы данных, оценочные метрики.