УДК 004.934:681.518
АКУСТИЧЕСКИЕ ДЕСКРИПТОРЫ ГАРМОНИЧЕСКОЙ СТРУКТУРЫ РЕЧИ ДЛЯ ОЦЕНКИ ЭМОЦИЙ
О. В. Мельник, д.т.н., профессор кафедры ИИБМТ, Рязань, Россия;
orcid.org/0000-0002-3513-2180, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
С. И. Бабаев, к.т.н., доцент кафедры ЭВМ, Рязань, Россия;
orcid.org/ 0000-0001-5829-8223, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
М. Н. Сараев, аспирант РГРТУ, Рязань, Россия;
orcid.org/0009-0006-5118-3478, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
Представлены классические акустические дескрипторы, основанные на гармонической структуре речи, применяемые для автоматической оценки эмоциональных состояний (нейтральное состояние – стресс). Цель работы – систематизировать методы анализа гармонической структуры речи, раскрыть их физиологические основания и оценить информативность в отношении эмоциональных изменений. Рассмотрены ключевые методы: анализ отношения гармоники к шуму (Harmonic-to-Noise Ratio, HNR), оценка основной частоты тона (Fundamental Frequency, F0), параметры нестабильности периода и амплитуды: джиттер (Jitter) и шиммер (Shimmer), спектральный анализ на основе коротковременного преобразования Фурье (Short-Time Fourier Transform, STFT), кепстральный анализ (Cepstral Analysis), формантный анализ (Formant Analysis). Описаны их алгоритмы и чувствительность к эмоциональным изменениям. Особый фокус сделан на физиологически интерпретируемых параметрах (F0, HNR, Jitter, Shimmer) и лежащих в основе их вычисления фундаментальных методах – спектральном и кепстральном анализе. Отмечены ограничения каждого метода, и даны рекомендации по выбору дескрипторов. Практическая значимость рассмотренных методов заключается в демонстрации их рабочей применимости на иллюстративном материале: в паре записей (нейтральное состояние – стресс) зафиксированы характерные изменения – снижение HNR, рост Jitter и Shimmer, увеличение энергии сигнала (MFCC0), а также возрастание вариабельности формант (F1 – F4), что подтверждает чувствительность дескрипторов к эмоциональному напряжению и обосновывает использование комбинированного набора признаков. Статья будет полезна специалистам в области обработки сигналов, психолингвистики и систем распознавания эмоций.
Ключевые слова: гармоники речи, анализ отношения гармоника/шум, оценка основной частоты тона, джиттер, шиммер, спектральный анализ, формантный анализ, кепстральный анализ, оценка эмоций, стресс.
