УДК 004.891
УТОЧНЕНИЕ ЦЕНТРОИДОВ КЛАСТЕРОВ ВЕКТОРНЫХ ПРЕДСТАВЛЕНИЙ РЕГУЛЯРНЫХ ВЫРАЖЕНИЙ С ПРИМЕНЕНИЕМ ГИБРИДНЫХ АЛГОРИТМОВ ОПТИМИЗАЦИИ
Л. А. Демидова, д.т.н., профессор кафедры корпоративных информационных систем Института информационных технологий МИРЭА – Российского технологического университета, Москва, Россия;
orcid.org/0000-0003-4516-3746, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
Н. А. Морошкин, аспирант кафедры корпоративных информационных систем Института информационных технологий МИРЭА – Российского технологического университета, Москва, Россия;
orcid.org/0009-0002-8787-2452, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
Рассматривается решение задачи кластеризации векторных представлений абстрактных синтаксических деревьев регулярных выражений, для формирования которых используется модель BERT, с применением стандартного алгоритма нечетких C-средних и его модификаций. Основным объектом исследования являются гибридные алгоритмы оптимизации, применяемые с целью уточнения центроидов кластеров и использующие один из градиентных методов оптимизации, таких как GD, Adam и RMSProp, в сочетании с одним из эволюционных алгоритмов, таких как классический алгоритм дифференциальной эволюции (Differential Evolution, DE) и его модификации – алгоритмы L-SRTDE и L-SHADE-RSP. Цель исследования заключается в определении целесообразности применения гибридных алгоритмов оптимизации центроидов кластеров для стандартного алгоритма нечетких C-средних и его модификаций при кластеризации векторных представлений регулярных вы- ражений с учётом их структурных признаков. В исследовании выполнен сравнительный анализ результатов применения различных вариантов оптимизации с целью уточнения центроидов кластеров, предполагающих использование градиентных методов и эволюционных алгоритмов как по отдельности, так и в составе гибридного алгоритма оптимизации. При выполнении кластерного анализа использованы векторные представления регулярных выражений в 32-мерном пространстве, построенные с применением алгоритма нелинейного снижения размерности UMAP. Качество кластеризации оценено с использованием индекса кластерного силуэта. Результаты экспериментальных исследований подтверждают целесообразность применения гибридных алгоритмов оптимиза- ции, предполагающих совместную работу тех или иных градиентных методов и эволюционных алгоритмов для оптимизации с целью уточнения центроидов кластеров для стандартного алгоритма нечетких C-средних и его модификаций. Применение предлагаемых гибридных алгоритмов оптимизации обеспечивает более точное разделение векторных представлений регулярных выражений, что способствует повышению качества решения задачи кластеризации.
Ключевые слова: регулярные выражения, кластеризация, алгоритм нечетких C-средних, GD, Adam, RMSProp, алгоритм дифференциальной эволюции, L-SRTDE, L-SHADE-RSP.
