УДК 004.85
ПОДХОД К АНАЛИЗУ РЕГУЛЯРНЫХ ВЫРАЖЕНИЙ С ПРИМЕНЕНИЕМ ГРАФОВЫХ НЕЙРОННЫХ СЕТЕЙ И КОНТРАСТИВНОГО ОБУЧЕНИЯ
Л. А. Демидова, д.т.н., профессор, профессор кафедры корпоративных информационных систем Института информационных технологий МИРЭА – Российского технологического университета, Москва, Россия;
orcid.org/0000-0003-4516-3746, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
В. Е. Журавлев, аспирант кафедры корпоративных информационных систем Института информационных технологий МИРЭА – Российского технологического университета, Москва, Россия;
orcid.org/0009-0008-2942-0312, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
Рассматривается подход к извлечению признаков из регулярных выражений с использованием графовых нейронных сетей и метода контрастивного обучения. Предложен новый подход к созданию графовых представлений регулярных выражений на основе их текстовой записи. Полученные графы отражают как содержательные, так и структурные свойства исходных регулярных выражений. Для анализа графовых представлений предлагается модель машинного обучения, основанная на графовой нейронной сети и глобальной агрегации с применением механизма внимания. Для настройки параметров модели используется метод контрастивного обучения в парадигме обучения с самоконтролем, в рамках которой осуществляется автоматическая генерация похожих графов. В ходе экспериментов используется выборка из нескольких тысяч регулярных выражений, собранных с веб-сайта Regex101. Итоговая модель, обученная на тренировочной подвыборке, оценивается с точки зрения качества и осмысленности производимых ею векторных представлений регулярных выражений. Для этого выполняется кластеризация валидационной подвыборки, результаты которой демонстрируют высокое качество извлечения признаков из регулярных выражений, подтверждая целесообразность использования графовых нейронных сетей и контрастивного обучения.
Ключевые слова: регулярные выражения, машинное обучение, извлечение признаков, обучение представлений, графовые нейронные сети, механизм внимания, контрастивное обучение, кластеризация, k-means.
