Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
 
+7 (4912) 72-03-73
 
Интернет-портал РГРТУ: https://rsreu.ru

УДК 004.891

КЛАСТЕРИЗАЦИЯ ПРЕДСТАВЛЕНИЙ ТЕКСТОВ ПРОГРАММ НА ОСНОВЕ ЦЕПЕЙ МАРКОВА

Л. А. Демидова, д.т.н., профессор кафедры корпоративных информационных систем Института информационных технологий МИРЭА – Российского технологического университета, Москва, Россия;
orcid.org/0000-0003-4516-3746, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
П. Н. Советов, к.т.н., доцент кафедры корпоративных информационных систем Института информационных технологий МИРЭА – Российского технологического университета, Москва, Россия;
orcid.org/0000-0002-1039-2429, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
А. В. Горчаков, аспирант кафедры корпоративных информационных систем Института информационных технологий МИРЭА – Российского технологического университета, Москва, Россия;
orcid.org/0000-0003-1977-8165, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

Статический анализ текстов программ при помощи методов машинного обучения успешно применяется для поиска дубликатов фрагментов кода, плагиата, для генерации подсказок в редакторах кода. Целью данного исследования является разработка метода кластеризации программных решений типовых задач, присланных через веб-интерфейс системы «Цифровой ассистент преподавателя» (ЦАП), для выявления и анализа наиболее общих подходов к решению. При разработке метода кластеризации учитывалась особенность системы ЦАП, которая обеспечивает формиро-
вание уникальных вариантов автоматически сгенерированные задач различных типов. При реализации метода кластеризации предлагается с целью векторизации выполнить преобразование текстов программ в представления на основе цепей Маркова, построение которых производится для деревьев абстрактного синтаксиса. Это позволяет учесть особенности системы ЦАП и выполнить кластеризацию по подходам к решению задач определённого типа. Применение разработанного метода кластеризации позволило выявить основные используемые способы решений автоматически сгенерированных задач в тысячах программ, присланных студентами курса программирования на языке Python РТУ МИРЭА в весеннем семестре 2022-го года.

Ключевые слова: анализ текстов программ, анализ программного кода, алгоритм кластеризации, цепи Маркова, деревья абстрактного синтаксиса.

 Скачать статью