Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
 
+7 (4912) 72-03-73
 
Интернет-портал РГРТУ: https://rsreu.ru

УДК 007:681.512.2

МОДЕЛИ ЗНАНИЙ ДЛЯ КОРРЕКЦИИ ДРЕЙФА ДАННЫХ В DATA MINING

И. Ю. Каширин, д.т.н., профессор кафедры ВПМ РГРТУ Рязань, Россия;
orcid.org/0000-0003-1694-7410, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

Статья содержит описание нового метода определения и коррекции дрейфа данных в моделях машинного обучения (Machine Learning, ML-модели). Дрейф данных представляет собой негативное изменение с течением времени закономерностей формирования базовых признаков исходного обучающего, тестового и валидационного наборов данных, ухудшающих характеристики точности прогнозирования ML-моделей в концепции Data Mining.
Рассматриваются существующие методы обнаружения и коррекции дрейфа данных, разновидности дрейфа, формулируется проблема глубинных семантических изменений в данных, вызванных особенностями динамики основных концептов и отношений предметной области применения ML-моделей.
Новый метод коррекции дрейфа является основой новой технологии проектирования моделей классификации, регрессии и прогнозирования для специфически формализованных предметных областей. При выборе области определения «скользящего окна», в первую очередь, учитывается структура модели знаний предметной области, которая может использовать онтологическое представление концепции Semantic Web. Входные признаки обучающего набора данных группируются в соответствии со структурой концептов и отношений базы знаний. Отслеживаются альтернативные парадигматические отношения, на которых проводится локальное исследование на дрейф соответствующих выбранной парадигме семантических признаков.
В качестве примера для экспериментальной части исследования выбрана предметная область услуг связи, источником данных которой является международный репозиторий Kaggle. Программная реализация выполнена с применением инструментария Spider v.4 на языке Python v.3.8. Результаты проведенных экспериментов показывают эффективность нового метода и технологии коррекции дрейфа данных с получением качественно новых возможностей автоматического анализа данных.
Целью работы является представление нового метода определения и коррекции дрейфа данных, а также соответствующей технологии, позволяющих применять автоматический поиск, мониторинг и исправление наборов данных в их временном развитии.

Ключевые слова: дрейф данных, ML-модели, интеллектуальная обработка данных, точность прогнозирования, база знаний, семантические сети, онтологические модели знаний, иерархические числа.

 Скачать статью