УДК 007:681.512.2
КОРРЕКЦИЯ КОВАРИАНТНОГО ДРЕЙФА КОНЦЕПЦИИ ДЛЯ АНСАМБЛЕЙ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ
И. Ю. Каширин, д.т.н., профессор кафедры ВПМ РГРТУ, Рязань, Россия;
orcid.org/0000-0003-1694-7410, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
Рассмотрен новый подход к обнаружению и коррекции одной из разновидностей дрейфа данных в моделях машинного обучения, а именно ковариантного дрейфа концепции. Подход предполагает, что модель машинного обучения спроектирована как ансамбль моделей различных уровней. Методом сбора ансамбля является композиционный беггинг-метод.
Беггинг-метод использует в качестве компонентов ансамбля вначале слабые однотипные модели, затем применяется ряд итераций, позволяющих повышать точность результирующей модели до некоторого уровня, приемлемого для решения задачи прогнозирования по точности и вычислительной сложности.
Исследуются различные формулы дрейфа концепции, основанные на условной и безусловной вероятностях получения целевой переменной в зависимости от данных вектора признаков во входном наборе данных. Вводятся понятия положительного и негативного дрейфа концепции в зависимости от принадлежности к соответствующему классу, используемому в прогнозировании.
Новый подход использует понятийную базу знаний предметной области, позволяющую априори классифицировать элементы вектора признаков в форме родовидовой таксономии. Классифицированный вектор признаков представляет собой иерархическую структуру, позволяющую с помощью алгоритма бутстрэпа формировать подвыборки признаков (фолды) для предварительного обучения слабых моделей первого и второго уровней. Фолды в этом случае можно упорядочить и затем использовать полученный порядок для выявления и компенсации ковариантного дрейфа концепции рабочей модели.
В качестве примера для экспериментальных исследований взята предметная область услуг авиаперевозок из международного репозитория Kaggle. Программная реализация выполнена с применением инструментария Spider v.4 на языке Python v.4. Результаты проведенных экспериментов показывают эффективность нового подхода к коррекции дрейфа концепции.
Целью работы является получение нового подхода к идентификации и исправлению ковариантного дрейфа концепции, дающего возможность коррекции дрейфа в ансамблях моделей машинного обучения.
Ключевые слова: дрейф концепции, ансамбли моделей машинного обучения, большие данные, точность прогнозирования, база знаний, онтологические модели знаний.