УДК 004.93'12
ОБЗОР МЕТОДОВ ПРЕДОБРАБОТКИ,
ИСПОЛЬЗУЕМЫХ ДЛЯ РЕШЕНИЯ ЗАДАЧ КЛАССИФИКАЦИИ
В УСЛОВИЯХ НЕПОЛНОТЫ ДАННЫХ
К. А. Майков, д.т.н., профессор МГТУ им. Н.Э. Баумана; Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
П. А. Гаврилов, магистрант МГТУ им. Н.Э. Баумана; Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
Рассматривается задача классификации в условиях неполноты данных. Целью работы является
исследование функциональных возможностей и ограничений ряда известных методов предобработ-
ки, используемых для заполнения пропусков. Описаны типы пропусков данных. Приведено описание
групп методов, используемых для решения рассматриваемой задачи. Рассмотрены статистические
методы заполнения пропусков: средним арифметическим, медианой, модой; метод горячей колоды.
Представлены результаты сравнительного анализа ряда методов заполнения отсутствующих дан-
ных с использованием алгоритма k-ближайших соседей в качестве классификатора. Качество клас-
сификации оценивается с помощью метода 10-кратного скользящего контроля. Обоснован выбор
программного обеспечения для проведения численных экспериментов. Результаты проведённых экс-
периментов показывают, что при отсутствии 5 – 20 % значений признака анализируемые методы
обеспечивают схожие результаты, а при отсутствии 30 – 40 % значений метод заполнения горячей
колоды показывает более низкие оценки скользящего контроля, чем методы заполнения средним
арифметическим, медианой и модой. В то же время при отсутствии 40 % значений метод заполне-
ния медианой превосходит другие рассматриваемые методы.
Ключевые слова: машинное обучение, классификация, отсутствующие данные, пропущенные
данные, предобработка данных.