Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
 
+7 (4912) 72-03-73
 
Интернет-портал РГРТУ: https://rsreu.ru

УДК 004.855.5

ПОВЫШЕНИЕ ТОЧНОСТИ КЛАССИФИКАЦИИ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ АЛГОРИТМА K-БЛИЖАЙШИХ СОСЕДЕЙ НА ОСНОВЕ ПРЕКЛАСТЕРИЗАЦИИ ОБУЧАЮЩИХ ДАННЫХ

В. И. Орешков, к.т.н., доцент кафедры САПР ВС РГРТУ, Рязань, Россия;
orcid.org/0000-0003-0316-4927, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

Рассматривается задача классификации данных с использованием метрического метода машинного обучения k-ближайших соседей. Целью работы является разработка методики адаптивной подстройки параметра соседства алгоритма k-ближайших соседей с целью повышения точности алгоритма за счёт учёта неоднородности распределения обучающих примеров в пространстве признаков. В тех областях пространства признаков, где плотность обучающих примеров высока, алгоритм хорошо работает даже при больших значениях параметра соседства, поскольку все опре-
деляемые им примеры расположены компактно и, как правило, относятся к одному классу. В разреженных областях пространства признаков большие значения параметра соседства приводят к вовлечению в процесс классификации примеров, расположенных на большом расстоянии, которые могут относиться к различным классам, что ухудшает точность классификации. Для решения данной проблемы в статье предлагается использовать значение параметра соседства, которое не задаётся одинаковым для всех примеров, а может изменяться в зависимости от их плотности в области пространства признаков. Для этого производится предварительная кластеризация обучающего набора и определяется плотность каждого кластера как среднеквадратичное расстояние от примеров кластера до его центроида. На основе полученного значения плотности вычисляется параметр соседства для кластера, который используется для классификации любого объекта в пределах кластера. Эксперимент показал более точную работу модифицированного алгоритма в процессе перекрёстной проверки

Ключевые слова: интеллектуальный анализ данных, машинное обучение, обучение с учителем,
обучающий пример, классификация, кластеризация, класс, кластер, центроид, перекрёстная проверка.

 Скачать статью