Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
 
+7 (4912) 72-03-73
 
Интернет-портал РГРТУ: https://rsreu.ru

УДК 004.855.5

ВЫБОР ЧИСЛА КЛАСТЕРОВ В АЛГОРИТМЕ k-СРЕДНИХ С ИСПОЛЬЗОВАНИЕМ ЭНТРОПИИ КЛАСТЕРНЫХ РЕШЕНИЙ

В. И. Орешков, к.т.н., доцент кафедры САПР ВС РГРТУ, Рязань, Россия;
orcid.org/0000-0003-0316-4927, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

Рассматривается проблема выбора числа кластеров в популярном алгоритме кластеризации k-средних. Отмечается, что неудачный выбор данного гиперпараметра может привести к созданию кластерной структуры, содержательная интерпретация которой в процессе интеллектуального анализа данных ведёт к ложным выводам и принятию на их основе некорректных управленческих решений. Цель работы: разработка метода автоматического выбора числа кластеров для алго- ритма k-средних. В статье проведён аналитический обзор известных методов определения числа кластеров, отмечаются их преимущества и недостатки. В основе предлагаемого подхода лежит применение метода локтя, использующего вместо среднего квадрата ошибки кластеризации энтропию кластерных решений. На практическом примере показано, что использование энтропии кластерного решения позволяет выбрать число кластеров даже в случае, когда подход на основе ошибки кластеризации оказывается несостоятельным.

Ключевые слова: интеллектуальный анализ данных, машинное обучение, обучение без учителя, обучающий пример, кластеризация, кластер, центроид, энтропия.

 Скачать статью