Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
 
+7 (4912) 72-03-73
 
Интернет-портал РГРТУ: https://rsreu.ru

УДК 004.912

ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ МЕТОДИК ВЕКТОРИЗАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ И АЛГОРИТМОВ ИХ КЛАСТЕРИЗАЦИИ

К. К. Отраднов, старший преподаватель кафедры автоматизированных систем управления и информационных технологий Института комплексной безопасности и специального приборостроения Московского технологического университета (МИРЭА); Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
В. К. Раев, профессор кафедры инструментального и прикладного программного обеспечения Института информационных технологий Московского технологического университета (МИРЭА); Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

Целью работы является экспериментальное сравнение качества и скорости обработки текстовой информации с использованием различных методик их векторного представления (документ – термин с частотной метрикой TF-IDF с использованием и без использования N-грамм; документ – ассоциативно-семантическая группа с частотной метрикой TF-IDF; документ – тема с использованием Latent Dirichlet Allocation (LDA)) и алгоритмов кластеризации текстов («K-Means», «DbScan», «Affinity Propagation», «Agglomerative Clustering» и «BIRCH»). При оценке качества и эффективности обработки документов использовался критерий величины времени обработки тестовой выборки документов (10000 текстов) на имеющейся аппаратной платформе и метрик качества: «V-мера» «Adjusted Rand index» (ARI), «Силуэт», «Экспертная оценка». Эксперименты показали, что наилучшее качество при наименьшем времени работы показывают неиерархические алгоритмы кластеризации – «K-Means» и «Affinity Propagation» с использованием модели «документ– термин» с TF-IDF без N-грамм и «документ – лексико-семантическая группа» с TF-IDF.

Ключевые слова: эффективность кластеризации, метрики качества, время обработки, алгоритмы кластеризации, модели векторного представления документов.

 Скачать статью