Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
 
+7 (4912) 72-03-73
 
Интернет-портал РГРТУ: https://rsreu.ru

УДК 004.912

АНАЛИЗ МЕТОДОВ ВЕКТОРИЗАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ

О. А. Попова, преподаватель кафедры МИИБФ ТГМУ, Тюмень, Россия;
orcid.org/ 0009-0006-3530-5703, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

Рассматривается задача: анализ методов векторизации текстовых данных. Данные представлены факультативной и вариативной частью обучающих медицинских курсов. Целью работы является выбор оптимального метода векторизации текстовых данных медицинской тематики. Актуальность проблемы выбора метода векторизации основывается на необходимости повысить качество рекомендательной системы по выбору обучающего контента для студентов. Выбранный метод в дальнейшем будет рекомендован в качестве процедуры предобработки текста для рекомендательной системы. В работе представлены 4 метода векторизации: BinaryBOW, Bag of words, TFIDF, Word2Vec. По результатам эксперимента была установлена успешность применения метода, основанного на нейронных сетях, - Word2Vec. В его алгоритме заложена прогнозируемость результата, основанная на семантической близости слов, машинном обучении и векторном представлении слов. В работе представлен выбор гиперпараметров векторизатора модели машинного обучения в соответствии с набором текстовых данных.

Ключевые слова: векторизация, BinaryBOW, Bag of words, TF-IDF, Word2Vec, Skip-gram, softmax, текстовый корпус, нейронная сеть, числовой вектор.

 Скачать статью