УДК 005.519.8
АНАЛИЗ СЕМАНТИЧЕСКОЙ БЛИЗОСТИ СЛОВ С ПОМОЩЬЮ КАРТ КОХОНЕНА
А. В. Гиголаев, студент группы 443; Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
Н. И. Цуканова, к.т.н., доцент кафедры ВПМ РГРТУ; Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
Рассматриваются вопросы применения карт Кохонена для организации слов текста в группы по смыслу, обусловленному контекстом. Предлагается в качестве модели текста документа использовать матрицу частот следования слов друг за другом. Целью работы является исследование применимости самоорганизующихся карт Кохонена для кластеризации слов текста по смыслу, на основе характеристик связи слов между собой, разработка программы с учетом особенностей решаемой задачи. В работе рассматриваются следующие вопросы: представление текста в виде нечеткого графа (нечеткого отношения), способы определения наиболее сильного пути между вершинами графа и, следовательно, наиболее сильной связи между словами, формирование матрицы «объекты-признаки» для решения задачи кластеризации, выбор метрики для оценки близости объектов кластеризации. Приводятся результаты исследования, полученные с помощью программы построения карт Кохонена.
Ключевые слова: текст, слова, контекст, кластеризация, карта Кохонена, метрика, нейронная сеть, нечеткие множества и нечеткие отношения, нечеткий граф.