УДК 007:681.512.2
БИНАРНЫЕ ИЕРАРХИЧЕСКИЕ ЧИСЛА ДЛЯ ВЫЧИСЛЕНИЯ СЕМАНТИЧЕСКОЙ БЛИЗОСТИ ПРЕДЛОЖЕНИЙ ЕСТЕСТВЕННОГО ЯЗЫКА
И. Ю. Каширин, д.т.н., профессор кафедры ВПМ РГРТУ Рязань, Россия;
orcid.org/0000-0003-1694-7410, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
Рассматривается новая технология вычисления семантической близости предложений естественного языка, предварительно обработанных обученными нейронными сетями. Для программной реализации семантического анализа используется инструментарий Spacy и WordNet.
В качестве предметной области выбрана автоматическая верификация новостных материалов политической тематики.
Для вычисления числовых параметров семантической близости используется теория бинарных
иерархических чисел. Приведены основные операции с иерархическими числами. Рассмотрен принцип минимизации сложных семантических отношений таксономии. Иерархические числа используются при анализе родовидовой таксономии предметной области естественно-языкового предложения.
Экспериментальная часть исследований проведена для тестового программного обеспечения, реализованного на языке Python v.3 (Anaconda 3). В качестве исходных текстов новостных статей
использованы материалы международных изданий WSJ, PBS News Hour, AC News и других. Выполненная серия экспериментов дает возможность оценить рассматриваемую технологию как технологию вычисления семантической близости предложений, не уступающую по эффективности имеющимся современным международным аналогам.
Целью работы является создание новой технологии, применяемой при автоматизированном вычислении семантической близости конструкций естественного языка для формирования тематических подборок электронных новостных материалов.
Ключевые слова: бинарные иерархические числа, семантическая близость, родовидовая таксономия, интеллектуальная обработка данных, база знаний, семантические сети, анализ естественного языка, нейронные сети.