УДК 007:681.512.2
ТЕОРИЯ ИЕРАРХИЧЕСКИХ ЧИСЕЛ В ЗАДАЧАХ ВЫЧИСЛЕНИЯ СЕМАНТИЧЕСКОГО СХОДСТВА ЕСТЕСТВЕННО-ЯЗЫКОВЫХ КОНСТРУКЦИЙ
И. Ю. Каширин, д.т.н., профессор кафедры ВПМ РГРТУ Рязань, Россия;
orcid.org/0000-0003-1694-7410, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
Рассматривается алгебра иерархических чисел, операции и отношения алгебраической системы. Приводится графическое представление иерархических чисел и операций с ними, показываются замечательные свойства операций. Перечисляются и поясняются способы нормализации иерархических чисел для их последующего применения в обработке естественно-языковых конструкций. Для использования теории иерархических чисел разрабатываются онтологии моделей знаний в части родовидовых таксономий, имеющих также иерархическую структуру. Выделяются общие и прикладные онтологии, имеющие существенное различие в их конструкции и применении для понимания предложений естественного языка.
В качестве сквозного примера взята предметная область англоязычных политических статей международных электронных средств массовой информации, в частности: RT, cnn, TASS, NYTimes. Рассматривается технология вычисления семантического сходства естественно-языковых конструкций, для чего задействуются известные языковые нейросетевые модели bert-base-cased последних версий, а также авторская модель IYu-bert-cased. Представлен новый метод вычисления семантического сходства с использованием теории иерархических чисел.
Экспериментальная часть материала основана на применении программного инструментария языка Python v.3 (Anaconda 3): библиотека Spacy v.3.2.1, ретривер CorpusMining v.2.1, пакет программ mIYu-bert v.1.0. Последние два инструментария реализованы автором материала.
Выполненная серия экспериментов позволяет квалифицировать методологию применения иерархических чисел при вычислении семантического сходства как основу технологии, не уступающей по эффективности имеющимся на сегодняшний день международным аналогам.
Целью работы является презентация эффективного применения алгебры иерархических чисел для получения и использования новой нейросетевой технологии, применяемой для решения задач автоматического вычисления семантического сходства конструкций естественного языка.
Ключевые слова: теория иерархических чисел, нейронные Bert-модели, анализ естественного языка, онтологические таксономии, семантическое сходство.