Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
 
+7 (4912) 72-03-73
 
Интернет-портал РГРТУ: https://rsreu.ru

УДК 007:681.512.2

ЭМБЕДДИНГИ ИЕРАРХИЧЕСКИХ ЧИСЕЛ ДЛЯ ОБОГАЩЕНИЯ ТРАНСФОРМЕРНЫХ ЯЗЫКОВЫХ МОДЕЛЕЙ ВНЕШНИМИ ОНТОЛОГИЧЕСКИМИ ЗНАНИЯМИ

И. Ю. Каширин, д.т.н., профессор кафедры ВПМ РГРТУ Рязань, Россия;
orcid.org/0000-0003-1694-7410, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

Рассматривается новый метод векторизации входных естественно-языковых предложений в языковых генеративных LLM моделях. Основой нового метода является алгебра иерархических чисел, используемая в алгоритмах вычисления семантической близости слов и предложений. Метод пригоден для локальных предметных областей и был апробирован в предметной области «политические новости». Для этой локальной области разработаны OWL онтология и соответствующее графическое представление в форме семантической сети с разметкой базовых концептов иерархическими числами. Семантическая сеть включает общий и прикладной уровни. Общая онтология использует ICF+ отношения, дающие возможность упростить полиморфические операции в моделях знаний. В программной реализации рассмотренного метода используется технология нейронных генеративных сетей с концентрацией внимания DistilBERT. Обогащение знаний предобученной нейрон-
ной сети осуществляется с помощью генерации новых семантических эмбеддингов для слов (концептов) естественно-языковых предложений и их встраивания в новую нейронную сеть перед дообучением в выбранной локальной предметной области. В качестве обучающих корпусов для получения новой нейросетевой модели mIYu-bert v.2.0. взяты общий корпус из репозитория Hugging Face Datasets и локальный корпус материалов, извлеченных автором настоящей статьи из англоязычных политических статей международных электронных средств массовой информации, в частности RT, cnn, TASS, NYTimes, WSJ. Экспериментальная часть материала основана на применении программного инструментария языков Python v.3 (Anaconda 3), OWL2EL и пакета программ mIYu-bert v.2.0. Последний инструментарий реализован автором материала. Выполненная серия экспериментов позволяет квалифицировать новый метод применения иерархических чисел в дообучении моделей LLM для вычисления семантического сходства как основу технологии, не уступающей по эффективности имеющимся на сегодняшний день международным аналогам. Целью работы является презентация нового метода обогащения языковых LLM моделей эмбеддингами иерархических чисел на основе OWL онтологий для локальных предметных областей.

Ключевые слова: эмбеддинги иерархических чисел, нейронные DistilBET-модели, анализ естественного языка, онтологические таксономии, семантическое сходство.

  Скачать статью