УДК 007:681.512.2
ОТЛИЧИТЕЛЬНЫЕ ОСОБЕННОСТИ ДЕСЯТИЧНЫХ ИЕРАРХИЧЕСКИХ ЧИСЕЛ В ИНТЕРПРЕТАЦИИ ЭМБЕДДИНГОВ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ
И. Ю. Каширин, д.т.н., профессор кафедры ВПМ РГРТУ Рязань, Россия;
orcid.org/0000-0003-1694-7410, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
Рассматривается новый метод анализа входных естественно-языковых предложений для языковых LLM моделей. Основой нового метода является алгебра десятичных иерархических чисел, используемая в алгоритмах вычисления семантической близости слов, словосочетаний и предложений. Метод пригоден для локальных предметных областей и был апробирован в предметной области «политические новости». Для этой локальной области были разработаны OWL онтология и соответствующее графическое представление в форме семантической сети с разметкой базовых сущностей десятичными иерархическими числами. Семантическая сеть включает общий и прикладной уровни. Фрагмент общей онтологии представлен отношениями, дающими возможность существенно понизить вычислительную сложность алгебраических операций на графах знаний и, как следствие, уменьшить время вычисления семантического сходства естественно-языковых конструкций. В программной реализации рассмотренного метода используется известная технология языковых нейронных сетей с концентрацией внимания DistilBERT. Обогащение знаний предобученной нейронной сети осуществляется с помощью генерации новых семантических эмбеддингов для слов (сущностей) естественно-языковых предложений и их встраивания в новую нейронную сеть перед дообучением (finetuning) в локальной предметной области. В качестве обучающих корпусов для получения новой нейросетевой модели mIYu-bert v.2.0 взяты общий корпус из репозитория Hugging Face Datasets и локальный корпус материалов, извлеченных автором из англоязычных политических статей международных электронных средств массовой информации, в частности RT, Meduza, cnn, TASS, NYTimes, bloomberg, WSJ. Экспериментальная часть материала основана на применении программного инструментария языка программирования Python v.3 (Anaconda 3), LLM DistilBERT и пакета программ mIYu-bert v.3.1. Последний инструментарий реализован автором материала. Выполненная серия экспериментов позволяет квалифицировать новый метод применения десятичных иерархических чисел в дообучении моделей LLM для вычисления семантического сходства как основу технологии, не уступающей по эффективности имеющимся на сегодняшний день международным аналогам и не превосходящей их по вычислительной сложности. Целью работы является описание нового метода вычисления семантического сходства в языковых LLM моделях с использованием десятичных иерархических чисел на основе OWL онтологий, а также универсальной алгебры при формировании графов знаний в локальных предметных областях.
Ключевые слова: десятичные иерархические числа, универсальные алгебры, языковые DistilBERT-модели, анализ естественного языка, онтологические таксономии, семантическое сходство.
