УДК 007:681.512.2
ФОРМИРОВАНИЕ LLM-ОРИЕНТИРОВАННЫХ РЕСУРСОВ ЗНАНИЙ НА ОСНОВЕ ГЕНЕРАЦИИ ДОПОЛНЕННОЙ ИНФОРМАЦИИ
И. Ю. Каширин, д.т.н., профессор кафедры ВПМ РГРТУ Рязань, Россия;
orcid.org/0000-0003-1694-7410, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
Рассматривается новая технология проектирования вопросно-ответных систем, построенных на основе больших генеративных языковых моделей LLM (Large Language Models). Исследуются недостатки LLM, главным из которых является отсутствие в этих моделях актуальных сведений, появившихся в информационных сервисах за сравнительно недавнее время. Новая технология опирается на современный подход к развитию больших моделей ресурсами новых актуальных или специфических знаний. Такие системы получили название RAG-систем дополненной генерации (Retrieval-Augmented Generation, RAG). Для улучшения качества диалога в них используются дополнительные базы данных. Автором статьи предлагается использовать для генерации новых ресурсов знаний метод расширения семантического пространства при векторизации естественно-языковых текстов. Основой метода является система операций на множестве иерархических чисел, генерируемых в качестве семантических индексов словарных понятий и словарных определений событий. Это дает возможность более точно вычислять семантическую близость словарных конструкций. Новый подход, в частности, может использоваться для специализированных предметных областей. Программная реализация предложенной технологии получила воплощение в RAG-системе IYuRAG v.1.0. При проектировании был задействован разработанный автором ранее модуль сбора тематических корпусов CorpusMining v.2.1, основанный на инструментарии Googlesearch и BeautifulSoup4 в среде Python v.3.10, Anaconda v.2.1. Кроме того, был применен инструментарий LLM RoBERTa-transformers 4.7. RAG-система IYuRAG v.1.0 дает возможность генерировать ресурсы знаний в предметной области «Политические новости/Вооруженные конфликты». Вопросно-ответный модуль RAG-системы расширяет возможности существующих LLMs. Целью статьи является презентация нового метода проектирования RAG-систем на основе применения иерархических чисел для расширения семантического пространства в больших нейросетевых генеративных моделях.
Ключевые слова: генерация дополненной информации, эмбеддинги иерархических чисел, нейросетевые трансформеры, анализ естественного языка, онтологические таксономии, семантическое пространство.
