УДК 007:681.512.2
ИЗВЛЕЧЕНИЕ ФАКТОВ ИЗ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ТЕКСТОВ МЕТОДОМ УНИФИКАЦИИ СЕМАНТИЧЕСКИХ ПАТТЕРНОВ
И. Ю. Каширин, д.т.н., профессор кафедры ВПМ РГРТУ, Рязань, Россия;
orcid.org/0000-0003-1694-7410, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
Рассматривается оригинальная технология проектирования и применения семантических шаблонов для обработки конструкций естественного языка. Конструктивно описывается метод унификации семантических паттернов, названных i-паттернами. Технология использует кортежи слов, образованные из различных отношений базы знаний, и используется для извлечения из сложных предложений средств массовой информации (СМИ) лаконичных фактов. Рассматривается сквознойпример программной реализации в среде Python v.3.10, Anaconda v.2.1. При программной реализации технологии используются внешние библиотеки программ SpaCy,WordNet, RuWordNet, Wiki-ru-wordNet, FrameNet, stanza, Yargy, а также разработанные автором статьи поисковый ретривер, Python i-паттерны с оригинальным алгоритмом унификации. Эффективность представленной технологии подтверждается серией практических экспериментов на примере решения задачи накопления обучающего корпуса для языковых нейросетевых BERT-моделей. Результаты исследования будут полезны в задачах классификации материалов СМИ на достоверные и лживые. Целью работы как научной статьи является представление специалистам в области искусственного интеллекта нового интеллектуального метода унификации семантических паттернов для извлечения из сложных политических статей лаконичных фактов.
Ключевые слова: Bert-модели, извлечение фактов, семантические паттерны, ретриверы, политические новости, анализ естественного языка, модели глубокого обучения.