Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
 
+7 (4912) 72-03-73
 
Интернет-портал РГРТУ: https://rsreu.ru

УДК 007:681.512.2

ВЕКТОРИЗАЦИЯ ТЕКСТА НА ОСНОВЕ ICF+ ОНТОЛОГИИ В АНСАМБЛЯХ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ ДЛЯ КЛАССИФИКАЦИИ ЭЛЕКТРОННЫХ РЕСУРСОВ

И. Ю. Каширин, д.т.н., профессор кафедры ВПМ РГРТУ, Рязань, Россия;
orcid.org/0000-0003-1694-7410, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

Рассматривается оригинальная технология проектирования и применения моделей машинного обучения, а также их ансамблей для классификации и сложного анализа англоязычных политических текстов отечественных и прозападных электронных средств массовой информации. Рассматривается сквозной пример программной реализации в среде Python v.3.10, Anaconda v.2.1. При программной реализации технологии используются: поисковый ретривер, Python паттерны, интеллектуальная вставка спецтокенов. Эффективность представленной технологии подтверждается серией практических экспериментов на примере решения задачи бинарной классификации новостных статей по идеологической направленности на прозападные и пророссийские. Результаты исследования будут полезны в задачах прогнозирования кризисных политических ситуаций.
Целью работы как научной статьи является представление специалистам в области искусственного интеллекта новой, разработанной автором работы, технологии онтологической векторизации политических новостей, позволяющей анализировать и прогнозировать социальные ситуации различных уровней подробностей.

Ключевые слова: Bert-модели, онтологические модели, векторизация текста, токенайзер, ретривер, политические новости, ансамбли ML-моделей, прогнозирование, семантическое сходство.

 Скачать статью