УДК 007:681.512.2
ИДЕНТФИКАЦИЯ ДОСТОВЕРНОСТИ НОВОСТЕЙ С ПОМОЩЬЮ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ
И. Ю. Каширин, д.т.н., профессор кафедры ВПМ РГРТУ Рязань, Россия;
orcid.org/0000-0003-1694-7410, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
В статье рассматривается новая технология проектирования обучаемых моделей искусственного интеллекта, предназначенная для оценки правдивости электронных новостных материалов. Используются обучаемые модели со знаниями (Machine Learning, ML-модели). Структуры знаний реализуются в форме семантических сетей, описывающих изначально не вычисленные элементы входных данных.
В технологии применены продукционные экспертные правила, позволяющие определить индекс достоверности фактов, изложенных в материалах новостной статьи. Каждое из экспертных правил требует создания соответствующего программного модуля, основанного чаще всего на методологии синтаксического и семантического анализа естественного языка. Вычисленные индексы применяются как S-элементы нейронных сетей или как входные признаки для обучения, тестирования и валидации ML-моделей.
База знаний программных модулей содержит рейтинговые характеристики электронных изданий и рейтинги авторов новостных статей.
Экспериментальная часть исследований проведена для тестового программного обеспечения, реализованного на языке Python v.4 (Anaconda 4). В качестве исходных текстов новостных статей использованы материалы международного репозитория Kaggle и новостная лента российского сервиса электронной почты mail.ru. Выполненная серия экспериментов дает возможность оценить рассматриваемую технологию как технологию оценки достоверности естественно-языковых текстов, не уступающую по эффективности имеющимся на сегодня международным аналогам.
Целью работы является создание оригинальной технологии автоматизированного анализа естественно-языковых текстов новостей, опубликованных в электронных web-ресурсах, на предмет достоверности содержащихся в них сведений.
Ключевые слова: фейк-новости, достоверность сведений, ML-модели, интеллектуальная обработка данных, база знаний, семантические сети, анализ естественного языка, продукционные правила.