УДК 007:681.512.2
НЕЙРОСЕТИ НОВОГО МНОГОПОЛЯРНОГО МИРА: КЛАССИФИКАЦИЯ ЭЛЕКТРОННЫХ НОВОСТЕЙ
И. Ю. Каширин, д.т.н., профессор кафедры ВПМ РГРТУ, Рязань, Россия;
orcid.org/0000-0003-1694-7410, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
Рассматривается новая технология автоматической идентификации новостных материалов средств массовой информации с разделением их на прозападный контент и статьи независимых государств. В качестве источников контента используются отечественные издательства: RT, Meduza, Kremlin, Globalaffairs, Themoscowtimes, RussiaBeyond, Rossiyasegodnya, Interfax, SputnikInternational и другие. Западные информационные издания представлены в исследовании издательствами: msnbc, bloomberg, cnn, springer, nbcnew, thrguardian, facebook, nytimes, france24 и другими. Используемые в исследовании теоретические основы опираются на концепцию нейронных сетей с концентрацией внимания, а именно двунаправленную модель с transformer-архитектурой Bert. Экспериментальная часть материала использует программное обеспечение, ориентированное на язык Python v.3 (Anaconda 3). Программная реализация сбора текстового корпуса, последующей обработки контента и нейросетевого анализа предполагает применение инструментария nltk, transformers 4.34.1, BeautifulSoup, wordcloud, BertForSequenceClassification, torch 3.12.4, newspaper, json, tensorflow 2.14.0, accelerate 0.20.1, sklearn. Кроме перечисленного программного обеспечения, в исследованиях используется разработанный автором пакет htmlgrabber v.2.0. Выполненная серия экспериментов позволяет квалифицировать представленную технологию как технологию идентификации электронных новостей, не уступающую по эффективности имеющимся на сегодняшний день международным аналогам. Целью работы является создание новой нейросетевой технологии, применяемой при автоматической идентификации информационного контента на естественном языке для классификации электронных новостей на западные и независимые.
Ключевые слова: нейронные Bert-сети, анализ естественного языка, идентификация новостного контента, transformer-архитектура, cборка текстового корпуса, предобученные модели.