УДК 004.032.26
МЕТОД ОБУЧЕНИЯ ГРУППЫ ЭКСПЕРТОВ НА ОСНОВЕ АВТОМАТИЧЕСКОГО РАСШИРЕНИЯ АРХИТЕКТУРЫ
А. К. Клименко, аспирант МГТУ им. Н.Э. Баумана, Москва, Россия;
orcid.org/0009-0009-2412-0641, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
К. А. Майков, д.т.н., профессор кафедры ИУ7 МГТУ им. Н.Э. Баумана, Москва, Россия;
orcid.org/0000-0003-1864-2397, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
В. В. Тишкина, к.т.н., доцент кафедры ВПМ РГРТУ, Рязань, Россия;
orcid.org/0000-0002-6320-3513, e-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.
Архитектуры группы (смеси) экспертов (англ. Mixture-of-Experts, MoE) позволяют масштабировать языковые модели без пропорционального роста вычислительных затрат, активируя лишь подмножество параметров для каждого токена. Однако, известные классические подходы требуют априорного выбора числа экспертов, что может приводить к субоптимальной емкости модели и замедлению сходимости. В данной работе представлен метод обучения нейросетей на основе архитектуры смеси экспертов, который автоматически расширяет множество экспертов на стадии обучения. Предложенный механизм добавляет новых экспертов при выходе на плато метрики качества, используя стратегию «теплого старта» для ускорения адаптации. Эксперименты на задачах GLUE демонстрируют ускорение сходимости на 5 – 8 % по сравнению с аналогичными стратегиями обучения при сопоставимом конечном размере обученных моделей. Метод обеспечивает теоретически обоснованную возможность повышения качественных характеристик решения и снижения ресурсоемкости.
Ключевые слова: группа экспертов, смесь экспертов, MoE, адаптивное обучение, динамическое расширение архитектуры.
