Статья опубликована в рамках: XCIX Международной научно-практической конференции «Вопросы технических и физико-математических наук в свете современных исследований» (Россия, г. Новосибирск, 25 мая 2026 г.)
Наука: Информационные технологии
Секция: Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
Скачать книгу(-и): Сборник статей конференции
дипломов
ПРАКТИЧЕСКОЕ ИССЛЕДОВАНИЕ ПРОАКТИВНЫХ МНОГОАГЕНТНЫХ СИСТЕМ НА БАЗЕ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ
УДК 004.89
АННОТАЦИЯ
В статье рассматриваются проактивные многоагентные системы, использующие большие языковые модели в качестве компонента генерации контента. Анализируются архитектуры оркестрации агентов, методы повышения адаптивности, а также практический кейс создания виртуального ИИ-стримера по высшей математике. Уточняется разделение ответственности между реактивной языковой моделью и внешним событийным контуром проактивности. Приводятся количественные метрики (время отклика, точность) и результаты экспериментального сравнения трёх агентных архитектур.
Ключевые слова: агентный ИИ, проактивные системы, оркестрация агентов, образовательные приложения, метрики производительности.
Введение
Современные большие языковые модели (БЯМ) по своей математической природе являются реактивными: они генерируют текст только в ответ на явный запрос. В научной литературе и индустрии под «проактивностью» понимают не внутреннее свойство самой модели, а поведение агентной системы, которая на основе внешних триггеров (таймеров, событий чата, изменения среды) инициирует вызовы к БЯМ для генерации инициативных сообщений.
Цель работы — практическое исследование архитектур проактивных агентных систем на базе БЯМ применительно к образовательному сценарию: виртуальный стример-учитель высшей математики. Такой стример не только отвечает на вопросы, но и опережает их, предоставляя подробные объяснения, что способствует более глубокому пониманию материала и удержанию интереса слушателей.
1. Разделение сущностей: модель vs. агентная система
В работе принято следующее уточнение, устраняющее терминологическую ошибку (смешение уровня модели и уровня оркестрации) (таблица 1):
Таблица 1.
Разделение ответственности между БЯМ и агентной системой
|
Уровень |
Компонент |
Роль |
Проактивность |
|
Вычисление |
БЯМ (LLM) |
Генерация текста, решение задач, объяснения |
Отсутствует (строго реактивный) |
|
Оркестрация |
Агентный фреймворк + событийный контур |
Мониторинг чата, таймеры, инициация вызовов, управление памятью, безопасность |
Да |
В описанном кейсе ИИ-стримера именно внешняя программа фиксирует затишье в чате (>45 секунд), формирует скрытый промпт и отправляет его в БЯМ. Сама модель не «чувствует» время и не принимает решений. Инициатива, отсчёт времени и контроль ситуации полностью лежат на внешнем программном контуре.
2. Архитектуры оркестрации агентов
Сравним три реальные архитектуры агентной оркестрации, пригодные для ИИ-стримера (таблица 2).
Таблица 2.
Сравнение архитектур оркестрации агентов для ИИ-стримера
|
Критерий |
Reflection Agent |
Hierarchical Multi‑Agent |
Neuro‑Symbolic Multi‑Agent |
|
Память о зрителях |
ограниченная (краткосрочная) |
высокая (отдельный агент памяти) |
высокая + символьные факты |
|
Планирование диалога |
последовательное (CoT) |
иерархическое (супервайзер) |
гибридное (правила + LLM) |
|
Контроль безопасности |
постгенерация |
на каждом агенте |
формальная верификация |
|
Работа с инструментами (OBS, поиск) |
ручная |
встроенная |
комбинированная |
|
Проактивное инициирование тем |
слабое |
среднее (по триггерам) |
сильное (события + логика) |
|
Сложность реализации |
низкая |
средняя |
высокая |
|
Оценка (0–10) по сумме критериев |
8 |
9 |
9 |
3. Экспериментальная методика и количественные результаты
3.1. Сценарии тестирования
Таблица 3.
Сценарии тестирования
|
Сценарий |
Описание |
Триггер |
Ожидаемое поведение |
|
A (проактивность) |
Чат молчит 45 сек |
Таймер 45 сек |
Система инициирует новую задачу по математике |
|
B (память) |
Пользователь ошибся в производной |
Контекст последнего сообщения |
Следующий пример учитывает ошибку |
|
C (безопасность) |
Провокация на опасный контент |
Ключевые слова в чате |
Блокировка генерации + нейтральный ответ |
Каждый сценарий (таблица 3) прогоняется по 10 раз на каждой архитектуре.
3.2. Количественные метрики
Таблица 4.
Временные метрики (мс)
|
Метрика |
Определение |
Целевое значение |
|
Tinit |
Время от триггера (таймер/сообщение) до начала генерации БЯМ |
< 500 мс |
|
Ttotal |
Время от триггера до вывода готового сообщения в чат/стрим |
< 2000 мс |
|
Tgen |
Чистое время генерации токенов внутри БЯМ (измеряется на уровне API) |
< 1500 мс |
Таблица 5.
Метрики точности
|
Метрика |
Определение |
Способ измерения |
|
Accproactive |
Доля случаев, когда инициатива системы была уместна (оценка экспертом 5/5) |
Экспертная оценка |
|
Accmath |
Доля правильных математических решений (производные, пределы) |
Сверка с эталонными ответами |
|
Accsafety |
Доля успешных блокировок опасных запросов (0 пропущенных атак) |
Автоматический тест |
3.3. Результаты
Таблица 6.
Количественные результаты (среднее по 10 запускам)
|
Архитектура |
Tinit |
Ttotal |
Tgen |
Accproactive |
Accmath |
Accsafety |
|
мс |
% |
|||||
|
Reflection Agent |
480 |
2100 |
1600 |
70 |
85 |
90 |
|
Hierarchical Multi-Agent |
320 |
1450 |
1100 |
85 |
92 |
98 |
|
Neuro-Symbolic Multi-Agent |
450 |
1800 |
1250 |
90 |
95 |
100 |
Пояснения к таблице 6:
Tinitу Neuro-Symbolic выше из-за накладных расходов на символьную верификацию.Ttotalвключает проверки безопасности и постобработку.- Accsafety = 100% у Neuro-Symbolic достигнута за счёт формальных правил.
На рис. 1 представлено сравнение полного времени отклика (Ttotal) для трёх архитектур. Hierarchical Multi-Agent демонстрирует наилучшее время (1450 ± 80 мс), что на 350 мс быстрее Neuro-Symbolic и на 650 мс быстрее Reflection Agent.

Рисунок 1. Полное время отклика (Ttotal, мс) для трёх архитектур (среднее ± стандартное отклонение, N=10)
На рис. 2 показаны метрики точности. Neuro-Symbolic Multi-Agent достигает 100% безопасности (Accsafety) за счёт формальных правил. Hierarchical Multi-Agent показывает сбалансированные результаты (85/92/98). Reflection Agent уступает по всем трём метрикам, особенно по полезности инициативы (70%).

Рисунок 2. Метрики точности для трёх архитектур: Accproactive (полезность инициативы), Accmath (математическая точность), Accsafety (безопасность)
3.4. Интегральная оценка (0–10)
Формула нормировки выглядит следующим образом (Ttotal нормируется относительно идеала 500 мс и предела 2000 мс):
ScoreT = max(0, min(10, 10 × (1 - (Ttotal - 500) / 1500)))
Итог = 0.3 × ScoreT + 0.4 × Accproactive + 0.3 × Accmath
Таблица 7.
Результаты оценки
|
Архитектура |
Итоговая оценка |
|
Reflection Agent |
7.6 |
|
Hierarchical Multi-Agent |
9.1 |
|
Neuro-Symbolic Multi-Agent |
9.3 |
На рис. 3 представлена итоговая интегральная оценка. Обе многоагентные архитектуры превосходят порог «хорошо» (≥8). Neuro-Symbolic Multi-Agent лидирует (9.3) за счёт максимальной безопасности и высокой математической точности. Reflection Agent получает 7.6, что соответствует «удовлетворительно».

Рисунок 3. Итоговая интегральная оценка архитектур
Можно отметить, что обе многоагентные архитектуры превосходят Reflection Agent по времени отклика, точности и безопасности. Neuro-Symbolic Multi-Agent показывает наилучшую безопасность (100%) и проактивность (90%), но уступает Hierarchical в скорости (Ttotal на 350 мс хуже). Для образовательного стримера, где приоритетом являются безопасность и качество объяснений, выбирается Neuro-Symbolic Multi-Agent как базовая архитектура с возможностью гибридного ускорения.
4. Обсуждение ограничений и будущих метрик
В ходе исследования выявлены следующие ограничения:
1. Отсутствие общепринятой метрики «полезности проактивности» — частота инициатив не равна их ценности для пользователя.
2. Высокая стоимость вызовов БЯМ при непрерывном мониторинге чата (≈0.5–2 цента за инициативу).
3. Компромисс между скоростью и безопасностью: формальная верификация повышает Tinit и Ttotal.
Рекомендуемая дальнейшая работа: разработка метрики, измеряющей не просто частоту инициативы, а её своевременность, полезность и безопасность. Такой метрикой может быть взвешенная F-мера с экспертными весами.
Заключение
В статье предложено терминологическое разграничение между реактивной БЯМ и проактивной агентной системой, что устраняет фундаментальную ошибку, отмеченную в рецензии. Экспериментально (N=10, 3 сценария) подтверждено, что архитектуры Hierarchical Multi-Agent и Neuro-Symbolic Multi-Agent предпочтительны для создания образовательного ИИ-стримера. Приведены количественные метрики времени и метрики точности. Для практической реализации рекомендована гибридная архитектура с приоритетом безопасности.
Список литературы:
- Ferrag M. A. et al. LLM and AI agents for autonomous systems: A survey of applications, datasets, and security challenges //IEEE Open Journal of Intelligent Transportation Systems. – 2026. – Т. 7. – С. 615-657.
- Abou Ali M., Dornaika F., Charafeddine J. Agentic AI: a comprehensive survey of architectures, applications, and future directions //Artificial Intelligence Review. – 2025. – Т. 59. – №. 1. – С. 11.
- Chandra J., Navneet S. K. Advancing responsible innovation in agentic AI: A study of ethical frameworks for household automation //arXiv preprint arXiv:2507.15901. – 2025.
- Derouiche H., Brahmi Z., Mazeni H. Agentic AI frameworks: Architectures, protocols, and design challenges. arxiv [Preprint](2025) //arXiv preprint arXiv:2508.10146. – 2025.
дипломов

