Статья опубликована в рамках: CXIII Международной научно-практической конференции «Экспериментальные и теоретические исследования в современной науке» (Россия, г. Новосибирск, 28 мая 2025 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ ЛОКАЛЬНЫХ ИИ-МОДЕЛЕЙ В ЗАМКНУТЫХ ВЫЧИСЛИТЕЛЬНЫХ СРЕДАХ ОБОРОННОГО УНИВЕРСИТЕТА
АННОТАЦИЯ
Целью исследования являлась экспериментальная оценка эффективности локальных моделей искусственного интеллекта (ИИ) в замкнутой вычислительной среде оборонного университета при решении образовательных задач. В качестве основного исследовательского метода использовалось сравнительное тестирование моделей LLaMA-13B, Mistral-7B, KazLLM-8B и DeepSeek-1.5B по метрикам производительности (время отклика), релевантности и компактности ответов при выполнении задач генерации тестовых вопросов, анализа и обобщения текстовых материалов.
В результате проведенной работы установлено, что модели среднего размера (LLaMA-13B, Mistral-7B, KazLLM-8B) обеспечивают оптимальное соотношение скорости работы и качества генерации ответов, тогда как компактная модель DeepSeek-1.5B выигрывает по скорости, но уступает в точности и содержательности. Сделан вывод о практической применимости локальных ИИ-моделей в образовательном процессе оборонного университета, обозначены их преимущества, ограничения и перспективы дальнейшего совершенствования
ABSTRACT
The purpose of this study was the experimental evaluation of local artificial intelligence (AI) models' effectiveness in a closed computing environment at a defense university for solving educational tasks. The method included comparative testing of LLaMA-13B, Mistral-7B, KazLLM-8B, and DeepSeek-1.5B models, using performance metrics (response time), relevance, and compactness of generated outputs in tasks such as automated test question generation, text analysis, and summarization. Results showed that medium-sized models (LLaMA-13B, Mistral-7B, KazLLM-8B) provided an optimal balance of response speed and generation quality, whereas the compact DeepSeek-1.5B model excelled in speed but fell behind in accuracy and comprehensiveness. The study concludes the practical applicability of local AI models in the educational processes of a defense university, highlighting their advantages, limitations, and perspectives for future development.
Ключевые слова: локальные модели ИИ, большие языковые модели, LLaMA, Mistral, KazLLM, DeepSeek, LM-Studio, FastAPI, замкнутая вычислительная среда, оборонный университет, генерация тестов, анализ текстов.
Keywords: local AI models, large language models, LLaMA, Mistral, KazLLM, DeepSeek, LM-Studio, FastAPI, closed computing environment, defense university, test generation, text analysis.
Введение
В последние годы генеративные модели искусственного интеллекта (ИИ), в частности большие языковые модели (LLM), находят широкое применение в образовании, науке и промышленности. Однако использование облачных ИИ-сервисов (например, ChatGPT и др.) затруднено или недопустимо в организациях с особыми требованиями безопасности – таких как оборонные вузы и закрытые исследовательские центры. В таких учреждениях действуют строгие политики, запрещающие передачу данных на внешние серверы в связи требованиями службы защиты государственных секретов [1]. Локально развернутые ИИ-модели позволяют обойти эти ограничения. Так, данные не покидают периметра организации, что гарантирует сохранность информации как секретного характера, так и для служебного пользования. Кроме того, локальные модели не зависят от подключения к интернету и доступны даже при отсутствии сети.
Учитывая актуальность проблемы, целью настоящего исследования является экспериментальная оценка эффективности локальных языковых моделей ИИ в замкнутой вычислительной среде оборонного университета. Под эффективностью понимается способность моделей решать практические задачи, а именно генерация тестовых заданий, анализ и обобщение текстов с приемлемым качеством и скоростью. Для достижения поставленной цели в работе решены следующие задачи:
- проведен обзор современного состояния разработки локальных LLM-моделей и инструментов для их развертывания в офлайн-режиме;
- разработана методика экспериментального сравнения нескольких моделей (LLaMA, Mistral, DeepSeek, KazLLM) в локальной сети с использованием LM-Studio и FastAPI;
- выполнен замер метрик производительности (времени отклика) и качества ответов (релевантности и компактности выводимого текста);
- проанализированы результаты, выявлены преимущества и недостатки, обозначены перспективы применения локальных ИИ-моделей в оборонных вузах.
Обзор языковых моделей
Выпуск компанией Meta AI модели LLaMA ознаменовал важный шаг к доступности LLM для локального использования. Были опубликованы веса моделей размером от 7 до 65 млрд параметров, причем качество 13-миллиардной модели превзошло гораздо более крупную модель GPT-3 (175 млрд) на большинстве тестов. Хотя изначально LLaMA распространялась под некоммерческой лицензией, утечка весов в открытый доступ ускорила волну разработок на ее основе. Вслед за LLaMA последовали новые открытые модели: LLaMA 2, LLaMA 3, семейство моделей Mistral и др. В отличие от коммерческих ИИ (GPT-4, Google Gemini и т.п.), которые хоть и лидируют по качеству, но дорогие и не гарантируют конфиденциальность [2], открытые модели позволяют организациям развернуть ИИ-системы локально. Как отмечает исследователь Конрад Вольфенштейн, главным приоритетом локальных моделей является именно защита данных, так выполнение ИИ-вычислений на локальных серверах исключает утечки и несанкционированный доступ к чувствительной информации [3].
Глобальные модели вроде GPT-4, LLaMA, Google Gemini установили высокие стандарты, но их успехи в основном касаются языков с обилием данных (английский, китайский, русский и др.). Для казахского языка и других языков с недостатком данных наблюдается заметный разрыв в возможностях ИИ, что негативно влияет на качество пользовательского опыта. Проект KAZ-LLM призван устранить данный недостаток. Модель обучена на массиве в 148 млрд. токенов на четырех языках – казахском, русском, английском и турецком. Под руководством Института смарт-систем и ИИ Назарбаевского Университета были подготовлены две версии KAZ-LLM – с 8 млрд и 70 млрд параметрами, построенные на архитектуре Meta Llama. Модели оптимизированы как для высокопроизводительных серверов, так и для сред с ограниченными ресурсами. По заявленным характеристикам, KAZ-LLM превосходит многие существующие аналоги по качеству и точности, особенно в задачах на казахском языке. Стоит отметить, что модель распространяется с открытым исходным кодом и доступна разработчикам, стартапам, крупным компаниям и научному сообществу [1]. Таким образом, модель KAZ-LLM представляет особый интерес для образовательных учреждений Казахстана и может быть интегрирована в учебный процесс для генерации контента на государственном языке.
Таким образом, к 2025 г. экосистема локальных LLM-моделей и средств их эксплуатации оказалась достаточно развитой. Доступны языковые модели различного масштаба и специализации, которые могут быть запущены в закрытом контуре без подключения к интернету. В свою очередь, локальные ИИ-системы уже применяются для прототипирования чат-ботов, генерации кода, автоматизации документооборота и т.д. Однако сведений об их эффективности именно в учебно-образовательной сфере оборонных вузов пока недостаточно. Наше исследование нацелено на восполнение этого пробела путем прямого эксперимента по сравнению нескольких актуальных локальных LLM в условиях изолированной сети.
Методика
Архитектура экспериментальной системы. Для проведения испытаний была развернута локальная серверная платформа, обеспечивающая доступ к языковым моделям внутри сети университета. В её основе – LM Studio на базе ОС Ubuntu 22.04 LTS. Сервер оснащён – GPU NVIDIA RTX 4090, что позволило использовать модели размером до 13 млрд параметров.
На сервере установили открытые модели: LLaMA-2-13B, Mistral-7B-Instruct, DeepSeek-1.5 и ISSAI KAZ-LLM-8B. Все они были загружены через интерфейс LM Studio из открытых репозиториев (Hugging Face и Ollama). LM Studio запускался в режиме локального REST API с эмуляцией протокола OpenAI. Для удаленного доступа реализован оберточный сервис на FastAPI (Python 3.10).
Таким образом, архитектура обеспечила безопасный доступ к моделям. Все вычисления происходили на сервере, а клиенты получали только конечные ответы по внутреннему протоколу.
Схема организации доступа: магистранты и преподаватели подключались к внутреннему веб-интерфейсу (веб-странице), через который в интерактивном режиме задавали вопросы или вводили текст для анализа. Интерфейс отправлял AJAX-запросы к FastAPI-серверу, который в вою очередь передавал их в LM Studio, где загруженная модель генерировала ответ. Вся система функционировала автономно, без выхода в интернет, полностью удовлетворяя требованиям режима «закрытого контура».
Условия эксперимента. Тестирование проводилось в учебной аудитории, оборудованной 15 клиентскими машинами, соединенными локальной сетью с сервером. Пользователями (испытателями) выступали 10 преподавателей и 20 подготовленных магистрантов второго курса. Эксперимент длился 5 дней, в течение которых каждый участник работал с системой и решал поставленные задачи с помощью разных моделей. Перед началом опытов участники получили инструктаж по работе с веб-интерфейсом и формулировке запросов к моделям.
Задачи для моделей. Выбраны две прикладные задачи, отражающие типичные потребности образовательного процесса оборонного вуза:
- Генерация тестовых заданий. Модели использовались для автоматического составления вопросов экзаменационных билетов по заранее заданным темам учебного курса. Преподаватель вводил тему и краткое описание урока, после чего модель генерировала перечень вопросов по материалу. Проверялось качество полученных вопросов, их соответствие теме, корректность формулировок. Генерировались как вопросы с выбором ответа, так и открытые вопросы. Пример запроса: «Сгенерируй 5 контрольных вопросов по теме 'Баллистические ракеты: траектория и управление'». Ожидаемый ответ – осмысленные вопросы, покрывающие ключевые аспекты темы.
- Анализ и обобщение текста. Модель выполняла функцию ассистента для обработки больших фрагментов учебных текстов. Магистранты вводили абзац или несколько абзацев из учебного пособия либо доклада (объемом ~500–700 слов) и просили модель либо сформулировать краткое резюме, либо ответить на вопросы по содержанию. Пример запроса: «Приведи краткое изложение следующего текста...» с последующим вставленным текстом. Другой вариант: «Каковы основные выводы из приведенного фрагмента?». Оценивалось, насколько точно модель понимает исходный текст и корректно выделяет главные мысли в сжатой форме.
Оба вида задач выполнялись последовательно на каждой модели, чтобы можно было сравнить их между собой. Для объективности каждый сценарий (конкретная тема для вопросов или текст для анализа) раздавался разным преподавателям, работающим с разными моделями, и затем менялся (метод перекрестного сравнения). Всего было сформировано 20 уникальных тем и 20 текстовых фрагментов, распределенных таким образом, чтобы каждая модель обработала весь набор заданий (но в разном порядке, во избежание обучения на одном и том же содержании).
Сбор и оценка метрик. В ходе эксперимента фиксировались количественные и качественные показатели работы моделей, а именно:
- Время отклика – среднее время генерации ответа на запрос. Измерялось автоматически на уровне FastAPI (разница между временем получения запроса и отправки ответа). Далее было вычислено усредненное значение по всем выполненным заданиям для каждой модели (сегментировано по типам задач). Эта метрика характеризует производительность модели и ее пригодность для интерактивного использования (вопрос-ответ в режиме реального времени).
- Релевантность ответа – степень соответствия сгенерированного текста поставленной задаче. Оценивалась экспертно, преподаватели выставляли балл от 1 до 5 каждому ответу, где 5 означало полностью корректный и по делу ответ, не содержащий ошибок по существу. Для тестовых вопросов критерием релевантности была соответствие вопросам программе курса и отсутствие явных неточностей. Для резюме текста – включение всех основных идей оригинала без искажений. Далее вычислялось среднее экспертное качество ответа для каждой модели.
- Компактность (лаконичность) вывода – показатель того, насколько ответ модели содержателен при минимуме "лишнего" текста. Известно, что некоторые LLM склонны формально развернуто рассуждать или давать избыточно длинные ответы. Авторами статьи была введена метрика лаконичности, которая оценивалась экспертами по 5-балльной шкале:
5 баллов – ответ максимально краткий, строго по делу, без повторов и «воды»;
3 балла – нейтрально, допускаются небольшие отклонения;
1 балл – ответ чрезмерно громоздкий или многословный.
Также данную характеристику проверяли автоматически, измеряя объем выхода (в токенах) относительно минимально достаточного (например, для задачи сгенерировать 5 вопросов – модель не должна выходить далеко за пределы 5 предложений). Однако основным считался экспертный балл за лаконичность и уместность стиля.
- Дополнительные наблюдения. пользователи отмечали случаи фактических ошибок или нелогичных утверждений в ответах (так называемые «галлюцинации» модели), случаи повторения одной и той же информации разными словами, а также корректность языкового стиля (грамматика, терминология). Эти факторы не формализовались в численные метрики, но учитывались при выводах.
Результаты эксперимента
Таблица 1.
Сравнение моделей по метрикам эффективности.
Модель |
Среднее время отклика, с |
Релевантность (баллы) |
Компактность (баллы) |
LLaMA-13B |
6.0 |
4.5 |
3.0 |
Mistral-7B |
3.0 |
4.0 |
4.0 |
KAZLLM-8B |
4.0 |
4.0 |
4.0 |
DeepSeek-1.5B |
2.0 |
3.0 |
5.0 |
Среднее время отклика. Наименьшее время ответа показала модель DeepSeek-1.5B – около 2 секунд на запрос. Это объясняется её компактностью (1,5 млрд параметров) и, как следствие, невысокой вычислительной нагрузкой, позволяющей быстро обрабатывать запросы даже на CPU.
Mistral-7B и KazLLM-8B показали сопоставимые результаты – от 3 до 4 секунды, что соответствует их архитектурной сложности. LLaMA-13B оказалась самой медленной: в среднем 6 секунд, а при работе с длинными текстами – до 8–10 секунд. Хотя эта модель отличается высокой точностью, задержка может снижать комфорт при интерактивном использовании.
В целом, время отклика увеличивается с ростом числа параметров. Измерения проводились без ограничения длины ответа, и при больших объёмах входного текста время обработки также возрастало. Тем не менее, даже 6–8 секунд – допустимый показатель в учебной среде и сравним с размышлениями человека.
Рисунок 1. Среднее время отклика различных моделей LLM
Качество и релевантность ответов. Результаты эксперимента показали различия в точности и качестве ответов между моделями. LLaMA-13B продемонстрировала наивысшее качество (4,5 баллов), обеспечивая содержательные и хорошо структурированные ответы. Mistral-7B и KazLLM-8B показали умеренные, но стабильные результаты (около 4 балла), с редкими упущениями или упрощениями. DeepSeek-1.5B отставала (3 балла), часто выдавая поверхностные ответы и пропуская ключевые элементы, что объясняется её компактной архитектурой.
Компактность и стиль вывода. Анализ моделей по критерию лаконичности выявил прямую зависимость: чем больше модель, тем более развёрнутыми становятся ответы. LLaMA-13B склонна к многословию (3 балла), в то время как KazLLM и Mistral (по 4 балла) демонстрируют более сдержанный и деловой стиль. DeepSeek-1.5B оказалась самой лаконичной (5 баллов), но иногда упрощала смысл до потери важной информации.
Сопоставление со стандартами. Эксперимент показал, что около 80 % заданий, сгенерированных моделями LLaMA, Mistral и KazLLM, соответствовали методическим требованиям вузов. Они хорошо справлялись с форматом множественного выбора, тогда как открытые вопросы иногда требовали правки. DeepSeek показала менее удовлетворительные результаты – только половина вопросов соответствовала ожиданиям.
Анализ
Преимущества подхода. Результаты эксперимента подтверждают, что локальные ИИ-модели способны эффективно работать в замкнутой среде и решать прикладные образовательные задачи. Ключевое преимущество – независимость от внешних сервисов и полная автономность. Университет может эксплуатировать такие модели без рисков утечки данных. Все вопросы магистрантов, учебные тексты, результаты анализа остаются внутри института. Это особенно важно для оборонных вузов, где учебные материалы могут иметь гриф ограниченного доступа. В отличие от облачных решений, где отправка даже обезличенных данных на внешний сервер считается нарушением, локальная модель обеспечивает требуемый уровень конфиденциальности. Также преимуществом является контроль и адаптивность, организация (университет) сама выбирает, какую модель использовать и как ее настроить. Например, если требуется поддержка казахского языка и терминологии военного дела, можно внедрить модель KAZ-LLM и дополнительно дообучить ее на внутренней библиотеке военной литературы.
Такой подход обеспечивает гораздо большую гибкость по сравнению с закрытыми API, функциональность которых ограничена разработчиком. Локальные модели позволяют встраивать ИИ-инструменты непосредственно в существующие учебные программы и программные системы вуза. Эксперимент показал, что интеграция через FastAPI работает надежно. Преподаватели могли пользоваться ИИ-помощником прямо на лекциях или семинарах, не переключаясь в сторонние приложения.
Практическая значимость. Для оборонных вузов наличие собственных ИИ-моделей открывает новые возможности. Во-первых, автоматизация части рутины преподавателя – генерация тестов, проверочных вопросов, составление кратких обзоров статей – экономит время, которое можно направить на углубленное разбор сложных тем с магистрантами.
Во-вторых, у магистрантов появляется интерактивный инструмент самоподготовки. Находясь в закрытой сети, магистранты могут задавать модели вопросы для уточнения учебного материала, получая ответы сразу «на месте».
В-третьих, локальная ИИ-платформа стимулирует исследовательскую активность в самом вузе. Магистранты и профессорско-преподавательский состав могут экспериментировать с настройками моделей, пробовать их дообучение на новых данных, создавать специализированные версии (например, военная LLM с доменными знаниями). Это способствует развитию компетенций по искусственному интеллекту прямо в стенах оборонного университета, что в перспективе уменьшает зависимость от внешних технологий.
Ограничения и недостатки. Несмотря на положительные результаты, локальные языковые модели имеют ряд ограничений. Даже наиболее развитые из открытых LLM пока уступают коммерческим решениям, особенно в задачах, требующих креативности, точных вычислений и сложной логики. Данные аспекты наше исследование не затрагивало, однако именно там различия становятся наиболее заметными.
Технические аспекты также представляют сложность. Развертывание на собственных серверах требует значительных затрат, постоянной поддержки и требует наличия квалифицированных ИТ-специалистов.
Также важен контекст обучения. Mistral и LLaMA – универсальные модели, тогда как KazLLM содержит национально ориентированный контент. Однако для военного вуза требуется модель, адаптированная под профильную тематику. Таких решений пока нет, но дообучение существующих моделей на военных материалах – перспективное направление, уже реализуемое за рубежом.
В целом, открытые модели представляют ценную основу для адаптации под задачи оборонного образования, несмотря на текущие ограничения.
Заключение
Проведённое исследование показало, что локальные языковые модели могут эффективно решать прикладные задачи в закрытой ИТ-инфраструктуре оборонного вуза. Без доступа к интернету успешно реализованы функции генерации тестов и реферирования учебных текстов. Модели LLaMA-13B, Mistral-7B, KazLLM-8B и DeepSeek-1.5B продемонстрировали разную степень эффективности, но каждая оказалась полезной. Более крупные модели (от 7 млрд. параметров) обеспечили высокое качество ответов, близкое к экспертному, тогда как компактные (1–2 млрд. параметров) отличались скоростью и пригодны для простых задач.
Локальные ИИ особенно актуальны для военных вузов: они позволяют внедрять современные методы обучения без риска для информационной безопасности. Использование моделей в аудиториях через закрытую сеть улучшает вовлечённость обучающихся, развивает цифровые навыки и снижает нагрузку на преподавателей. Отдельное значение имеет поддержка государственного языка, особенно в модели KazLLM, что способствует реализации принципов многоязычного образования.
Дальнейшее развитие возможно по нескольким направлениям:
- во-первых, планируется расширить спектр задач (объяснение решений, перевод, анализ текста);
- во-вторых, ввести алгоритмы контроля качества ответов (например, проверку фактов), чтобы повысить надёжность ИИ;
- в-третьих, рассматривается дообучение моделей (LLaMA или KazLLM) на данных профильных учебных материалов для повышения тематической точности.
Таким образом, локальные ИИ-модели – перспективный инструмент для военного образования. При правильной интеграции они позволяют сделать учебный процесс более адаптивным, безопасным и технологичным, отвечая требованиям суверенитета данных и стратегической независимости.
Список литературы:
- В Казахстане представлена большая языковая модель KAZ-LLM. Почему это важно? [Электронный ресурс]. – Режим доступа: https://profit.kz/news/68583/V-Kazahstane-predstavlena-bolshaya-yazikovaya-model-KAZ-LLM-Pochemu-eto-vazhno/ (дата обращения: 14.05.2025).
- Вольфенштейн К. Локальные модели искусственного интеллекта на рабочем столе против облачных «онлайн» решений: защита, адаптивность и управление на переднем плане [Электронный ресурс]. – Режим доступа: https://xpert.digital/ru/местные-модели-и-решения-искусственного-интеллекта/ (дата обращения: 16.04.2025).
- Использование внешних AI-моделей в Loginom [Электронный ресурс]. – Режим доступа: https://loginom.ru/blog/ai-models-loginom (дата обращения: 21.05.2025).
- Приказ Министра обороны Республики Казахстан от 15 марта 2023 года № 05 «Об утверждении Инструкции по защите государственных секретов в Вооруженных Силах Республики Казахстан». – г. Астана, 2023. – 35 с. [Электронный ресурс]. – Режим доступа: https://online.zakon.kz/Document/?doc_id=33300596 (дата обращения: 21.05.2025).
дипломов
Оставить комментарий