Статья опубликована в рамках: CXLVI Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 06 февраля 2025 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Калинин В.К., Постников А.К., Иванова Т.М. МЕТОДЫ РАЗВЕРТЫВАНИЯ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ ДЛЯ РАБОТЫ С ТЕХНИЧЕСКОЙ ДОКУМЕНТАЦИЕЙ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. CXLVI междунар. студ. науч.-практ. конф. № 2(144). URL: https://sibac.info/archive/technic/2(144).pdf (дата обращения: 10.11.2025)

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

МЕТОДЫ РАЗВЕРТЫВАНИЯ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ ДЛЯ РАБОТЫ С ТЕХНИЧЕСКОЙ ДОКУМЕНТАЦИЕЙ

Калинин Виталий Константинович

студент, кафедра геологии и нефтегазового дела, Сахалинский государственный университет,

РФ, г. Южно-Сахалинск

Постников Артём Климентьевич

студент, кафедра геологии и нефтегазового дела, Сахалинский государственный университет,

РФ, г. Южно-Сахалинск

Иванова Татьяна Максимовна

студент, кафедра геологии и нефтегазового дела, Сахалинский государственный университет,

РФ, г. Южно-Сахалинск

Попова Яна Павловна

научный руководитель,

канд. геогр. наук, доц., Сахалинский государственный университет,

РФ, г. Южно-Сахалинск

METHODS FOR DEPLOYING LARGE LANGUAGE MODELS FOR WORKING WITH TECHNICAL DOCUMENTATION

Vitalii Kalinin

student, Department of Geology and Oil and Gas business, Sakhalin state University,

Russia, Yuzhno-Sakhalinsk

Tatyana Ivanova

student, Department of Geology and Oil and Gas business, Sakhalin state University,

Russia, Yuzhno-Sakhalinsk

Artem Postnikov

student, Department of Geology and Oil and Gas business, Sakhalin state University,

Russia, Yuzhno-Sakhalinsk

Yana Popova

scientific supervisor, candidate of Sciences in Geography, associate professor, Sakhalin State University,

Russia, Yuzhno-Sakhalinsk

АННОТАЦИЯ

В статье рассматриваются современные методы развертывания больших языковых моделей в условиях ограниченной аппаратной инфраструктуры, характерной для предприятий нефтегазовой отрасли. Проведено исследование эффективности использования LLM Llama 3.2-vision в различных средах: Docker-контейнеры, виртуальные машины (VMWare Workstation) и bare-metal. На основе эмпирических и сравнительных методов выявлены преимущества и недостатки каждого подхода. Основное внимание уделено вопросам производительности, информационной безопасности и рационального использования ресурсов.

ABSTRACT

This article examines modern methods for deploying large language models (LLMs) in environments with limited computational infrastructure, typical for enterprises in the oil and gas industry. A study was conducted on the efficiency of using the LLM Llama 3.2-vision in different environments: Docker containers, virtual machines (VMWare Workstation), and bare-metal. Empirical and comparative methods were used to identify the advantages and disadvantages of each approach. The primary focus was on performance, data security, and resource optimization.

Ключевые слова: большие языковые модели, контейнеризация, виртуализация, обработка данных, вычислительная инфраструктура.

Keywords: large language models, containerization, virtualization, data processing, computing infrastructure.

Проблема исследования: Большие языковые модели требуют значительных вычислительных ресурсов, что затрудняет их эффективное использование в условиях ограниченной аппаратной инфраструктуры, характерной для предприятий нефтегазовой отрасли. Особые трудности возникают при обработке сложных технических документов, где требуется высокая точность и скорость работы. Задача усугубляется необходимостью интеграции LLM в локальные серверы или устройства, чтобы соблюдать требования безопасности данных и избегать использования облачных сервисов.

Объект исследования – большие языковые модели.

Предмет исследования – методы развертывания больших языковых моделей.

Цель исследования - определить наиболее эффективный метод развертывания больших языковых моделей, который будет обеспечивать наибольшее быстродействие.

Для достижения цели, решались следующие задачи:

провести эксперимент, используя контейнеризацию, виртуализацию и нативный запуск больших языковых моделей;
проанализировать и сравнить, согласно метрикам производительности, эффективность развертывания больших языковых моделей в каждом из случаев.

Гипотеза исследования заключалась в том, что эффективность функционирования LLM напрямую зависит от степени интеграции среды развертывания с аппаратными ресурсами.

Для проверки гипотезы использовались следующие методы:

эмпирические методы: экспериментальное развертывание Llama 3.2-vision в различных средах и наблюдение за результатами, согласно метрикам производительности;
сравнительный метод: анализ производительности на основе метрик CPU/GPU загрузки, потребления памяти, скорости ввода-вывода, сетевой пропускной способности.

При проведении эксперимента было использовано следующие оборудование:

Docker v4.35.1 контейнер с применением WSL 2.0 (для взаимодействия с дискретной графикой) (Ollama + Open-webUI) - NVIDIA RTX 4070 / Intel Core i5-13400f / 32 GB RAM / PCI-E 4.0 SSD;
VMware Workstation 17 Pro v17.5.1 (c ОС Ubuntu Server 24.04.1 LTS – Ollama + Open-webUI) - NVIDIA RTX 4070 / Intel Core i5-13400f / 32 GB RAM / PCI-E 4.0 SSD;
Bare-metal Desktop PC - NVIDIA RTX 4070 / Intel Core i5-13400f / 32 GB RAM / PCI-E 4.0 SSD – Ollama + Open-webUI.

При проведении данного исследования были использованы следующие метрики производительности:

время отклика (latency) - измеряется как среднее время ответа модели на один запрос (измерялось для cold start и hot start);
использование аппаратных ресурсов (CPU/GPU utilization: Средняя и максимальная загрузка процессоров и потребление памяти (RAM/VRAM).

В результате наблюдения за проведением эксперимента с анализом технической документации компании Х, были получены следующие значения метрик производительности для Docker контейнеров, VMWare виртуальных машин и bare-metal (таблицы 1 – 6 соответственно).

Таблица 1.

Docker deployment latency

	Prompt tokens/s, tokens	Response tokens/s, tokens
Cold Start	2065,31	19,82
Hot Start	2240,57	19,31

Таблица 2.

Docker deployment utilization

	CPU, %	GPU, %	RAM, %	RAM, GB
Cold Start	50,9	89,0	36,2	11,58
Hot Start	28,3	87,0	35,8	11,47

Таблица 3.

VMWare Virtual Machine latency

	Prompt tokens/s, tokens	Response tokens/s, tokens
Cold Start	1781,09	7,41
Hot Start	1832,40	11,32

Таблица 4.

VMWare deployment utilization

	CPU, %	GPU, %	RAM, %	RAM, GB
Cold Start	98,1	83,0	42,5	13,6
Hot Start	96,2	84,0	42,8	13,7

Таблица 5.

Bare-metal latency

	Prompt tokens/s, tokens	Response tokens/s, tokens
Cold Start	3461,51	29,81
Hot Start	4773,80	32,44

Таблица 6.

Bare-metal utilization

	CPU, %	GPU, %	RAM, %	RAM, GB
Cold Start	51,2	98,0	35,0	11,2
Hot Start	53,3	99,0	36,3	11,6

Как видно из данных в таблицах 1–6, наибольшая скорость генерации ответов, обработки запросов и наименьшая загрузка аппаратных ресурсов наблюдается при bare-metal развертывании, однако такой способ не может обеспечить достаточной отказоустойчивости, и поэтому в рамках данного исследования лидирует вариант контейнеризации большой языковой модели Llama 3.2.-vision.

В результате проведенного исследования, было выявлено, что имеется строгая прямая взаимосвязь между степенью интегрированности среды развертывания с аппаратными ресурсами.

При сравнительном анализе данных, полученных в результате наблюдения за экспериментом по запуску большой языковой модели Llama3.2-vision, было выявлено, что наибольшая эффективность и скорость работы достигается при bare-metal развертывании, однако, поскольку этот способ не является рациональным с точек зрения рационального использования ресурсов, информационной безопасности и обеспечения отказоустойчивости, наиболее предпочтительным вариант, в рамках данного расследования являлся Docker – контейнер.

Список литературы:

Docker Docs : сайт. – URL: https://docs.docker.com/ (дата обращения: 25.12.2024)
Documentation | Llama : сайт. – URL: https://www.llama.com/docs/ (дата обращения: 25.12.2024)
Gotsko, L. G. Large language models (llm) benefits and risks for ethical compliance / L. G. Gotsko // День славянской письменности и культуры. – Красноярск : Красноярский государственный педагогический университет имени В.П. Астафьева, 2024. – С. 33-36.
Ollama is now available as an official Docker image - Ollama Blog : сайт. – URL: https://ollama.com/blog/ollama-is-now-available-as-an-official-docker-image (дата обращения: 25.12.2024)
Ollama Readme: сайт. – URL: https://github.com/ollama/ollama/blob/main/README.md (дата обращения: 25.12.2024)
VMware Learning: сайт. – URL: https://www.broadcom.com/support/education/vmware (дата обращения: 25.12.2024)

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

МЕТОДЫ РАЗВЕРТЫВАНИЯ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ ДЛЯ РАБОТЫ С ТЕХНИЧЕСКОЙ ДОКУМЕНТАЦИЕЙ

Оставить комментарий