Статья опубликована в рамках: CXLVI Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 06 февраля 2025 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
МЕТОДЫ РАЗВЕРТЫВАНИЯ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ ДЛЯ РАБОТЫ С ТЕХНИЧЕСКОЙ ДОКУМЕНТАЦИЕЙ
METHODS FOR DEPLOYING LARGE LANGUAGE MODELS FOR WORKING WITH TECHNICAL DOCUMENTATION
Vitalii Kalinin
student, Department of Geology and Oil and Gas business, Sakhalin state University,
Russia, Yuzhno-Sakhalinsk
Tatyana Ivanova
student, Department of Geology and Oil and Gas business, Sakhalin state University,
Russia, Yuzhno-Sakhalinsk
Artem Postnikov
student, Department of Geology and Oil and Gas business, Sakhalin state University,
Russia, Yuzhno-Sakhalinsk
Yana Popova
scientific supervisor, candidate of Sciences in Geography, associate professor, Sakhalin State University,
Russia, Yuzhno-Sakhalinsk
АННОТАЦИЯ
В статье рассматриваются современные методы развертывания больших языковых моделей в условиях ограниченной аппаратной инфраструктуры, характерной для предприятий нефтегазовой отрасли. Проведено исследование эффективности использования LLM Llama 3.2-vision в различных средах: Docker-контейнеры, виртуальные машины (VMWare Workstation) и bare-metal. На основе эмпирических и сравнительных методов выявлены преимущества и недостатки каждого подхода. Основное внимание уделено вопросам производительности, информационной безопасности и рационального использования ресурсов.
ABSTRACT
This article examines modern methods for deploying large language models (LLMs) in environments with limited computational infrastructure, typical for enterprises in the oil and gas industry. A study was conducted on the efficiency of using the LLM Llama 3.2-vision in different environments: Docker containers, virtual machines (VMWare Workstation), and bare-metal. Empirical and comparative methods were used to identify the advantages and disadvantages of each approach. The primary focus was on performance, data security, and resource optimization.
Ключевые слова: большие языковые модели, контейнеризация, виртуализация, обработка данных, вычислительная инфраструктура.
Keywords: large language models, containerization, virtualization, data processing, computing infrastructure.
Проблема исследования: Большие языковые модели требуют значительных вычислительных ресурсов, что затрудняет их эффективное использование в условиях ограниченной аппаратной инфраструктуры, характерной для предприятий нефтегазовой отрасли. Особые трудности возникают при обработке сложных технических документов, где требуется высокая точность и скорость работы. Задача усугубляется необходимостью интеграции LLM в локальные серверы или устройства, чтобы соблюдать требования безопасности данных и избегать использования облачных сервисов.
Объект исследования – большие языковые модели.
Предмет исследования – методы развертывания больших языковых моделей.
Цель исследования - определить наиболее эффективный метод развертывания больших языковых моделей, который будет обеспечивать наибольшее быстродействие.
Для достижения цели, решались следующие задачи:
- провести эксперимент, используя контейнеризацию, виртуализацию и нативный запуск больших языковых моделей;
- проанализировать и сравнить, согласно метрикам производительности, эффективность развертывания больших языковых моделей в каждом из случаев.
Гипотеза исследования заключалась в том, что эффективность функционирования LLM напрямую зависит от степени интеграции среды развертывания с аппаратными ресурсами.
Для проверки гипотезы использовались следующие методы:
- эмпирические методы: экспериментальное развертывание Llama 3.2-vision в различных средах и наблюдение за результатами, согласно метрикам производительности;
- сравнительный метод: анализ производительности на основе метрик CPU/GPU загрузки, потребления памяти, скорости ввода-вывода, сетевой пропускной способности.
При проведении эксперимента было использовано следующие оборудование:
- Docker v4.35.1 контейнер с применением WSL 2.0 (для взаимодействия с дискретной графикой) (Ollama + Open-webUI) - NVIDIA RTX 4070 / Intel Core i5-13400f / 32 GB RAM / PCI-E 4.0 SSD;
- VMware Workstation 17 Pro v17.5.1 (c ОС Ubuntu Server 24.04.1 LTS – Ollama + Open-webUI) - NVIDIA RTX 4070 / Intel Core i5-13400f / 32 GB RAM / PCI-E 4.0 SSD;
- Bare-metal Desktop PC - NVIDIA RTX 4070 / Intel Core i5-13400f / 32 GB RAM / PCI-E 4.0 SSD – Ollama + Open-webUI.
При проведении данного исследования были использованы следующие метрики производительности:
- время отклика (latency) - измеряется как среднее время ответа модели на один запрос (измерялось для cold start и hot start);
- использование аппаратных ресурсов (CPU/GPU utilization: Средняя и максимальная загрузка процессоров и потребление памяти (RAM/VRAM).
В результате наблюдения за проведением эксперимента с анализом технической документации компании Х, были получены следующие значения метрик производительности для Docker контейнеров, VMWare виртуальных машин и bare-metal (таблицы 1 – 6 соответственно).
Таблица 1.
Docker deployment latency
Prompt tokens/s, tokens |
Response tokens/s, tokens |
|
Cold Start |
2065,31 |
19,82 |
Hot Start |
2240,57 |
19,31 |
Таблица 2.
Docker deployment utilization
CPU, % |
GPU, % |
RAM, % |
RAM, GB |
|
Cold Start |
50,9 |
89,0 |
36,2 |
11,58 |
Hot Start |
28,3 |
87,0 |
35,8 |
11,47 |
Таблица 3.
VMWare Virtual Machine latency
Prompt tokens/s, tokens |
Response tokens/s, tokens |
|
Cold Start |
1781,09 |
7,41 |
Hot Start |
1832,40 |
11,32 |
Таблица 4.
VMWare deployment utilization
CPU, % |
GPU, % |
RAM, % |
RAM, GB |
|
Cold Start |
98,1 |
83,0 |
42,5 |
13,6 |
Hot Start |
96,2 |
84,0 |
42,8 |
13,7 |
Таблица 5.
Bare-metal latency
Prompt tokens/s, tokens |
Response tokens/s, tokens |
|
Cold Start |
3461,51 |
29,81 |
Hot Start |
4773,80 |
32,44 |
Таблица 6.
Bare-metal utilization
CPU, % |
GPU, % |
RAM, % |
RAM, GB |
|
Cold Start |
51,2 |
98,0 |
35,0 |
11,2 |
Hot Start |
53,3 |
99,0 |
36,3 |
11,6 |
Как видно из данных в таблицах 1–6, наибольшая скорость генерации ответов, обработки запросов и наименьшая загрузка аппаратных ресурсов наблюдается при bare-metal развертывании, однако такой способ не может обеспечить достаточной отказоустойчивости, и поэтому в рамках данного исследования лидирует вариант контейнеризации большой языковой модели Llama 3.2.-vision.
В результате проведенного исследования, было выявлено, что имеется строгая прямая взаимосвязь между степенью интегрированности среды развертывания с аппаратными ресурсами.
При сравнительном анализе данных, полученных в результате наблюдения за экспериментом по запуску большой языковой модели Llama3.2-vision, было выявлено, что наибольшая эффективность и скорость работы достигается при bare-metal развертывании, однако, поскольку этот способ не является рациональным с точек зрения рационального использования ресурсов, информационной безопасности и обеспечения отказоустойчивости, наиболее предпочтительным вариант, в рамках данного расследования являлся Docker – контейнер.
Список литературы:
- Docker Docs : сайт. – URL: https://docs.docker.com/ (дата обращения: 25.12.2024)
- Documentation | Llama : сайт. – URL: https://www.llama.com/docs/ (дата обращения: 25.12.2024)
- Gotsko, L. G. Large language models (llm) benefits and risks for ethical compliance / L. G. Gotsko // День славянской письменности и культуры. – Красноярск : Красноярский государственный педагогический университет имени В.П. Астафьева, 2024. – С. 33-36.
- Ollama is now available as an official Docker image - Ollama Blog : сайт. – URL: https://ollama.com/blog/ollama-is-now-available-as-an-official-docker-image (дата обращения: 25.12.2024)
- Ollama Readme: сайт. – URL: https://github.com/ollama/ollama/blob/main/README.md (дата обращения: 25.12.2024)
- VMware Learning: сайт. – URL: https://www.broadcom.com/support/education/vmware (дата обращения: 25.12.2024)
дипломов
Оставить комментарий