Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: CXLVI Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 06 февраля 2025 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Калинин В.К., Постников А.К., Иванова Т.М. МЕТОДЫ РАЗВЕРТЫВАНИЯ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ ДЛЯ РАБОТЫ С ТЕХНИЧЕСКОЙ ДОКУМЕНТАЦИЕЙ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. CXLVI междунар. студ. науч.-практ. конф. № 2(144). URL: https://sibac.info/archive/technic/2(144).pdf (дата обращения: 11.02.2025)
Проголосовать за статью
Идет голосование
Эта статья набрала 0 голосов (обновление каждые 15 минут)
Дипломы участников
У данной статьи нет
дипломов

МЕТОДЫ РАЗВЕРТЫВАНИЯ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ ДЛЯ РАБОТЫ С ТЕХНИЧЕСКОЙ ДОКУМЕНТАЦИЕЙ

Калинин Виталий Константинович

студент, кафедра геологии и нефтегазового дела, Сахалинский государственный университет,

РФ, г. Южно-Сахалинск

Постников Артем Климентьевич

студент, кафедра геологии и нефтегазового дела, Сахалинский государственный университет,

РФ, г. Южно-Сахалинск

Иванова Татьяна Максимовна

студент, кафедра геологии и нефтегазового дела, Сахалинский государственный университет,

РФ, г. Южно-Сахалинск

Попова Яна Павловна

научный руководитель,

канд. геогр. наук, доц., Сахалинский государственный университет,

РФ, г. Южно-Сахалинск

METHODS FOR DEPLOYING LARGE LANGUAGE MODELS FOR WORKING WITH TECHNICAL DOCUMENTATION

 

Vitalii Kalinin

student, Department of Geology and Oil and Gas business, Sakhalin state University,

Russia, Yuzhno-Sakhalinsk

Tatyana Ivanova

student, Department of Geology and Oil and Gas business, Sakhalin state University,

Russia, Yuzhno-Sakhalinsk

Artem Postnikov

student, Department of Geology and Oil and Gas business, Sakhalin state University,

Russia, Yuzhno-Sakhalinsk

Yana Popova

scientific supervisor, candidate of Sciences in Geography, associate professor, Sakhalin State University,

Russia, Yuzhno-Sakhalinsk

 

АННОТАЦИЯ

В статье рассматриваются современные методы развертывания больших языковых моделей в условиях ограниченной аппаратной инфраструктуры, характерной для предприятий нефтегазовой отрасли. Проведено исследование эффективности использования LLM Llama 3.2-vision в различных средах: Docker-контейнеры, виртуальные машины (VMWare Workstation) и bare-metal. На основе эмпирических и сравнительных методов выявлены преимущества и недостатки каждого подхода. Основное внимание уделено вопросам производительности, информационной безопасности и рационального использования ресурсов.

ABSTRACT

This article examines modern methods for deploying large language models (LLMs) in environments with limited computational infrastructure, typical for enterprises in the oil and gas industry. A study was conducted on the efficiency of using the LLM Llama 3.2-vision in different environments: Docker containers, virtual machines (VMWare Workstation), and bare-metal. Empirical and comparative methods were used to identify the advantages and disadvantages of each approach. The primary focus was on performance, data security, and resource optimization.

 

Ключевые слова: большие языковые модели, контейнеризация, виртуализация, обработка данных, вычислительная инфраструктура.

Keywords: large language models, containerization, virtualization, data processing, computing infrastructure.

 

Проблема исследования: Большие языковые модели требуют значительных вычислительных ресурсов, что затрудняет их эффективное использование в условиях ограниченной аппаратной инфраструктуры, характерной для предприятий нефтегазовой отрасли. Особые трудности возникают при обработке сложных технических документов, где требуется высокая точность и скорость работы. Задача усугубляется необходимостью интеграции LLM в локальные серверы или устройства, чтобы соблюдать требования безопасности данных и избегать использования облачных сервисов.

Объект исследования – большие языковые модели.

Предмет исследования – методы развертывания больших языковых моделей.

Цель исследования - определить наиболее эффективный метод развертывания больших языковых моделей, который будет обеспечивать наибольшее быстродействие.

Для достижения цели, решались следующие задачи:

  1. провести эксперимент, используя контейнеризацию, виртуализацию и нативный запуск больших языковых моделей;
  2. проанализировать и сравнить, согласно метрикам производительности, эффективность развертывания больших языковых моделей в каждом из случаев.

Гипотеза исследования заключалась в том, что эффективность функционирования LLM напрямую зависит от степени интеграции среды развертывания с аппаратными ресурсами.

Для проверки гипотезы использовались следующие методы:

  1. эмпирические методы: экспериментальное развертывание Llama 3.2-vision в различных средах и наблюдение за результатами, согласно метрикам производительности;
  2. сравнительный метод: анализ производительности на основе метрик CPU/GPU загрузки, потребления памяти, скорости ввода-вывода, сетевой пропускной способности.

При проведении эксперимента было использовано следующие оборудование:

  1. Docker v4.35.1 контейнер с применением WSL 2.0 (для взаимодействия с дискретной графикой) (Ollama + Open-webUI) - NVIDIA RTX 4070 / Intel Core i5-13400f / 32 GB RAM / PCI-E 4.0 SSD;
  2. VMware Workstation 17 Pro v17.5.1 (c ОС Ubuntu Server 24.04.1 LTS – Ollama + Open-webUI) - NVIDIA RTX 4070 / Intel Core i5-13400f / 32 GB RAM / PCI-E 4.0 SSD;
  3. Bare-metal Desktop PC - NVIDIA RTX 4070 / Intel Core i5-13400f / 32 GB RAM / PCI-E 4.0 SSD – Ollama + Open-webUI.

При проведении данного исследования были использованы следующие метрики производительности:

  1. время отклика (latency) - измеряется как среднее время ответа модели на один запрос (измерялось для cold start и hot start);
  2. использование аппаратных ресурсов (CPU/GPU utilization: Средняя и максимальная загрузка процессоров и потребление памяти (RAM/VRAM).

В результате наблюдения за проведением эксперимента с анализом технической документации компании Х, были получены следующие значения метрик производительности для Docker контейнеров, VMWare виртуальных машин и bare-metal (таблицы 1 – 6 соответственно).

Таблица 1.

Docker deployment latency

 

Prompt tokens/s, tokens

Response tokens/s, tokens

Cold Start

2065,31

19,82

Hot Start

2240,57

19,31

 

Таблица 2.

Docker deployment utilization

 

CPU, %

GPU, %

RAM, %

RAM, GB

Cold Start

50,9

89,0

36,2

11,58

Hot Start

28,3

87,0

35,8

11,47

 

Таблица 3.

VMWare Virtual Machine latency

 

Prompt tokens/s, tokens

Response tokens/s, tokens

Cold Start

1781,09

7,41

Hot Start

1832,40

11,32

 

Таблица 4.

VMWare deployment utilization

 

CPU, %

GPU, %

RAM, %

RAM, GB

Cold Start

98,1

83,0

42,5

13,6

Hot Start

96,2

84,0

42,8

13,7

 

Таблица 5.

Bare-metal latency

 

Prompt tokens/s, tokens

Response tokens/s, tokens

Cold Start

3461,51

29,81

Hot Start

4773,80

32,44

 

Таблица 6.

Bare-metal utilization

 

CPU, %

GPU, %

RAM, %

RAM, GB

Cold Start

51,2

98,0

35,0

11,2

Hot Start

53,3

99,0

36,3

11,6

 

Как видно из данных в таблицах 1–6, наибольшая скорость генерации ответов, обработки запросов и наименьшая загрузка аппаратных ресурсов наблюдается при bare-metal развертывании, однако такой способ не может обеспечить достаточной отказоустойчивости, и поэтому в рамках данного исследования лидирует вариант контейнеризации большой языковой модели Llama 3.2.-vision.

В результате проведенного исследования, было выявлено, что имеется строгая прямая взаимосвязь между степенью интегрированности среды развертывания с аппаратными ресурсами.

При сравнительном анализе данных, полученных в результате наблюдения за экспериментом по запуску большой языковой модели Llama3.2-vision, было выявлено, что наибольшая эффективность и скорость работы достигается при bare-metal развертывании, однако, поскольку этот способ не является рациональным с точек зрения рационального использования ресурсов, информационной безопасности и обеспечения отказоустойчивости, наиболее предпочтительным вариант, в рамках данного расследования являлся Docker – контейнер.

 

Список литературы:

  1. Docker Docs : сайт. – URL: https://docs.docker.com/ (дата обращения: 25.12.2024)
  2. Documentation | Llama : сайт. – URL: https://www.llama.com/docs/ (дата обращения: 25.12.2024)
  3. Gotsko, L. G. Large language models (llm) benefits and risks for ethical compliance / L. G. Gotsko // День славянской письменности и культуры. – Красноярск : Красноярский государственный педагогический университет имени В.П. Астафьева, 2024. – С. 33-36.
  4. Ollama is now available as an official Docker image - Ollama Blog : сайт. – URL: https://ollama.com/blog/ollama-is-now-available-as-an-official-docker-image (дата обращения: 25.12.2024)
  5. Ollama Readme: сайт. – URL: https://github.com/ollama/ollama/blob/main/README.md (дата обращения: 25.12.2024)
  6. VMware Learning: сайт. – URL: https://www.broadcom.com/support/education/vmware (дата обращения: 25.12.2024)
Проголосовать за статью
Идет голосование
Эта статья набрала 0 голосов (обновление каждые 15 минут)
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий