Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: XIX Международной научно-практической конференции «Естественные и математические науки в современном мире» (Россия, г. Новосибирск, 04 июня 2014 г.)

Наука: Информационные технологии

Секция: Вычислительные машины, комплексы и компьютерные сети

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Яблонский С.В., Конева Н.Е., Конев Ф.Б. РАЗВИТИЕ ВЫСОКОПРОИЗВОДИТЕЛЬНЫХ СИСТЕМ ОБРАБОТКИ ИНФОРМАЦИИ // Естественные и математические науки в современном мире: сб. ст. по матер. XIX междунар. науч.-практ. конф. № 6(18). – Новосибирск: СибАК, 2014.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

 

РАЗВИТИЕ  ВЫСОКОПРОИЗВОДИТЕЛЬНЫХ  СИСТЕМ  ОБРАБОТКИ  ИНФОРМАЦИИ

Яблонский  Сергей  Валерьевич

с.н.с.,  канд.  техн.  наук,  ученый  секретарь  ФГУП  «НИИ  «Квант»,  РФ,  г.  Москва

E-mailyablonski.s@mail.ru

Конева  Наталья  Ефимовна

доцент,  канд.  техн.  наук,  профессор  кафедры  «Автоматика  и  процессы  управления»  Московского  государственного  машиностроительного  университета  (МАМИ),  РФ,  г.  Москва

E-mailn.konevf21@mail.ru

Конев  Федор  Борисович

профессор,  канд.физ.-мат.  наук,  профессор  кафедры  «Автоматика  и  процессы  управления»  Московского  государственного  машиностроительного  университета  (МАМИ),  РФ,  г.  Москва

E-mail: 

 

OF  HIGH-PERFORMANCE  SYSTEMS  OF  INFORMATION  PROCESSING

Sergei  Jablonski

cand.  tech.  sci.,  scientific  secretary  of  Federal  State  Unitary  Enterprise  Scientific  Research  Institute  “Kvant”,  Russia,  Moscow

Natali  Koneva

associate  professor,  Cand.  Tech.  Sci.,  professor  of  "Automatic  Equipment  and  Management  Processes"  chair  of  the  Moscow  state  machine-building  university  (MAMI),  Russia,  Moscow

Fedor  Konev

professor,  Cand.Phis.-Math.Sci.,  professor  of  "Automatic  Equipment  and  Management  Processes"  chair  of  the  Moscow  state  machine-building  university  (MAMI),  Russia,  Moscow

 

АННОТАЦИЯ

В  статье  рассматриваются  особенности  вычислительных  кластеров,  методы  определения  эффективности  их  использования  при  решении  реальных  задач,  способы  повышения  эффективности  вычислительных  кластеров  за  счет  использования  специализированных  ускорителей  и  программируемой  логики.

ABSTRACT

In  article  features  of  computing  clusters,  methods  of  determination  of  efficiency  of  their  use  are  considered  at  the  solution  of  real  tasks,  ways  of  increase  of  efficiency  of  computing  clusters  due  to  use  of  specialized  accelerators  and  programmable  logic.

 

Ключевые  слова:  суперкомпьютеры;  кластеры;  тесты;  графические  ускорители;  программируемые  интегральные  схемы

Keywords:  supercomputers;  clusters;  tests;  graphic  accelerators;  programmable  integrated  schemes

 

Высокопроизводительная  вычислительная  система  или  суперкомпьютер  —  это  вычислительная  система,  производительность  (или  вычислительное  быстродействие)  которой  во  много  раз  выше,  чем  у  массовых  компьютеров,  за  счет  параллельной  (одновременной)  обработки  данных.  Параллельная  обработка  данных  подразумевает  одновременную  работу  ряда  независимых  устройств  (процессоров)  [1,  2,  3].

В  настоящее  время  основой  построения  большинства  современных  суперкомпьютеров  является  кластерная  архитектура.  Кластерные  архитектуры  фактически  господствуют  в  суперкомпьютерной  отрасли  и  определяют  ее  развитие  в  течение  последних  10—15  лет.

Кластерная  архитектура  представляет  собой  способ  построения  суперкомпьютеров  путем  объединения  серийных  процессорных  модулей  с  помощью  высокоскоростных  локальных  сетей,  функционирующих  под  управлением  свободно  распространяемого  программного  обеспечения.  Кластерные  архитектуры  обладают  следующими  достоинствами  [3,  5]: 

·     относительно  невысокая  стоимость  за  счет  использования  массовых  комплектующих;

·     удобное  масштабирование  в  широком  диапазоне  производительности;

·     сжатые  сроки  создания  и  эксплуатационного  освоения.

К  традиционным  недостаткам  кластеров  относят  ограничения  по  эффективности  коммуникационных  сред,  что  связано  с  относительно  низкой  скоростью  процедур  межпроцессорного  обмена,  ограниченной  пропускной  способностью  сети  передачи  данных,  необходимостью  синхронизации  множества  взаимосвязанных  последовательных  процессов,  каждый  из  которых  выполняется  на  отдельном  процессоре,  и  т.  д.

Вычислительный  кластер  строится  на  основе  совокупности  процессорных  модулей,  имеющих  некоторое  аппаратное  быстродействие,  определяемое  его  тактовой  частотой.  Наиболее  популярные  при  построении  современных  кластеров  процессорные  модули  на  основе  Intel  Pentium  и  AMD  Opteron  [6]  выполняют  за  один  такт  две  команды.  Для  таких  модулей  можно  перемножить  их  количество  в  системе  на  удвоенную  частоту  и  получить  таким  образом  пиковое  вычислительное  быстродействие.  Пиковое  быстродействие  в  реальных  условиях  не  достигается  никогда.

Определение  эффективной  производительности  суперкомпьютера  является  самостоятельной  достаточно  сложной  проблемой.  Пользователя  интересует  та  производительность,  которая  будет  достигнута  при  решении  его  конкретных  задач,  при  существенном  различии  задач  пользователей.

Существует  большое  разнообразие  тестов,  ориентированных  на  оценку  производительности  суперкомпьютеров.  Совокупность  таких  тестов  позволяет  достаточно  адекватно  оценить  характеристики  суперкомпьютера  в  различных  условиях  его  применения. 

Наибольшее  распространение  получил  тест  Linpak  [2,  3],  который  основан  на  решении  системы  линейных  алгебраических  уравнений  методом  Гаусса.  Этот  тест  фактически  является  стандартным  при  оценке  производительности  суперкомпьютеров  с  кластерной  архитектурой.  Обычно  его  очень  тщательно  оптимизируют  под  конкретную  вычислительную  установку.  Поэтому  оценка  производительности  суперкомпьютеров,  полученная  на  данном  тесте,  близка  к  пиковой. 

Для  оценки  производительности  в  условиях,  более  или  менее  близких  к  реальным,  разработаны  и  другие  тесты.  Широко  используются  тесты  NASA  [6],  которые  представляют  собой  фрагменты  реальных  задач  математической  физики,  реализованные  на  основе  современных  численных  методов.  Производительность,  полученная  с  помощью  этих  тестов,  значительно  отличается  от  пиковой  в  худшую  сторону.  Для  различных  численных  методов  значение  производительности,  как  правило,  не  превышает  3  %  от  пиковой,  а  значение  10  %  от  пиковой  является  предельным.

Существенное  влияние  на  производительность  вычислительного  кластера  оказывает  эффективность  коммуникационной  среды,  которая  с  учетом  некоторых  упрощений  характеризуется  двумя  величинами:

·     пропускная  способность  канала;

·     латентность,  или  время  запуска  операции  обмена.

Под  латентностью  часто  понимается  время  передачи  сообщения  нулевой  длительности.  Для  различных  типов  сетей  и  в  различных  условиях  время  запуска  операции  обмена  и  время  передачи  сообщения  нулевой  длительности  могут  незначительно  отличаться.  Латентность  желательно  иметь  как  можно  меньше.  Очевидно,  что  при  увеличении  длины  сообщений,  которыми  осуществляется  обмен,  влияние  латентности  снижается.

Пропускная  способность  канала  определяет  эффективность  коммуникационной  среды  при  обмене  сообщениями  любой  длины,  как  короткими,  так  и  длинными.

На  эффективность  коммуникационной  среды  оказывают  влияние  и  другие  факторы.  Например,  влияние  друг  на  друга  одновременно  происходящих  обменов,  а  также  потребности  в  вычислительной  мощности,  которые  в  итоге  приводят  к  замедлению  счета  на  фоне  выполнения  обменных  операций.

Характеристики  некоторых  коммуникационных  сред  приведены  в  табл.  1.

Таблица  1.

Технология

Пропускная  способность

Латентность

Myrinet

  1. Гбит/с

3-6  мкс

  1. *)
  2. Гбит/с
 

2,5  мкс

  1. Express
  2. Гбит/с
  3. мкс
  4. Ethernet
  5. Гбит/с
   
   

20-70  мкс

*)  Для  реализации  SDR.  Существуют  реализации  DDR  и  QDR  соответственно  с  удвоенной  и  учетверенной  частотой

 

Существуют  и  другие  сетевые  технологии,  не  упомянутые  в  табл.  1.  Отличие  их  друг  от  друга  заключается,  помимо  указанных  характеристик,  в  стоимости,  надежности,  влиянии  обмена  данными  на  загрузку  процессора.

Наиболее  часто  используемой  коммуникационной  средой  объединения  процессорных  модулей  при  построении  кластеров  является  сеть  Infiniband,  которая  обладает  хорошей  латентностью  и  способностью  к  масштабированию  пропускной  способности  за  счет  использования  кабелей  с  разным  числом  линий  (от  1  до  32-х)  и  различных  реализаций  (SDR,  DDR  и  QDR).

Конкуренцию  технологии  Infiniband  составляет  современный  последовательный  интерфейс  PCI  Express,  разработанный  компанией  Intel  [6]  как  развитие  шинных  интерфейсов  PCI/PCI-X.  До  недавнего  времени  считалось,  что  технология  PCI  Express  —  это  технология  коммуникаций  внутри  материнской  платы,  а  для  объединения  материнских  плат  между  собой  предназначена  среда  Infiniband.  PCI  Express  является  сетью,  масштабируемой  по  числу  линий  в  канале.  Практически  все  современные  производители  материнских  плат  переходят  на  технологию  PCI  Express,  что  позволяет  строить  кластеры  на  основе  стандартных  решений.

В  кластерных  архитектурах  часто  используются  одновременно  несколько  коммуникационных  сред  для  разных  целей.  В  частности,  на  основе  сети  Gigabit  Ethernet  строится  система  управления  кластером.

Производительность  вычислительной  системы  при  решении  конкретных  вычислительных  задач  может  быть  существенно  повышена  за  счет  применения  специализированных  сопроцессоров.  В  последние  3—5  лет  специализированные  ускорители  широко  применяются  в  узлах  традиционных  кластеров. 

В  [5]  дана  краткая  оценка  возможностей  использования  специализированных  ускорителей  на  основе  микропроцессоров  с  нестандартной  архитектурой,  таких  как  IBM  Cell  или  многоядерные  графические  процессоры.  На  базе  процессора  IBM  Cell  строится  игровая  приставка  Sony  PlayStationIII. 

Для  создания  отечественных  кластеров  представляют  интерес  в  первую  очередь  изделия  массового  выпуска,  к  которым  относятся  специализированные  ускорители  на  основе  видеоадаптеров  компании  NVIDIA,  использующие  технологии  CUDA  GPU.  Изделия  на  основе  данной  технологии  отличаются  широкой  номенклатурой,  массовым  выпуском,  высокой  производительностью  при  решении  различных  задач. 

Графические  процессоры  GPU  (Graphic  Processing  Unit)  обеспечивают  значительное  увеличение  пикового  быстродействия  при  обработке  графических  объектов  по  сравнению  со  стандартной  архитектурой  процессоров  Intel  и  AMD.  Технология  (или  архитектура)  CUDA  (Compute  Unified  Device  Architecture)  представляет  собой  программно-аппаратное  решение,  которое  позволяет  использовать  GPU  компании  NVIDIA  для  вычислений  общего  назначения  [4]  обеспечивает  возможности  разработчику  создавать  программное  обеспечение  для  решения  сложных  вычислительных  задач  на  языке  программирования  С  и  С++,  и  организовывать  на  графическом  ускорителе  выполнение  сложных  вычислений.

GPU-процессор  NVIDIA  с  кодовым  названием  Fermi  является  512-ядерным  процессором,  содержит  более  трех  миллиардов  транзисторов,  позволяет  более  чем  в  10  раз  повысить  пиковое  быстродействие  и  сократить  потребляемую  мощность  по  сравнению  с  другими  GPU-адаптерами.

При  построении  вычислительных  кластеров  широко  используются  возможности  программируемых  логических  интегральных  схем  (ПЛИС)  [5].  Логика  работы  ПЛИС  не  является  фиксированной,  т.  е.  заданной  при  изготовлении,  а  определяется  специальной  программой,  загружаемой  извне.  На  отечественном  рынке  представлены  различные  производители  ПЛИС.  Наиболее  известны  Xilinx,  Altera  и  Lattice  Semiconductor. 

В  отличие  от  многопроцессорных  вычислительных  систем  с  «жесткой»  архитектурой  архитектура  реконфигурируемых  систем  на  основе  ПЛИС  может  изменяться  в  процессе  ее  функционирования.  В  результате  у  пользователя  появляется  возможность  адаптации  архитектуры  вычислительной  системы  под  структуру  решаемой  им  задачи  или,  иными  словами,  возможность  создания  в  рамках  универсальной  среды  проблемно-ориентированных  многопроцессорных  вычислительных  структур.  Реализация  данной  концепции  обеспечивает  высокую  реальную  производительность  многопроцессорной  вычислительной  системы,  близкую  к  пиковой,  на  широком  классе  задач,  а  также  близкий  к  линейному  рост  производительности  при  увеличении  числа  процессоров  в  системе.

В  настоящее  время  ПЛИС  широко  применяются  при  создании  различных  по  сложности  цифровых  устройств.  В  нашей  стране  существует  несколько  различных  коллективов,  которые  разрабатывают  цифровые  изделия  на  основе  ПЛИС.  Наиболее  известны  разработки  Научно-исследовательского  института  многопроцессорных  вычислительных  систем  (г.  Таганрог).

Использование  устройств  на  основе  ПЛИС  в  качестве  специализированных  ускорителей  часто  обеспечивает  рост  пикового  быстродействия  на  несколько  порядков. 

Анализ  тенденций  развития  высокопроизводительных  систем  обработки  информации  (современных  суперкомпьютерных  технологий)  показывает:

·     В  современных  суперкомпьютерах  доминирует  архитектура  кластерного  типа;

·     В  узлах  кластера  в  основном  используются  массовые  серийно  выпускаемые  микропроцессоры  компаний  Intel  и  AMD.  Наиболее  распространенной  коммуникационной  средой  является  Infiniband.  В  последнее  время  активно  продвигается  технология  PCI  Express,  которая  за  счет  высокой  пропускной  способности  и  низкой  латентности  позволяет  строить  коммуникационные  среды  с  существенно  новым  качеством;

·     многократное  увеличение  пикового  быстродействия  кластера  достигается  использованием  в  узлах  кластера  проблемно-ориентированных  ускорителей  массового  производства;

·     существенное  увеличение  эффективности  кластера  достигается  с  помощью  использования  программируемых  логических  интегральных  схем.  ПЛИС  могут  рассматриваться  как  основа  для  построения  проблемно-ориентированных  ускорителей,  а  также  реконфигурируемых  вычислительных  систем;

 

Список  литературы:

  1. Воеводин  В.В.,  Воеводин  Вл.В.  Параллельные  вычисления.  СПб.:  БХВ-Петербург,  2002.  —  608  с.
  2. Корнеев  В.В..  Вычислительные  системы.  М.:  Гелиос  АРВ,  2004.  —  512  с.
  3. Лацис  А.О.  Параллельная  обработка  данных.  М.:  Издательский  центр  «Академия»,  2010.  —  330  с.
  4. Линев  А.В.,  Боголепов  Д.К.,  Бастраков  С.И.  Технологии  параллельного  программирования  для  процессоров  новых  архитектур:  Учебник  /  Под  ред.  В.П.  Гергеля.  М.:  Изд-во  Московского  университета,  2010.  —  160  с.
  5. Яблонский  С.В.  Тенденции  развития  суперкомпьютеров  //  Вестник  МГОУ.  Серия  «Техника  и  технология».  —  2010.  —  №  1.  —  С.  5—10.
  6. Яблонский  С.В.,  Конева  Н.Е.,  Конев  Ф.Б.  Современные  суперкомпьютерные  технологии  //  Вестник  МГОУ.  Серия  «Техника  и  технология».  —  2011.  —  №  1.  —  С.  5—8.

 

Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.