Статья опубликована в рамках: XIX Международной научно-практической конференции «Естественные и математические науки в современном мире» (Россия, г. Новосибирск, 04 июня 2014 г.)
Наука: Информационные технологии
Секция: Вычислительные машины, комплексы и компьютерные сети
Скачать книгу(-и): Сборник статей конференции
- Условия публикаций
- Все статьи конференции
дипломов
Статья опубликована в рамках:
Выходные данные сборника:
РАЗВИТИЕ ВЫСОКОПРОИЗВОДИТЕЛЬНЫХ СИСТЕМ ОБРАБОТКИ ИНФОРМАЦИИ
Яблонский Сергей Валерьевич
с.н.с., канд. техн. наук, ученый секретарь ФГУП «НИИ «Квант», РФ, г. Москва
E-mail: yablonski.s@mail.ru
Конева Наталья Ефимовна
доцент, канд. техн. наук, профессор кафедры «Автоматика и процессы управления» Московского государственного машиностроительного университета (МАМИ), РФ, г. Москва
E-mail: n.konevf21@mail.ru
Конев Федор Борисович
профессор, канд.физ.-мат. наук, профессор кафедры «Автоматика и процессы управления» Московского государственного машиностроительного университета (МАМИ), РФ, г. Москва
OF HIGH-PERFORMANCE SYSTEMS OF INFORMATION PROCESSING
Sergei Jablonski
cand. tech. sci., scientific secretary of Federal State Unitary Enterprise Scientific Research Institute “Kvant”, Russia, Moscow
Natali Koneva
associate professor, Cand. Tech. Sci., professor of "Automatic Equipment and Management Processes" chair of the Moscow state machine-building university (MAMI), Russia, Moscow
Fedor Konev
professor, Cand.Phis.-Math.Sci., professor of "Automatic Equipment and Management Processes" chair of the Moscow state machine-building university (MAMI), Russia, Moscow
АННОТАЦИЯ
В статье рассматриваются особенности вычислительных кластеров, методы определения эффективности их использования при решении реальных задач, способы повышения эффективности вычислительных кластеров за счет использования специализированных ускорителей и программируемой логики.
ABSTRACT
In article features of computing clusters, methods of determination of efficiency of their use are considered at the solution of real tasks, ways of increase of efficiency of computing clusters due to use of specialized accelerators and programmable logic.
Ключевые слова: суперкомпьютеры; кластеры; тесты; графические ускорители; программируемые интегральные схемы
Keywords: supercomputers; clusters; tests; graphic accelerators; programmable integrated schemes
Высокопроизводительная вычислительная система или суперкомпьютер — это вычислительная система, производительность (или вычислительное быстродействие) которой во много раз выше, чем у массовых компьютеров, за счет параллельной (одновременной) обработки данных. Параллельная обработка данных подразумевает одновременную работу ряда независимых устройств (процессоров) [1, 2, 3].
В настоящее время основой построения большинства современных суперкомпьютеров является кластерная архитектура. Кластерные архитектуры фактически господствуют в суперкомпьютерной отрасли и определяют ее развитие в течение последних 10—15 лет.
Кластерная архитектура представляет собой способ построения суперкомпьютеров путем объединения серийных процессорных модулей с помощью высокоскоростных локальных сетей, функционирующих под управлением свободно распространяемого программного обеспечения. Кластерные архитектуры обладают следующими достоинствами [3, 5]:
· относительно невысокая стоимость за счет использования массовых комплектующих;
· удобное масштабирование в широком диапазоне производительности;
· сжатые сроки создания и эксплуатационного освоения.
К традиционным недостаткам кластеров относят ограничения по эффективности коммуникационных сред, что связано с относительно низкой скоростью процедур межпроцессорного обмена, ограниченной пропускной способностью сети передачи данных, необходимостью синхронизации множества взаимосвязанных последовательных процессов, каждый из которых выполняется на отдельном процессоре, и т. д.
Вычислительный кластер строится на основе совокупности процессорных модулей, имеющих некоторое аппаратное быстродействие, определяемое его тактовой частотой. Наиболее популярные при построении современных кластеров процессорные модули на основе Intel Pentium и AMD Opteron [6] выполняют за один такт две команды. Для таких модулей можно перемножить их количество в системе на удвоенную частоту и получить таким образом пиковое вычислительное быстродействие. Пиковое быстродействие в реальных условиях не достигается никогда.
Определение эффективной производительности суперкомпьютера является самостоятельной достаточно сложной проблемой. Пользователя интересует та производительность, которая будет достигнута при решении его конкретных задач, при существенном различии задач пользователей.
Существует большое разнообразие тестов, ориентированных на оценку производительности суперкомпьютеров. Совокупность таких тестов позволяет достаточно адекватно оценить характеристики суперкомпьютера в различных условиях его применения.
Наибольшее распространение получил тест Linpak [2, 3], который основан на решении системы линейных алгебраических уравнений методом Гаусса. Этот тест фактически является стандартным при оценке производительности суперкомпьютеров с кластерной архитектурой. Обычно его очень тщательно оптимизируют под конкретную вычислительную установку. Поэтому оценка производительности суперкомпьютеров, полученная на данном тесте, близка к пиковой.
Для оценки производительности в условиях, более или менее близких к реальным, разработаны и другие тесты. Широко используются тесты NASA [6], которые представляют собой фрагменты реальных задач математической физики, реализованные на основе современных численных методов. Производительность, полученная с помощью этих тестов, значительно отличается от пиковой в худшую сторону. Для различных численных методов значение производительности, как правило, не превышает 3 % от пиковой, а значение 10 % от пиковой является предельным.
Существенное влияние на производительность вычислительного кластера оказывает эффективность коммуникационной среды, которая с учетом некоторых упрощений характеризуется двумя величинами:
· пропускная способность канала;
· латентность, или время запуска операции обмена.
Под латентностью часто понимается время передачи сообщения нулевой длительности. Для различных типов сетей и в различных условиях время запуска операции обмена и время передачи сообщения нулевой длительности могут незначительно отличаться. Латентность желательно иметь как можно меньше. Очевидно, что при увеличении длины сообщений, которыми осуществляется обмен, влияние латентности снижается.
Пропускная способность канала определяет эффективность коммуникационной среды при обмене сообщениями любой длины, как короткими, так и длинными.
На эффективность коммуникационной среды оказывают влияние и другие факторы. Например, влияние друг на друга одновременно происходящих обменов, а также потребности в вычислительной мощности, которые в итоге приводят к замедлению счета на фоне выполнения обменных операций.
Характеристики некоторых коммуникационных сред приведены в табл. 1.
Таблица 1.
Технология |
Пропускная способность |
Латентность |
Myrinet |
|
3-6 мкс |
|
2,5 мкс |
|
|
||
20-70 мкс |
*) Для реализации SDR. Существуют реализации DDR и QDR соответственно с удвоенной и учетверенной частотой
Существуют и другие сетевые технологии, не упомянутые в табл. 1. Отличие их друг от друга заключается, помимо указанных характеристик, в стоимости, надежности, влиянии обмена данными на загрузку процессора.
Наиболее часто используемой коммуникационной средой объединения процессорных модулей при построении кластеров является сеть Infiniband, которая обладает хорошей латентностью и способностью к масштабированию пропускной способности за счет использования кабелей с разным числом линий (от 1 до 32-х) и различных реализаций (SDR, DDR и QDR).
Конкуренцию технологии Infiniband составляет современный последовательный интерфейс PCI Express, разработанный компанией Intel [6] как развитие шинных интерфейсов PCI/PCI-X. До недавнего времени считалось, что технология PCI Express — это технология коммуникаций внутри материнской платы, а для объединения материнских плат между собой предназначена среда Infiniband. PCI Express является сетью, масштабируемой по числу линий в канале. Практически все современные производители материнских плат переходят на технологию PCI Express, что позволяет строить кластеры на основе стандартных решений.
В кластерных архитектурах часто используются одновременно несколько коммуникационных сред для разных целей. В частности, на основе сети Gigabit Ethernet строится система управления кластером.
Производительность вычислительной системы при решении конкретных вычислительных задач может быть существенно повышена за счет применения специализированных сопроцессоров. В последние 3—5 лет специализированные ускорители широко применяются в узлах традиционных кластеров.
В [5] дана краткая оценка возможностей использования специализированных ускорителей на основе микропроцессоров с нестандартной архитектурой, таких как IBM Cell или многоядерные графические процессоры. На базе процессора IBM Cell строится игровая приставка Sony PlayStationIII.
Для создания отечественных кластеров представляют интерес в первую очередь изделия массового выпуска, к которым относятся специализированные ускорители на основе видеоадаптеров компании NVIDIA, использующие технологии CUDA GPU. Изделия на основе данной технологии отличаются широкой номенклатурой, массовым выпуском, высокой производительностью при решении различных задач.
Графические процессоры GPU (Graphic Processing Unit) обеспечивают значительное увеличение пикового быстродействия при обработке графических объектов по сравнению со стандартной архитектурой процессоров Intel и AMD. Технология (или архитектура) CUDA (Compute Unified Device Architecture) представляет собой программно-аппаратное решение, которое позволяет использовать GPU компании NVIDIA для вычислений общего назначения [4] обеспечивает возможности разработчику создавать программное обеспечение для решения сложных вычислительных задач на языке программирования С и С++, и организовывать на графическом ускорителе выполнение сложных вычислений.
GPU-процессор NVIDIA с кодовым названием Fermi является 512-ядерным процессором, содержит более трех миллиардов транзисторов, позволяет более чем в 10 раз повысить пиковое быстродействие и сократить потребляемую мощность по сравнению с другими GPU-адаптерами.
При построении вычислительных кластеров широко используются возможности программируемых логических интегральных схем (ПЛИС) [5]. Логика работы ПЛИС не является фиксированной, т. е. заданной при изготовлении, а определяется специальной программой, загружаемой извне. На отечественном рынке представлены различные производители ПЛИС. Наиболее известны Xilinx, Altera и Lattice Semiconductor.
В отличие от многопроцессорных вычислительных систем с «жесткой» архитектурой архитектура реконфигурируемых систем на основе ПЛИС может изменяться в процессе ее функционирования. В результате у пользователя появляется возможность адаптации архитектуры вычислительной системы под структуру решаемой им задачи или, иными словами, возможность создания в рамках универсальной среды проблемно-ориентированных многопроцессорных вычислительных структур. Реализация данной концепции обеспечивает высокую реальную производительность многопроцессорной вычислительной системы, близкую к пиковой, на широком классе задач, а также близкий к линейному рост производительности при увеличении числа процессоров в системе.
В настоящее время ПЛИС широко применяются при создании различных по сложности цифровых устройств. В нашей стране существует несколько различных коллективов, которые разрабатывают цифровые изделия на основе ПЛИС. Наиболее известны разработки Научно-исследовательского института многопроцессорных вычислительных систем (г. Таганрог).
Использование устройств на основе ПЛИС в качестве специализированных ускорителей часто обеспечивает рост пикового быстродействия на несколько порядков.
Анализ тенденций развития высокопроизводительных систем обработки информации (современных суперкомпьютерных технологий) показывает:
· В современных суперкомпьютерах доминирует архитектура кластерного типа;
· В узлах кластера в основном используются массовые серийно выпускаемые микропроцессоры компаний Intel и AMD. Наиболее распространенной коммуникационной средой является Infiniband. В последнее время активно продвигается технология PCI Express, которая за счет высокой пропускной способности и низкой латентности позволяет строить коммуникационные среды с существенно новым качеством;
· многократное увеличение пикового быстродействия кластера достигается использованием в узлах кластера проблемно-ориентированных ускорителей массового производства;
· существенное увеличение эффективности кластера достигается с помощью использования программируемых логических интегральных схем. ПЛИС могут рассматриваться как основа для построения проблемно-ориентированных ускорителей, а также реконфигурируемых вычислительных систем;
Список литературы:
- Воеводин В.В., Воеводин Вл.В. Параллельные вычисления. СПб.: БХВ-Петербург, 2002. — 608 с.
- Корнеев В.В.. Вычислительные системы. М.: Гелиос АРВ, 2004. — 512 с.
- Лацис А.О. Параллельная обработка данных. М.: Издательский центр «Академия», 2010. — 330 с.
- Линев А.В., Боголепов Д.К., Бастраков С.И. Технологии параллельного программирования для процессоров новых архитектур: Учебник / Под ред. В.П. Гергеля. М.: Изд-во Московского университета, 2010. — 160 с.
- Яблонский С.В. Тенденции развития суперкомпьютеров // Вестник МГОУ. Серия «Техника и технология». — 2010. — № 1. — С. 5—10.
- Яблонский С.В., Конева Н.Е., Конев Ф.Б. Современные суперкомпьютерные технологии // Вестник МГОУ. Серия «Техника и технология». — 2011. — № 1. — С. 5—8.
дипломов
Оставить комментарий