Статья опубликована в рамках: VII Международной научно-практической конференции «Наука вчера, сегодня, завтра» (Россия, г. Новосибирск, 11 декабря 2013 г.)

Наука: Технические науки

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Данильчук А.А., Юн С.Г., Новокрещенов Н.С. ОСОБЕННОСТИ МОНИТОРИНГА ВИРТУАЛЬНОЙ ИТ-ИНФРАСТРУКТУРЫ // Наука вчера, сегодня, завтра: сб. ст. по матер. VII междунар. науч.-практ. конф. № 7(7). – Новосибирск: СибАК, 2013.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов
Статья опубликована в рамках:
 
Выходные данные сборника:

 

ОСОБЕННОСТИ  МОНИТОРИНГА  ВИРТУАЛЬНОЙ  ИТ-ИНФРАСТРУКТУРЫ

Данильчук  Александр  Анатольевич

магистр,  НГТУ,  РФ,  г.  Новосибирск

E-maildanilchuk-sascha@mail.ru

Юн  Светлана  Геннадиевна

канд.  техн.  наук,  доцент,  НГТУ,  РФ,  г.  Новосибирск

E-mailyungs@mail.ru

Новокрещенов  Николай  Сергеевич

рук-ль  направления  СХ  и  ОД,  NVision  Group,  РФ,  г.  Новосибирск

E-mailNNovokreshchenov@nvg.ru

 

Мониторинг  виртуальной  среды  —  это  критически  важная  задача,  выполнение  которой  позволяет  гарантировать  работоспособность  и  высокую  доступность  виртуальной  среды.  К  сожалению,  этой  задаче  не  всегда  уделяется  должное  внимание,  а  временное  отсутствие  проблем  зачастую  приводит  к  потере  бдительности.  Однако  при  первой  же  крупной  аварии  становиться  ясно,  что  мониторинг  просто  жизненно  необходим;  и  как  важно  не  просто  следить  за  «жизненными  показателями»  ИТ-инфраструктуры,  а  так  же  анализировать  эти  показатели  и  прогнозировать  возможные  исходы,  просчитывать  риски  возникновения  определенных  событий  и  т.  д. 

Наличие  дополнительного  слоя  делает  виртуальную  среду  сложнее  традиционной  физической  среды.  Суть  виртуализации  —  в  совместном  использовании  ресурсов.  Вместо  изолированных  ресурсов  вы  имеете  дело  с  большими  пулами  общих  ресурсов  со  сложными  взаимосвязями  между  виртуальными  и  физическими  ресурсами.  Соответствие  между  физическим  и  виртуальным  оборудованием  контролируется  гипервизором,  который  использует  различные  техники  для  снижения  нагрузки  на  физические  ресурсы  и  достижения  максимальной  эффективности  их  использования.  Это  значительно  усложняет  мониторинг,  так  как  важно  понимать  не  только  значения  отдельных  показателей,  но  и  взаимосвязи  внутри  всей  инфраструктуры.

Эффективный  мониторинг  требует  понимания  множества  зависимостей  между  объектами  и  ресурсами  в  виртуальной  среде.  Необходимо  не  только  правильно  выбрать  объекты  и  показатели  для  мониторинга,  но  и  понимать  влияние,  оказываемое  мониторингом  на  остальную  виртуальную  среду,  чтобы  оценить  его  воздействие  в  случае  возникновения  проблем  [3].  Часто  для  того,  чтобы  понять,  где  возникла  проблема,  а  где  ее  нет,  требуется  понимать  значение  всех  получаемых  данных.

Правильный  мониторинг  —  это  ключ  к  здоровью  вашей  виртуальной  среды  и  отсутствию  проблем.  В  этой  статье  приведены  рекомендаций,  основанные  на  проведенном  аналитическом  обзоре  объекта  исследования  и  практическом  опыте  и  рекомендаций  экспертов  в  данной  области  [4,  5,  1].  Данные  рекомендации  позволяют  справиться  с  трудностями  мониторинга  виртуальной  среды.

В  физической  среде  мониторинг  производительности  осуществляется  через  гостевую  операционную  систему  (ОС),  которая  ввиду  своей  близости  к  оборудованию  может  представить  точные  данные  о  его  производительности.  Обычно  мониторинг  выполняется  централизованно,  с  помощью  агента,  установленного  внутри  гостевой  ОС  и  передающего  данные  приложению  мониторинга,  либо  через  нативные  API  гостевой  ОС,  такие  как  Windows  Management  Interface  (WMI).  В  виртуальной  среде  эти  методы  не  эффективны  по  причине  удаленности  гостевой  ОС  от  оборудования  и  могут  привести  к  искаженным  результатам.  Слой  виртуализации,  отделяющий  гостевую  ОС  от  оборудования,  прозрачен  для  гостевой  ОС.  Гипервизор  предоставляет  виртуальное  оборудование  гостевой  ОС  и  контролирует  весь  доступ  к  физическому  оборудованию.  Таким  образом,  гостевые  ОС  на  виртуальных  машинах  воспринимают  себя  единственными  пользователями  физических  ресурсов  хоста,  в  то  время  как  гипервизор  распределяет  эти  ресурсы  между  несколькими  виртуальными  машинами.

Поскольку  в  виртуальной  среде  гостевая  ОС  и  физическое  оборудование  разделены,  для  получения  точных  результатов  мониторинга  оборудования  необходимо  использовать  инструменты,  разработанные  специально  для  виртуальной  среды.  Средства  мониторинга  производительности,  созданные  для  физических  серверов,  не  учитывают  наличие  слоя  виртуализации  и  выполняемые  им  функции.  В  результате,  значения  показателей,  полученные  с  помощью  этих  средств,  могут  некорректно  отражать  реальную  производительность  виртуальной  машины.  Это  в  первую  очередь  касается  данных,  относящихся  к  ЦПУ  и  памяти,  —  у  гипервизора  немало  способов  для  экономии  и  максимизации  эффективности  использования  памяти  хоста;  при  этом  гостевые  ОС  о  подобных  способах  ничего  не  «знают».  Это  касается  и  ЦПУ  —  эффективная  работа  виртуальных  машин  достигается  за  счет  использования  диспетчера  ЦПУ,  действия  которого  также  незаметны  для  гостевых  ОС.  Еще  одной  причиной  неточности  результатов  мониторинга  может  быть  контроль  распределения  ресурсов  в  слое  виртуализации.  Использование  подходящих  инструментов  для  мониторинга  производительности  на  уровне  слоя  виртуализации  гарантирует  точность  статистики  производительности. 

Но,  несмотря  на  то,  что  мониторинг  производительности  виртуальных  машин  действительно  необходимо  осуществлять  на  уровне  слоя  виртуализации,  не  следует  пренебрегать  значениями  показателей,  полученными  внутри  гостевой  ОС  [1].

С  течением  времени  количество  показателей  производительности,  дающих  правильный  и  значимый  результат  при  их  измерении  внутри  гостевой  ОС,  без  учета  слоя  виртуализации,  становится  все  меньше  и  меньше.  Многие  показатели  Windows  относятся  к  конкретным  приложениям,  работающим  на  гостевой  ОС,  поэтому  необходим  взгляд  на  них  как  изнутри,  так  и  снаружи  виртуальной  машины.  Кроме  того,  существует  ряд  специфических  для  виртуальной  среды  показателей  производительности,  которые  могут  предоставлять  гостевой  ОС  данные  о  том,  что  происходит  в  слое  виртуализации.  Обычно  такие  показатели  входят  в  состав  компонентов  VMware  tools  (или  подобных,  в  зависимости  от  платформы  виртуализации),  которые  служат  в  качестве  модуля  обмена  между  гостевой  ОС  и  гипервизором.

Слой  виртуализации  —  это  просто  один  из  слоев  в  вычислительном  стеке,  но  ресурсы  хранения  играют  важнейшую  роль,  и  от  их  состояния  зависит  выполнение  многих  рабочих  нагрузок. 

Как  минимум,  ресурсы  хранения  —  это  основа  виртуальной  среды,  что  в  корне  отличает  ее  от  модели  физической  среды.

В  виртуальной  среде  зачастую  возникает  конкуренция  за  ресурсы  хранения,  при  этом  в  средах  на  платформе  vSphere,  в  большинстве  случаев,  используются  системы  хранения  данных  SAN  или  NAS.  При  чрезмерной  рабочей  нагрузке  виртуальных  машин  на  недостаточно  хорошо  оборудованное  устройство  хранения  скорость  работы  дисков  может  существенно  снизиться.

В  виртуальной  среде  ключевым  фактором  предотвращения  проблем  с  ресурсами  хранения  является  мониторинг  основных  показателей,  таких  как  задержки  записи  и  чтения  на  хранилищах  данных.  Если  значения  этих  показателей  не  отслеживать,  то  добавление  всего  лишь  одной  виртуальной  машины  может  привести  к  перегрузке  устройства  хранения  и  выведению  его  из  строя,  что,  в  свою  очередь,  повлечет  нарушение  работы  приложений.

Наиболее  важные  показатели  состояния  ресурсов  хранения  —  количество  операций  ввода/вывода  в  секунду  (IOPS)  и  задержки  (latency),  которые  информируют  об  уровне  загруженности  ресурсов  хранения  и  о  времени  ожидания  при  попытке  доступа  к  ним.  IOPS  показывает  объем  ввода-вывода,  а  задержки  —  за  какое  время  данные  достигают  ресурсов  хранения.  Необходим  постоянный  мониторинг  этих  показателей,  который  позволит  определить  потенциальные  «узкие  места»  и  устранить  их  до  того,  как  они  создадут  проблемы  для  работы  виртуальной  среды.  Необходимо  вовремя  распознавать  тенденции  и  знать  принципы  оптимального  использования  ресурсов  хранения,  чтобы  замечать  недостатки  и  составлять  планы  для  соответствия  потребностям  в  ресурсах  хранения  в  будущем. 

Кроме  того,  в  виртуальной  среде  много  уникальных  показателей,  которые  в  традиционной  физической  среде  просто  не  существуют.  Эти  показатели  относятся  к  слою  виртуализации  и  являются  важными  индикаторами  состояния  виртуальной  среды.  Незнание  этих  показателей  и  их  роли  в  отражении  состояния  и  производительности  виртуальной  среды  —  не  допустимы. 

Одни  и  те  же  физические  ресурсы  в  виртуальной  среде  используются  одновременно  несколькими  виртуальными  машинами,  и  многие  показатели  виртуальной  среды  отражают  именно  это  совместное  использование.  Другие  показатели  помогают  определить  «узкие  места»  между  виртуальным  и  физическим  слоем,  где  гипервизор  соотносит  физическое  оборудование  с  виртуальным. 

CPU  Ready  —  один  из  таких  уникальных  показателей  для  хоста  VMware.  Он  показывает,  как  долго  виртуальная  машина  ожидает  выделения  ресурсов  физического  ЦПУ  для  выполнения  своего  запроса.  Этот  показатель  имеет  большое  значение,  так  как  длительное  время  ожидания  может  существенно  замедлить  работу  виртуальных  машин.  Этот  показатель  не  может  быть  измерен  внутри  гостевой  ОС,  которая  не  знает  о  существовании  слоя  виртуализации  и,  соответственно,  о  времени  ожидания  выделения  ресурсов.  Таким  образом,  чтобы  исключить  наличие  проблем  с  производительностью,  необходимо  знать  как  текущее  значение  показателя  CPU  Ready,  так  и  допустимое  пороговое  значение  для  него.

Использование  памяти  —  еще  один  сложный  аспект  виртуальной  среды.  Гипервизор  использует  множество  методов  выделения/  освобождения  памяти  для  того,  чтобы  минимизировать  нагрузку  на  физическую  память.  Суммарное  количество  виртуальной  памяти,  выделенной  виртуальным  машинам,  может  превышать  физические  возможности  хоста  (memory  over-commit).  В  результате,  показатели,  относящиеся  к  памяти,  могут  оказаться  сложными  для  понимания  и  интерпретации.

Ниже  перечислены  все  группы  ресурсов  с  описанием  их  функциональности  в  виртуальной  среде. 

·     ЦПУ  —  При  одновременном  использовании  ресурсов  физических  ЦПУ  виртуальные  машины  должны  ожидать  обработки  своих  запросов.  Чем  дольше  ожидание,  тем  медленнее  работает  виртуальная  машина.  Мониторинг  времени  ожидания  виртуальных  машин  и  их  уровня  использования  ресурсов  ЦПУ  очень  важен  в  виртуальной  среде.

·     Память  —  Гипервизор  использует  множество  методов  для  экономии  и  перераспределения  памяти  с  целью  максимально  эффективного  ее  использования.  Для  виртуальных  машин  может  быть  выделено  больше  памяти,  чем  имеется  в  наличии  на  хосте  (memory  over-commit).  Если  у  хоста  не  хватает  физической  памяти,  он  компенсирует  это  за  счет  использования  диска.  Важно  отслеживать  уровень  активного  использования  памяти  виртуальными  машинами,  а  также  использование  файла  подкачки.  Очень  важно  выделять  достаточное  количество  памяти,  а  использование  файла  подкачки  должно  быть  сведено  к  минимуму,  так  как  это  может  сильно  замедлить  работу  виртуальных  машин. 

·     Диск  —  Запросы  ввода-вывода  должны  ожидать  обработки,  проходя  путь  от  виртуальной  машины,  через  гипервизор,  к  физическому  адаптеру  ввода-вывода,  а  оттуда  —  на  ресурсы  хранения.  Путь  данных  ввода-вывода  намного  длиннее  и  сложнее  и  может  проходить  по  сети  или  фабрике  (fabric)  в  случае  использования  общих  систем  хранения  данных.

Мониторинг  прохождения  данных  позволяет  находить  узкие  места,  гарантировать  отсутствие  препятствий  и  предотвращать  чересчур  долгое  время  ожидания  доступа  к  ресурсам  хранения.

·     Сеть  —  Важно  вести  мониторинг  сети,  который  позволит  гарантировать,  что  у  коммутаторов  vSwitch  достаточно  физических  сетевых  адаптеров  (pNIC),  чтобы  обслуживать  все  виртуальные  машины  и  исключить  потерю  пакетов.

В  таблице  1  представлены  основные  показатели,  рекомендуемые  для  мониторинга  различных  групп  ресурсов.

Таблица  1. 

Основные  показатели,  рекомендуемые  для  мониторинга  различных  групп  ресурсов

ЦПУ

Память

Диск

Сеть

CPU  Ready

Memory  Swapped

Disk  Commands  (IOPS)

Network  Usage

CPU  Usage

Memory  Active

Disk  Total  Latency

Network  Dropped  Tx

CPU  Used

Memory  Ballooned

Disk  Queued

Network  Dropped  Rx

 

 

Современные  средства  мониторинга  предоставляют  возможность  оповещения  о  происходящих  виртуальной  среде  событиях.  Как  правило,  оповещения  информируют  о  проблемах,  возникших  в  виртуальной  среде,  а  также  о  ситуациях,  которые  могут  привести  к  возникновению  проблем.  Это  дает  возможность  не  только  своевременно  разрешить  ситуацию  и  избежать  ее  развития  в  худшую  сторону,  но  и  предотвратить  возникновение  критических  событий.  Использование  системы  оповещений  гарантирует,  что  вы  узнаете  о  критических  событиях  и  превышениях  пороговых  значений  показателей  производительности  до  того,  как  проблема  повлияет  на  пользователей  и  их  работу. 

Однако  есть  и  оборотная  сторона  оповещений  —  их  может  быть  слишком  много  или  же  среди  них  может  быть  много  ложных  оповещений,  и  тогда  велика  вероятность  того,  что  вы  будете  просто  игнорировать  все  оповещения.  Для  эффективного  использования  оповещений  необходимы  их  правильная  активация  и  настройка.  Необходимо  активируйте  только  самые  важные  оповещения  —  если  активировать  много  оповещений  о  незначительных  событиях,  то  важные  оповещения  могут  затеряться  и  остаться  незамеченными.  Также  убедиться,  что  критерии  срабатывания  оповещений  не  слишком  занижены;  продолжительность  действия  критериев  срабатывания  —  это  ключевой  фактор,  от  значения  которого  зависит  количество  оповещений. 

Емкость  хранилищ  данных  также  нуждается  в  пристальном  мониторинге.  Часто  возникает  угроза  переполнения  дисков  снапшотами  виртуальных  машин  и  «тонкое»  выделение  ресурсов  хранения.  Другие  ключевые  области,  для  которых  следует  активировать  оповещения,  —  это  задержки  доступа  к  ресурсам  хранения  (storage  latency),  конкуренция  за  ресурсы  ЦПУ  (CPU  contention)  и  уровень  загруженности  памяти  (memory  utilization).

Помимо  использования  оповещений  для  мониторинга  производительности  виртуальной  среды,  следует  также  использовать  их  для  отслеживания  отдельных  событий,  касающихся  подачи  питания,  снапшотов,  изменений  конфигурации  и  высокой  доступности.

Следует  отметить,  что  оповещения  могут  относиться  к  объектам  разного  уровня,  таким  как  виртуальная  машина,  хост,  кластер  и  ЦОД.  Вместо  того,  чтобы  устанавливать  оповещения  для  каждой  виртуальной  машины  по  отдельности,  можно  сделать  это  на  более  высоком  уровне,  например  на  уровне  кластера.  Такое  оповещение  будет  применимо  ко  всем  дочерним  объектам.  Во  избежание  чрезмерного  количества  оповещений  не  следует  устанавливать  слишком  много  оповещений  на  слишком  высоком  уровне  иерархии,  если  только  это  не  критические  оповещения.  Следует  планировать  стратегическое  использование  оповещений;  убедиться,  что  на  критически  важных  виртуальных  машинах  оповещений  больше,  а  на  менее  важных  —  меньше.

Таким  образов,  для  обеспечения  эффективного  мониторинга  за  виртуальной  инфраструктурой,  необходимо  следовать  следующим  рекомендациям:

1.  Сформировать  понимание  взаимосвязей  и  зависимостей  внутри  виртуальной  среды.

2.  Выделить  параметры  виртуальной  среды,  которые  важно  включить  в  инфраструктуру  мониторинга.

3.  Не  перегружать  работой  средств  мониторинга  виртуальную  среду  чрезмерно  частым  снятием  показателей  характеристик.

4.  Мониторинг  производительности  виртуальных  машин  следует  выполнять  как  изнутри,  так  и  снаружи  гостевой  операционной  системы. 

5.  Обеспечить  тщательный  мониторинг  ресурсов  хранения  и  сетей  передачи  данных.

6.  Необходимо  сопоставлять  события  виртуальной  среды  с  показателями  производительности.

7.  Использовать  оповещения  о  происходящих  событиях  эффективно.

 

Список  литературы:

1.Данильчук  А.А.,  С.Г.  Юн,  В.В.  Люстров.  Методика  определения  целесообразности  включения  IT-систем  предприятия  в  инфраструктуру  мониторинга.  //  Актуальные  вопросы  современной  науки  (IV  международная  научная  конференция)  СПб.  2013  ISBN  978-5-91753-068-0 

2.Мониторинг  виртуальной  инфраструктуры  при  помощи  Veeam  One  —  задачи  и  решения.  [Электронный  ресурс].  —  Режим  доступ.  —  URL:  http://go.veeam.com/wps_mikheev_2012_virtual_infrastructure_monitoring_with_veeam_one-ru.html  (Дата  обращения:  11.10.2013)

3.Types  of  Monitoring  [Электронный  ресурс].  —  Режим  доступ.  —  URL:  http://californiarangeland.ucdavis.edu/Publications%20pdf/MS1.pdf  (Дата  обращения  22.04.13).

4.Veeam  White  Paper.  10  best  practices  for  VMware  monitoring.  [Электронный  ресурс].  —  Режим  доступ.  —  URL:  http://go.veeam.com/wpg-one-siebert-top-10-best-practices-for-vmware-monitoring-ru.html  (Дата  обращения:  02.09.2013).

5.Expert  Tips  for  Managing  Your  Remote  vSphere  Infrastructure.  [Электронный  ресурс].  —  Режим  доступ.  —  URL:  http://go.veeam.com/wp-2011-christian-mohn-7-expert-tips-managing-remote-vsphere.html  (Дата  обращения:  11.10.2013).

Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий