Intel: Leap ahead
Представься


Войти
Или зарегистрируйся
и стань участником профессионального
IT-сообщества, общайся с коллегами,
накапливай баллы и обменивай их на призы.
Забыли пароль? Подробнее о сообществе.
Оценка 0
Автор: Ing-Syst
entry 27.7.2012, 11:55
Не так давно я рассказывал вам о средствах удалённого управления серверами HP и Dell. Теперь я хочу рассказать о средстве конфигурирования и мониторинга серверов Dell. Оно позволяет настраивать локальные и удалённые серверы, использовать как командную строку, так и Web-интерфейс. Это средство называется OpenManage Server Administrator (OMSA). Я не использую командную строку OMSA (хотя собираюсь для определённой задачи, об этом – ниже), поэтому расскажу об использовании посредством браузера.

В качестве испытуемого сервера будет выступать развёрнутый мной Dell PowerEdge T410, знакомый нам по предыдущей статье. Его конфигурация: процессор Intel Xeon E5645 (6 ядер, 2.4 ГГц), оперативная память – 16 ГБ Registered ECC DDR3 1333 МГц, RAID-контроллер PERC H700 (512 МБ кэша, батарея), дисковая подсистема – два hot plug HDD Dell 300 ГБ 3.5" 15 000 об/мин SAS 6 Гбит/с в RAID 1 и ещё один как hot spare, два сетевых адаптера Gigabit Ethernet, iDRAC 6 Enterprise, два hot swap блока питания 580 Вт. На сервере установлена VMware ESXi 5.0.0.469512 в редакции Dell, в которой развёрнуты три виртуальных сервера: 1) контроллер домена с DNS- и DHCP-серверами и сервером антивируса Kaspersky Business Space Security; 2) почтовый сервер на Microsoft Exchange Server 2010 SP2 и 3) межсетевой экран MS Forefront TMG SP2. На всех виртуальных машинах установлена операционная система Windows Server 2008 R2 SP1 Enterprise.
Иногда я буду приводить в пример другой сервер – Dell PowerEdge 2950 (Intel Xeon E5420 (2.5 ГГц, 4 ядра)/8 ГБ ECC/PERC 6/i (256 МБ кэша, батарея)/3 hot plug HDD Dell 147 ГБ SAS в RAID 5/два Gigabit Ethernet/2 hot swap БП 750 Вт). На сервере установлена Windows Server 2003 R2 SP2, он несёт роль сервера 1С 7.7.

Чтобы использовать OMSA, его нужно установить. Установить его можно несколькими способами: например, с диска Dell System Management Tools and Documentation DVD или из инсталлятора непосредственно OMSA. Не стоит бросаться сразу устанавливать OMSA в конфигурации по умолчанию, в установке есть свои нюансы.

OMSA состоит из следующих компонентов, которые нужно устанавливать в зависимости от ваших потребностей: Web Server, Server Instrumentation, Remote Enablement, Storage Management, Remote Access Controller и Intel/Broadcom SNMP Agents. Рассмотрим их подробнее.

Web Server. Нужен для Web-доступа к управляемой машине. Может устанавливаться на любой системе, как на самой управляемой, так и любой другой. Если в сети несколько серверов Dell, достаточно установить один Web Server. Web Server не предъявляет требований к аппаратному обеспечению машины, на которую его устанавливают.

Server Instrumentation. Устанавливается на сервер, который будет настраиваться. Установится только на Dell PowerEdge.

Storage Management. Устанавливается на сервер с дисковой подсистемой, которую планируется настраивать. Входит в состав Server Instrumentation. Установится только на систему, в которой установлены Server Instrumentation или Remote Enablement, или вместе с ними.

Remote Enablement. Устанавливается на сервер, который планируется настраивать удалённо. Входит в состав Server Instrumentation. Поддерживает только системы Dell PowerEdge.

Remote Access Controller. Нужен для получения извещений о состоянии сервера, ведёт логи событий и сохраняет скриншоты при BSOD (только для ОС Microsoft). Устанавливается только на системы с Server Instrumentation или Remote Enablement.

Intel/Broadcom SNMP Agents. Устанавливают SNMP-агентов, позволяющих OMSA получать информацию о сетевых адаптерах сервера.

Исходя из этого, какие могут быть варианты установки? Если предположить, что конфигурировать дисковую подсистему мы собираемся на всех имеющихся серверах, то я вижу два наиболее подходящих метода.
Первый. Устанавливаем Web Server+Server Instrumentation+Storage Management на сервер Dell и управляем им локально или удалённо.
Второй. Устанавливаем Web Server на одну произвольную машину, а Server Instrumentation+Storage Management+Remote Enablement на управляемые серверы Dell, и управляем всеми машинами удалённо.

Перед установкой ролей установщик проверяет соответствие системы требованиям. Если компонентов вендора Dell и сетевых адаптеров производства Intel и Broadcom не обнаружено, выбор модулей для установки будет весьма скудным (запуск на виртуальной машине):




А если обнаружены, то гораздо более богатым (запуск на Dell PowerEdge 2950):



Для установки я выбрал второй метод: Web Server на одной машине, а остальные компоненты – на сервере Dell. Для установки Web Server я выбрал контроллер домена, работающий на виртуальной машине, которая развёрнута на этом самом Dell.

В моей инфраструктуре установка компонентов OMSA была усложнена ещё одной особенностью. Как вы помните, подопытный Dell PowerEdge T410 работает под управлением ESXi 5, а на неё инсталлятором OMSA не установишь. На сайте http://support.dell.com я отыскал документ «Dell OpenManage Server Administrator With VMware ESXi 5.0», в котором описывалась процедура установки OMSA не ESXi 5.0. Заключается она в следующем:

1) скачиваем файл Dell_OpenManage_ESXi_OM650-offline_bundle-467660.zip и копируем его в /var/log/vmware на хосте ESXi;
2) выключаем все виртуальные машины на хосте ESXi и переводим его в Maintenance Mode;
3) запускаем на хосте через CLI команду «esxcli –server <IP Address of ESXi 5.0 host> software vib install -d /var/log/vmware Dell_OpenManage_ESXi_OM650-offline_bundle-467660.zip»;
4) перегружаем сервер. Готово.

Таким образом на ESXi 5.0 устанавливаются Server Instrumentation, Remote Enablement, Storage Management и Remote Access Controller. Как видим, Web Server в случае ESXi гарантированно придётся ставить на другую машину.

На OMSA, установленный на ESXi 5.0, действуют ограничения. В частности, такой OMSA не может управляться с Web Server, работающего на Windows Server 2003 или Windows XP, в нём не настраиваются действия при возникновении событий с компонентами.

Итак, необходимые компоненты установлены. На ЛЮБОМ компьютере сети заходим в браузере по адресу https://SERVERNAME:1311. SERVERNAME – это IP-адрес или имя компьютера, на котором установлен Web Server, порт 1311 задан по умолчанию, его можно менять в настройках. На серверах, где установлен Web Server, на рабочем столе создаётся ярлык, который запускает страницу по локальному адресу.
Если Web Server установлен на сервере Dell с другими компонентами, такими, как Server Instrumentation, то по умолчанию настраивать по такому адресу можно будет только этот конкретный сервер. Если кликнуть по ссылке «Manage Remote Node» на этой странице, появится возможность подключаться к удалённому серверу:



Обратно можно переключиться по ссылке «Manage Local Node».

Если Web Server – выделенный, т.е. больше никаких компонентов на нём не установлено, страница с предложением указать удалённый сервер открывается сразу.

Чтобы настраивать сервер в OMSA, пользователь, под которым осуществлён вход через Web Server, должен обладать правами администратора на управляемом сервере (т.е. на котором стоят компоненты Server Instrumentation и т.п.), иначе в OMSA будет доступен только просмотр текущих параметров.

Итак, я захожу по адресу https:\\Server3:1311, где Server3 – виртуальный контроллер домена с единственным компонентом Web Server, ввожу адрес сервера – 192.168.0.8 (адрес управляющего интерфейса ESXi), имя пользователя – root (создан при установке ESXi), ввожу пароль и ставлю галочку «Ignore certificate warnings» (иначе будет ругаться и не пустит). Запускается домашняя страница OMSA:




Как видим, здесь можно увидеть обобщённую информацию о состоянии системы и отдельно – подсистемы хранения данных. В моём случае система находится в «нездоровом» состоянии и ниже мы увидим, почему.

Во вкладке «Summary» находится информация о компонентах сервера – модели сервера, процессоре, памяти, контроллере удалённого управления и т.д.



Во вкладке «Asset Information» можно ввести информацию о сервере, например, о подробностях его приобретения – цену, даты покупки и инсталляции:



Во вкладке «Auto Recovery» задаются действия, при обнаружении зависания операционной системы – отсутствие действий, перезагрузка, выключение либо выключение и включение машины.
Из вкладки «Shutdown – Remote Shutdown» можно перегрузить, выключить либо выключить-включить сервер, причём можно отметить необходимость дождаться завершения работы ОС.
Переходим во вкладку «Logs-Hardware». Сюда записываются события, произошедшие с компонентами сервера:



Например, в моём логе есть информация о вынимании-вставке жёсткого диска, потере питания на одном из блоков питания и, как следствие, снижении отказоустойчивости подсистемы блоков питания, уведомления о слишком низкой температуре окружающей среды (администратор не слишком тёплой весной выключал кондиционер в серверной и охлаждал помещение при помощи открытого окна smile.gif ).

«Logs – Alert». Лог предупреждений – информация о статусе проверки поверхности винчестеров (Patrol Read), статусе зарядки и цикла тестирования батареи RAID-контроллера, изменении политики кэширования записи на LUN'ах контроллера…



И, наконец, лог выполняемых действий – подключение администратора к OMSA, Consistency Check на RAID-массивах, запуск тестирования батареи контроллера:



Все логи можно очищать и сохранять.

Вкладка «Alert Management – Alert Actions», как и обещано руководством «Dell OpenManage Server Administrator With VMware ESXi 5.0», уведомляет о том, что из-за ограничений, накладываемых ОС, функция предупреждений не работает.



Вот как выглядит она же, но на PowerEdge 2950 с Windows Server 2003 R2 SP2:



В качестве реакции на возникшее событие можно отобразить сообщение на мониторе сервера, разослать широковещательное сообщение либо выполнить приложение. Как видим, уведомление на электронную почту не предусмотрено, и это очень и очень плохо. Конечно, такие уведомления умеет рассылать iDRAC, но ведь его самого в сервере может не быть. Можно отправлять уведомления, используя третий способ реакции – запуск приложения, но, во-первых, подходящую программу нужно найти и настроить, во-вторых, представьте, какой объём работы вас ждёт, чтобы на каждую категорию событий приходило письмо с определённой темой, ведь категорий не одна и не две.

Ещё более прискорбно то, что уведомления на почту о подсистеме хранения не предусмотрены и в iDRAC! Возможно, отправлять их получится, используя средства командной строки OMSA.



На события можно настроить не только извещение, но и определённое действие – перезагрузку сервера, выключение, выключение-включение сервера или уменьшение потребляемой энергии:



Вкладка «SNMP Traps» регулирует уведомления по SNMP для разных категорий событий.

В пункте «Health» показано «здоровье» уже отдельных компонентов сервера:



Видим, что единственный больной – подсистема питания. Что с ней не так, посмотрим далее.

Большинство подпунктов «Main System Chassis», предоставляют описание компонента и дают возможность настроить уведомления об этом компоненте (эквивалентно настройке в пункте «Alert Management», уже рассмотренном выше), поэтому мы только поинтересуемся, почему блоки питания считаются нездоровыми.



Как видно, отсутствует напряжение на входе в БП и избыточности БП не стало. Причина отсутствия – у ИБП APC Smart-UPS SUA1000I, к которому подключён этот БП, вышла из строя батарея, и до её замены администратор решил не подключать БП к другому источнику питания.

Другие подпункты «Main System Chassis» я рассматривать не буду из-за их тривиальности и подобия, кроме некоторых, которые позволяют настраивать компонент, а не только просматривать информацию о нём. Например, прямо из браузера можно изменять BIOS сервера, не пользуясь удалённым управлением вроде iDRAC:



Вот захотим и отключим технологию виртуализации в процессоре:



Можно конфигурировать и сам iDRAC:


Т.е., повторю, OMSA даёт изменять некоторые параметры сервера, для настройки которых в случае отсутствия OMSA потребуется перезагрузка.

В разделе «Software» отображается информация о версии ОС, дате её загрузки, текущем времени и версии OMSA.

Переходим к наиболее интересному, на мой взгляд, в OMSA – подсистеме хранения данных. Рассмотрим параметры и настройки, относящиеся к RAID-контроллеру.



Отображается модель, версия прошивки, драйвера контроллера, количество портов, приоритет ребилда, фоновой инициализации, Consistency Check, параметры замены дисков и Petrol Read, объём кэша.

Ниже описаны подключённые к контроллеру виртуальные диски, батарея, корзины и его порты.



С контроллером можно выполнить следующие действия: создать виртуальный диск, сбросить конфигурацию, экспортировать лог в файл, установить режим Patrol Read, изменить свойства контроллера, управлять ключами шифрования, управлять питанием дисков.



Виртуальный диск контроллеров Dell – это LUN в общепринятой терминологии. В свою очередь LUN – это виртуальный жёсткий диск, формируемый RAID-контроллером из кусков физических дисков и презентуемый ОС как физический диск. ОС воспринимает его как обычный винчестер. LUN'ы контроллера PERC H700, расположенные на одних винчестерах, могут иметь разные уровни RAID. Например, на четырёх дисках при желании можно создать три LUN: один – 10-го уровня, один – 5-го и один – 6-го.

Мой сервер имеет три диска, один из которых выделен под hot spare. На двух оставшихся создан LUN уровнем RAID 1 на весь доступный объём. Свободных дисков в сервере нет, поэтому продемонстрировать процесс не представляется возможным. Ничего сложного и необычного там нет: выбор уровня массива и объёма, целевых дисков, размера блока записи, политик кэширования.

Контроллер позволяет очистить свою конфигурацию. После очистки вся информация об имевшихся виртуальных дисках и данные на них будут потеряны.

Patrol Mode – это проверка поверхности физических дисков на предмет сбойных секторов. Если обнаруживается бэд-блок, он ремапится диском. Запускать этот процесс нужно систематически для поддержания рабочей поверхности винчестеров в отличном состоянии. Для запуска предусмотрены автоматический и ручной режимы. Можно запретить проверку совсем. Конечно, автоматическая проверка – наиболее оптимальный вариант. Patrol Read запускается только на дисках, входящих в состав виртуальных дисков, либо hot spare.

Поддаются настройке приоритеты ребилда, фоновой инициализации, Сonsistency Сheck, перестройки массива, разрешение остановки Consistency Check при обнаружении ошибки, разрешение автозамены члена виртуального диска при надвигающемся сбое, включение опции, при которой диск в определённом слоте дисковой корзины автоматически считается hot spare.

Пару слов о Consistency Check. Это проверка уже структуры RAID-массива на ошибки, в отличие от Patrol Read, проверяющего состояние поверхности пластин. Предположим, что на массиве 5-го уровня из четырёх дисков блок данных записан на три диска и ещё на одном диске лежит контрольная сумма трёх частей. Таким образом, при потере одного диска данные не остаются. Предположим теперь, что данные блока на одном диске повреждены (например, бэд-блок), при этом выходит из строя второй диск. Начинается ребилд на hot spare или свежевставленный диск. Т.к. все данные со второго диска утеряны, контроллер по оставшимся блокам вычисляет потеряннее данные и записывает на новый диск массива. Что же произойдёт, когда придёт пора восстановления утерянной части рассматриваемого нами блока? А вот что: контроллер «восстановит» и запишет неверные данные, т.к. из трёх «оставшихся в живых» частей одна искажена. И мы об этом не будем знать. Если бэд-блок был не софтовым, а физическим, то ребилд будет остановлен. Вот вам и отказоустойчивый RAID 5 с hot spare.

Для разрешения таких случаев и предусмотрена проверка консистентности. Алгоритм таков: сравнение блоков данных и блока контрольных сумм либо блоков данных в случае массивов 1/10. Если все блоки читаются, то перезаписываются блоки сумм. Как контроллер определяет, какой именно из блоков на массивах 1/10 верный – вопрос интересный. Если какой-то блок не читается (бэд-блок), контроллер вычисляет его содержимое по остальным блокам и перезаписывает его (при физическом бэд-блоке произойдёт ремап).

К сожалению, в Web-интерфейсе OMSA нет возможности настраивать автоматическую проверку, только вручную. Я узнал, что создать задание для периодической проверки можно с помощью средств командной строки OMSA, но пока не пробовал.

Продолжим. Контроллер умеет управлять вращением пластин винчестеров, не входящих в состав массивов и hot spare, останавливать hot spare и настраивать время, через которое шпиндели дисков будут остановлены.



Из отчётов контроллера доступны отчёты Patrol Read, Сonsistency Сheck и о занятости слотов корзины.



В описании BBU видим статус батареи, прогноз состояния, статус и режим тестирования. Из задач доступны запуск и выставление задержки тестирования.



Для винчестеров можно посмотреть краткую и полную информацию:



Показано состояние, интерфейс, прошивка, ёмкость, валидированность, доступный и используемый объём, производитель, hot spare или нет, серийный номер, дата производства.

Из задач доступны мигание, отключение мигания и перевод диска в статус «offline» - вывод из состава массива перед изъятием из сервера.



Наконец, раздел конфигурации виртуальных дисков. На сервере один виртуальный диск – Virtual Drive 0.



С ним можно сделать следующее. Реконфигурировать – добавить либо удалить из него винчестер, изменить уровень и размер. Удалить. Запустить Consistency Check. Назначить или отменить выделенный для массива hot spare диск. Включить и отключить мигание индикаторов дисков массива. Переименовать. Медленно и быстро инициализировать (используется при создании). Заменить диск-член массива на hot spare или неназначенный диск.

Важная возможность – изменение политики кэширования для виртуального диска:



В наличии три типа политик: чтения, записи и дискового кэша. Политика чтения может быть Adaptive Read Ahead, Read Ahead и No Read.

Read Ahead – при чтении контроллер читает в кэш содержимое большего количества секторов, чем запрошено, предполагая, что при последовательном характере нагрузки скоро придётся читать и далее идущие блоки.

No Read – контроллер читает только запрошенные блоки.

Adaptive Read Ahead – контроллер не кэширует последовательно идущие секторы, но как только два последних запроса на чтение приходятся в последовательные секторы, он переключается в режим Read Ahead. Когда характер нагрузки снова становится случайным, активируется режим No Read.

Политика записи тоже имеет три варианта: Write Through, Write Back и Force Write Back. При Write Through контроллер уведомляет приложение о записи данных только после их фактической записи из оперативной памяти на диски, т.е. по сути это означает отсутствие кэша записи. Обычно используется при отсутствии BBU и работе на массиве критичных к внезапным отказам сервера приложений, например, баз данных.

Write Back означает, что контроллер сигнализирует об окончании записи сразу после того, как данные попадают в его кэш, а реально записать их может через некоторое время. Такой режим значительно повышает производительность, но при отсутствии батареи для защиты кэша чреват потерей незаписанных данных, при этом пользователь даже не будет знать, что данные не записались и какие именно. По умолчанию вендоры не разрешают использование кэша записи при отсутствии батареи, так что если она выйдет из строя в режиме Write Back, политика кэширования изменится на Write Through.

Для тех, кто твёрдо знает, зачем это делает, есть политика Force Write Back, заставляющая контроллер использовать кэш записи даже при отсутствии батареи.

Последний пункт повествования – отображение входящих в состав виртуального диска дисков физических:



Как видим, OpenManage Server Administrator – довольно полезная штука, и заслуживает места в арсенале администратора серверов Dell. Особенно это касается настройки RAID-массивов – чтобы добавить в боевой сервер новые диски, не нужно перегружать его и работать в BIOS контроллера – в Web-интерфейсе и комфортнее, и больше функционал.
[ Теги к этой записи: Dell ]


Постоянная ссылка | Комментарии: 0  | Просмотров: 6812

 
« Предыдущая · Ing-Syst · Следующая »
 
Статьи по этой теме


Корпорация Intel не принимает на себя никакой ответственности, не дает никаких обязательств и не предоставляет никаких прямых и косвенных гарантий в отношении содержания настоящего сайта, в том числе гарантий пригодности для определенной цели, ликвидности, правильности, уместности, а также отсутствия нарушения патентных прав, авторских прав и иных прав интеллектуальной собственности. Любые третьи стороны могут использовать содержание настоящего сайта на свой страх и риск. Весь текст Правил и условий участия вы можете прочитать здесь.