Устранение неполадок в SAN? Что нужно знать • TechRT

SAN или сеть хранения данных состоит из трех уровней: хост/серверы, уровень структуры и массивы хранения. Часто проблемы с производительностью SAN могут быть связаны с неправильной конфигурацией или неисправными компонентами на любом из этих трех уровней. Надлежащие инструменты мониторинга могут помочь вам определить различные показатели производительности, которые могут быть очень полезны при устранении неполадок.

Если у вас возникли проблемы с сетью SAN, вы можете применить пошаговый подход к устранению неполадок. Чтобы помочь вам узнать больше, мы рассмотрели распространенные узкие места производительности SAN, способы выявления этих проблем и рекомендации по устранению неполадок для вашего удобства.

Распространенные проблемы с производительностью SAN

Многое может пойти не так в сложной среде хранения. Правильная идентификация проблем с производительностью может помочь ускорить поиск и устранение неполадок. Мы сгруппировали Сеть хранения данных задачи производительности на семь категорий. Это:

Проблемы совместимости. Узкие места часто возникают, если в среду SAN вводятся несовместимые аппаратные/программные компоненты. У большинства поставщиков есть список совместимых конфигураций, аппаратного и программного обеспечения, который следует поддерживать во избежание проблем с совместимостью.
Неправильное зонирование. Частые изменения 16-значных имен зон SAN часто могут приводить к проблемам с конфигурацией.
Неисправные кабели и соединения. Выход из строя оптоволоконных кабелей является частой причиной для беспокойства, поскольку они часто выходят из строя медленно, вызывая критические проблемы, прежде чем они внезапно отключатся. Использование лучших инструментов мониторинга производительности кабеля может помочь выявить проблему до того, как она приведет к серьезному простою.
Превышение ограничений емкости SAN. Перегрузка канала между коммутаторами, перегрузка портов SAN или подключение нескольких коммутаторов на уровне фабрики — вот некоторые из проблем пропускной способности, которые могут вызвать критические узкие места. Обнаружение этих проблем может быть сложной задачей; следовательно, необходимо использовать правильные решения или программное обеспечение для устранения неполадок.
Проблемы с хранением и конфигурацией хоста. Настройка LUN (номер логического устройства) вручную часто приводит к ошибкам, которые сложно устранить. Некоторые вещи также могут пойти не так на стороне сервера. Такие компоненты, как драйвер адаптера главной шины (HBA), диспетчер томов, ОС и программное обеспечение для управления несколькими путями, должны быть настроены в соответствии со спецификациями поставщика. Любая неправильная конфигурация может привести к проблемам, которые трудно устранить.
Медленное время отклика хранилища. Если устройства хранения, используемые в среде SAN, работают медленно или выходят из строя, это отрицательно скажется на общей производительности SAN. Высокопроизводительные твердотельные накопители часто используются в высокопроизводительных развертываниях, где скорость и надежность не подлежат обсуждению.
Аппаратные сбои. В надежной и хорошо управляемой среде SAN аппаратные сбои случаются редко, но могут вызвать серьезные проблемы. Типичными аппаратными компонентами, которые могут выйти из строя, являются коммутаторы, карты портов и порты SFP.

Как выявить проблемы с производительностью SAN

Системные администраторы часто сообщают об ошибках в своей среде SAN, которые могут быть связаны с рядом проблем с производительностью. Однако иногда проблема вызвана завышенными ожиданиями, которые превышают то, что может предложить система. Это часто происходит, когда технология или оборудование в среде SAN не соответствуют уникальным потребностям бизнеса; следовательно, сеть не дает ожидаемых результатов. Знание того, как их различать, имеет решающее значение для выявления и устранения различных узких мест.

В идеале вы не можете определить проблему, о которой не знаете. Прежде чем вы сможете наметить какую-либо проблему, вы хотите отслеживать производительность всей системы, чтобы у вас были некоторые базовые или контрольные точки производительности. Таким образом, вы можете сравнить данные или показатели и указать конкретное время или возможные причины, по которым система не работала, и т. д.

Некоторые из критических данных, которые вы должны собрать, чтобы помочь в устранении неполадок SAN, включают:

Время отклика. Если задержка операции чтения превышает 15 миллисекунд, вам следует выполнить некоторые действия по устранению неполадок. Проблема может быть связана с вашим хранилищем или адаптерами главной шины. Точно так же, если задержка для операций записи превышает три миллисекунды, это указывает на то, что кэш записи может быть заполнен и, следовательно, проблема с диском.
Средняя длина очереди. Число ожиданий в очереди больше, чем количество шпинделей (составляющих том), часто является признаком проблем с хранилищем SAN.
Процент использования LUN. Эта метрика показывает производительность шпинделей, помогая выявить возможные проблемы.
Операций ввода-вывода в секунду (IOPS). Эта метрика указывает количество операций ввода/вывода в секунду, обслуживаемых массивом хранения SAN.
Ошибки CRC. Чем выше количество проверка циклическим избыточным кодом (CRC), тем выше вероятность проблем с коммутатором SAN. Здесь проблемы с производительностью могут быть связаны с неисправными разъемами или кабелями.
Использование порта. Эта метрика показывает загруженность портов. Его изучение может помочь вам или вашим системным администраторам понять пропускную способность и выявить проблемы с производительностью коммутатора/порта.

Нижняя линия

При устранении неполадок в SAN убедитесь, что вы знакомы с распространенными проблемами производительности и методами настройки. Документирование состояния вашей среды SAN также может сделать устранение неполадок более удобным, поскольку у вас будут некоторые данные или показатели, на которые можно ссылаться. Большинство представленных на рынке программного обеспечения и приложений для мониторинга отправляют текстовые и электронные оповещения при нарушении ключевых пороговых значений, помогая вам реагировать в режиме реального времени. Если должны быть произведены обновления или значительные изменения, вы должны планировать и предвидеть проблемы, которые могут возникнуть. Проведение тщательного анализа «что, если» — отличное место для начала. Вы также хотите регулярно делать резервную копию конфигурации до и после существенных изменений. Таким образом, вы можете быстро восстановить состояние производительности вашей AN в случае непредвиденных узких мест.