|
Доступные методы диагностики жестких дисковВиталий "Rozik" Розизнаный На написание этой статьи меня сподвигло наблюдение бесконечных «диагностических» плясок с бубном коллег, малознакомых с работой винчестеров, а также многочисленные вопросы пользователей «а что это может быть?». Т. к. телепатическими возможностями гадания на астральной гуще я не обладаю, а мгновенно телепортироваться за тысячу километров к вопрошающему юзеру не способен по определению, то, дабы несколько разгрузиться от бесплатной диагностики, решился я наваять сей скромный труд. В нём описывается набор стандартных действий по диагностике средствами, доступными каждому, и интерпретации результатов оной. Использование специализированных инструментов и программного обеспечения, имеющихся у специалистов по ремонту жестких дисков здесь не рассматривается. Статья в первую очередь рекомендуется продвинутым пользователям и начинающим сервисменам и может быть полезна в качестве пособия по диагностике при приемке неисправных накопителей по гарантии. Вопросы же гарантийности или негарантийности случаев в данной статье не обсуждаются. Для начала, лучшим будет считать, что о жестком диске совершенно ничего неизвестно, т. к. зачастую предположения неподготовленного пользователя, обратившегося к нам, имеют достаточно мало общего с действительностью. Практика показывает, что под пользовательским диагнозом «винчестер не стартует» может скрываться как клин двигателя, так и банальный слет Windows под воздействием тысчонки-другой окопавшихся на винчестере вирусов. 1. Внешний осмотрРазумеется, начинаем с внимательного осмотра внешнего вида. Настоятельно рекомендую вооружиться лупой. Внешний вид может очень много рассказать о винчестере. К примеру, многочисленные царапины на боковинах корпуса говорят о том, что жесткий диск часто снимался-ставился, причем неаккуратно и впопыхах. Разумеется, для проведения этих операций системник не вытаскивался на освещенное место и не клался на бок для комфортной работы, а делалось это всё под «компьютерным» столом в узкой, пыльной и темной «будке», где системник, как правило, помещается. Будет справедливым предположить, что многочисленные манипуляции по съёму-установке предпринимались для переноса винчестера по различного рода местам, поэтому нелишне будет исследовать накопитель на предмет следов от ударов о бетонный пол, асфальт и пр. Неудобные условия для монтажа, описанные выше, зачастую приводят не только к косметическим повреждениям на боковинах, но и к порезам как уплотнителя крышки гермоблока, так и наклейки на технологическом окне, что ведет к разгерметизации винчестера. Попавшие внутрь остатки уплотнителя вместе с клеем, а также пыль окружающей среды ведут к мучительному подыханию голов и запилам на магнитных дисках. Изучив корпус, переходим к внимательному осмотру платы электроники. Для этого могут понадобиться различные специфические отвертки для снятия платы как то: TORX-9, TORX-5 и т. д., т. к. на некоторых винчестерах (WD, в последнее время Seagate), в том числе и ноутбучных, элементы на плате спрятаны внутрь, и рассмотреть их без снятия последней физически не представляется возможным. В первую очередь нас интересуют следы прогаров, прострелов элементов на плате, снесенные элементы, о былом наличии которых можно судить по оставшимся ошметкам в местах пайки. Типичными местами пробоев являются защитные стабилитроны на Seagate, Samsung, в последнее время и WD с Hitachi. Далее идут так называемые «нулевки» или «фузы» (нулевые резисторы либо предохранители, горящие при пробое стабилитронов, дабы не насиловать коротким замыканием блок питания: Samsung, последние WD). Затем представляют интерес драйвера двигателей и головок: настоящий рекордсмен здесь WD, реже Maxtor, Seagate. Исследуем PATA интерфейс на наличие вдавленных пинов (вдавленный 21-й пин ведет к тормозам при операциях записи-чтения или к зависанию на POST на некоторых материнских платах), говорящих о многократных панических всовываниях и вытаскиваниях кабеля (та самая «пляска с бубном» - а вдруг запустится), заломанных пластмассовых отбортовок, вследствие резкого бокового перекоса при снятии кабеля. Встречались случаи с загнутым вниз либо вообще отломанным от платы PATA интерфейсом - здоровяков на Руси хватает. На WD, вследствие частых и хаотических дерганий нередко отрывают колодку питания от платы. Внимательно осматриваем место пайки на снятой плате под лупой на наличие трещин в припое. Хлипкий SATA интерфейс страдает обламыванием пластмассового основания группы контактов, как на шине данных, так и по питанию, вследствие резкого и сильного перекоса кабелей при их снятии. В связи с отказом производителей от свинцовых припоев вылезла проблема окисления контактных площадок на платах электроники винчестеров. Проблема несколько преувеличенная, и при нормальных условиях эксплуатации не имеющая негативных последствий. Игольчатые либо пружинные контакты достаточно надежно накалывают контактные площадки и обеспечивают вполне приемлемое соединение. Но, как показала практика, при несоблюдении прежде всего температурного режима, процесс окисления принимает лавинообразный характер, особенно если ему сопутствует повышенная влажность. Попадались случаи, когда контактные площадки окислялись буквально до черноты. Это действительно вело к жутчайшим глюкам накопителя: хаотическим софтбэдам, проблемам с чтением-записью, вплоть до развала внутренней микропрограммы. Косвенно такое состояние платы может свидетельствовать о перегреве в процессе эксплуатации в дешевых невентилируемых системных блоках, либо в различного рода видеорекордерах. В визуальную диагностику входит и проверка правильности установки перемычек. Самые распространенные ошибки: WD установлен «мастером» на контактах 5-6 ( ::I:: - винчестер не определяется, либо долго висит на POST) - перемычка должна быть снята либо установлена в «нейтраль» на контакты 4-6; Samsung установлен «слейвом» на контактах 5-6 ( :I:: - винчестер обрезается до 32 ГБ) - перемычка должна быть снята, либо установлена в «мастер» на контакты 7-8 ( I::: ). Ставшая уже классической багофича южных мостов VIA VT8237 (R, R Plus) с неопределением на них SATA-2 винчестеров лечится установкой перемычки в SATA-1 (WD, Seagate, Samsung), либо, при отсутствии перемычек, программной модификацией фирмваре (Hitachi, Samsung). 2. «Тестер в зубы»Если ничего интересного не обнаружено, то вооружаемся тестером и прозваниваем цепи питания винчестера на колодке питания PATA либо SATA. Во-первых, это позволит нам попытаться обнаружить элементы, пробитые без дыма. Во-вторых, мы предохраним себя от подключения короткозамкнутого винчестера к нашему тестовому блоку питания. Сопротивление между общим проводом и любой из веток питания на теоретически исправном диске должно быть порядка нескольких десятков, а то и сотен килоом. Короткозамкнутая на землю ветка говорит о пробитых защитных стабилитронах. Бесконечно большое сопротивление говорит о пробитом на землю стабилитроне и выгоревших «нулевках». (На ноутбучных винчестерах из-за эксплуатации в дешевых карманах, либо сбоях в питателях ноутов прошибает нулёвые «фузы» по 5 Вольтам - они звонятся в обрыв вместо положенных 0 Ом.) Сопротивление порядка сотен Ом относительно общего провода говорит, как правило, о сгоревших элементах, находящихся за уцелевшей защитой, как то: элементы стабилизации, конвертеры напряжений, убитые драйвера двигателей и голов. 3. «На постамент!»Если пока неисправность не обнаружена, подключаем винчестер к отдельному тестовому блоку питания. Изготавливается таковой из обычного качественного блока, путем подсоединения фиксирующейся кнопки к зеленому и черному проводу на 20-контактной колодке. Винчестер кладем платой вверх, дабы наблюдать вновь образующиеся прогары :) и контролировать пальцем :) места повышенного нагрева. Если при включении блок отправился в защиту по КЗ, то немедленно выключаем его и ищем, чего недоглядели-недомеряли. Если БП стартовал, то чутким ухом (стетоскоп приветствуется) слушаем старт винчестера. Нестарт говорит о явных проблемах на плате контроллера: мертвом драйвере двигателя (пробитый зачастую греется, аки сковорода), неисправном ПЗУ, управляющем процессоре (пробитый тоже имеет склонность к повышенному нагреву). На Samsung'ах нередки случаи отрыва прижимной контактной группы, идущей к двигателю - в целях диагностики просто придавим её пальцем. Зудящий вой изношенного шарикоподшипника на пожилых дисках может быть фатальным знаком для тех же «тонких» Maxtor'ов, а может ровным счетом ничего не значить для тех же WD. Специфический металлический скрежет, доносящийся изнутри гермокамеры, скорее всего, повествует об оборванной головке, волочащейся по диску - как правило, вследствие удара, возможно и на ходу. Монотонное клацанье головами с остановками и без них может свидетельствовать, как о неисправной головке либо блоке головок целиком, так и о проблемах с их питанием, идущих от неисправности на плате электроники. В том числе, не исключаем и установленную хитрым юзером чужую визуально исправную плату (чтобы «просунуть винт по гарантии») с неподходящим содержимым ПЗУ, несоответствующей электронной частью (установка зачастую приводит к мгновенной смерти голов на WD). Также стук может быть следствием сбоя в микропрограмме диска. В любом случае, тарабанящий винчестер не мучаем и выключаем. Характерное похрюкивание, попискивание, чирикание и даже музыкальное пение :) без раскрутки двигателя, сопровождающееся зверским нагревом микросхемы управления двигателем свидетельствует о прилипших к дискам головах либо о клине вала двигателя вследствие удара. Долго наслаждаться чириканием и пением категорически не рекомендуется. 4. Программная диагностикаa) ИнициализацияЕсли старт винчестера прошел чисто, без посторонних звуков и возгораний, то только теперь мы можем приступить к программной диагностике, т. е. вполне безбоязненно подключить винчестер к нашему диагностическому компьютеру. Разумеется, ни о каких тестах под «дружественным» Windows XP, монтирующим всё, что движется, и пишущим в фоне на всё, что пишется, не может быть и речи. Тестирование будем вести под DOS. Рекомендую использовать свободно распространяемый под лицензией GNU FreeDOS. Из диагностического ПО нам понадобится ставшая де-факто эталоном первичной диагностики MHDD, а также Vivard для проверки записи. Тестируемый винчестер, подключенный к отдельному блоку питания, подсоединяем к тестовому компьютеру. Компьютер и блок питания винчестера должны, как минимум, быть подключены в один и тот же, желательно заземленный, фильтр-удлинитель. Первым включаем винчестер, вторым компьютер. Наблюдаем прохождение POST. Если винчестер корректно определятся - хорошо. Бывает, определяется так называемыми «псевдонимами» или «технологическими именами», что характерно для Maxtor (Athena, ARES64K, N40P), WD (Mammoth, Sabre, Starling). Причины в поврежденной микропрограмме на дисках либо в нечитающих головах. Если же винт висит и завешивает машину, то выключаем его (вот для чего нужен отдельный блок питания) и продолжаем загрузку, или перезагружаемся, если все зависло наглухо. Следует обратить внимание на то, что по умолчанию DOS пытается читать имеющийся МБР и монтировать разделы с FAT. Причем при проблемах, связанных с логикой, в том числе из-за имеющихся дефектов на винчестере, возможны довольно длительные зависания ОС на старте. Поэтому, в некоторых случаях, даже корректно определяющийся BIOS'ом винчестер есть смысл прогрузить в DOS выключенным. Даём загрузиться операционке, запускаем MHDD (рекомендуется заранее настроить её на исследуемый порт, а не топтать Shift+F3 на ходу), включаем винчестер и наблюдаем за регистрами состояния и ошибок. Долговременный BUSY без раскрутки двигателя говорит о проблемах на плате контроллера. Если двигатель раскрутился, но BUSY не сбрасывается, то есть смысл подозревать головы в проблемном чтении, либо же предположить разрушение микропрограммы на диске. Автоматизировать процесс наблюдения сброса BUSY можно командой wait. Если нормально выходит на готовность и подымает DRSC и DRDY, то тут же софт-ресетим его через F3. Seagate с глючными головами любят в этом месте подвиснуть. Если ресетится чисто, тут же получаем паспорт по F2. Обращаем внимание на наличие установленных HPA и пароля. b) SMARTЕсли паспорт отдал, пытаемся получить SMART по F8. Внимание: SMART должен быть включен в BIOS материнской платы, иначе, в некоторых случаях, возможна ошибка получения атрибутов. Чтобы обойти это без перезагрузки, перед F8 введем smart on. Проблемные WD и Samsung зачастую портят себе часть микропрограммы, отвечающей за SMART, и по F8 могут выдавать ошибку. По получении атрибутов читаем их и пытаемся интерпретировать. Пример SMART нового винчестера: HDD: SAMSUNG HD161HJ; FW: GF100-07; SN: S0V3JDWQ549412
Нельзя однозначно выделить «важные» или «неважные»
для диагностики атрибуты. Все они имеют свою информационную ценность.
Но в первую очередь обратим внимание на: Несмотря на огромное количество программ смарт-мониторинга, наблюдается нездоровая тенденция к прогрессирующему непониманию пользователем, зачем этот SMART нужен :) . Как следствие, неумение пользоваться столь полезной функцией и интерпретировать результаты смарт-диагностики. На вышеуказанном примере мы видим, что у теоретически исправного винчестера текущие (value) значения и наихудшие (worst) должны быть максимально близки, а сырое (raw) значение быть как можно ближе к нулю, за некоторыми исключениями (HDA Temperature, Power-on time, Number of spin-up times). При изучении винчестера с периодически возникающими проблемами, либо вообще с непонятной историей болезни, крайне важное значение имеет изучение наихудших (worst) параметров, сигнализирующих о том, насколько винчестеру было плохо в какой-то промежуток времени. Вот интересный пример Samsung'а, с периодически вылетающей по прогреву на записи 2-й головой. Обнаружить этот плавающий глюк помог нам анализ худших параметров. HDD: SAMSUNG HD401LJ; FW: ZZ100-15; SN: S0HVJ1WL901029
Интересны худшие значения Read error rate, Current pending sectors и Write error rate. По прогреву пишущая головка начинает глючить (Write error rate) и садить софт-бэды, которые и отобразились в Write error rate и Current pending sectors. После довольно продолжительного бездействия головка на время восстанавливает работоспособность и прекрасно убирает дефекты записью, но с нагревом всё начинается снова. Или пример разгерметизированного WD. Целостность уплотнителя была восстановлена, но нормальной работы под нагрузкой, разумеется, достичь не удалось. HDD: WDC WD4000AAKS-00YGA0; FW: 12.01C02; SN: WD-WCAS86084683
Worst Read error rate говорит нам, что винт одно время пребывал просто в ауте, когда его дырявого пытались мучить. Плюс к тому, подваленный worst Spin up time говорит об эксплуатации на плохом блоке питания. Worst Reallocated sectors count поведал нам о том, что бэды от разгерметизации наличествовали, но ушли после записи. Seek error rate показал проблемы с позиционированием - грязные головы либо плохо видят сервометки, либо некоторые сервометки повреждены. Worst Current pending sectors зафиксировал бывшие в очереди дефекты, которые убрались записью. В целом, текущее значение Read error rate означает, что чтение не нормализовалось (что неудивительно на такой плотности) и винт не жилец. На закуску однозначный пример полудохлого Quantum AS, совершенно непригодного к эксплуатации. HDD: QUANTUM FIREBALLP AS20.5; FW: A1Y.4500; SN: 792125276721
431 сремапленный сектор (Reallocated sectors count), 94 в очереди (Current pending sectors). А проблема в практически нечитающих головах. Мусор, который поступает с них, контроллер пока еще в состоянии исправить, но возможности его уже исчерпаны (Hardware ECC recovered) - винчестер находится в коматозном состоянии. c) ВерификацияСледующая диагностическая операция после изучения SMART - верификация поверхности в MHDD. Позволяет визуально локализовать ошибки в работе винчестера: дефекты, зависания, провалы в скорости. Вне зависимости от нашей лени и пожеланий заказчика тестируется полностью весь объем. Верификация, например, 500 ГБ будет идти около 2 часов. В этой части диагностики нас будут интересовать любые ошибки и отклонения от нормы. К примеру, типичная картина для WD со слетевшим куском микропрограммы, отвечающей за трансляцию физических адресов секторов накопителя в LBA: 51 ERR INDX CORR DREQ DRSC WRFT DRDY
BUSY AMNF T0NF ABRT IDNF UNCR
BBK 10 В регистре ошибок наблюдаем поднятый IDNF. Типичная картина для ударенного WD с полуживой 0-й (нижней) головой. Участки зависаний и UNC чередуются с обширными участками нормального чтения живыми головками. В регистре ошибок периодически наблюдаем UNCR. 50 ERR INDX CORR DREQ DRSC WRFT DRDY
BUSY AMNF T0NF ABRT IDNF UNCR
BBK 00
Проблемы с чтением наглядно подтверждает и SMART. Что интересно конкретно в этом экземпляре, что удар получен сверху по крышке, а издохла нижняя голова. Такие вот чудеса. HDD: WDC WD2000JD-00HBB0; FW: 08.02D08; SN: WD-WCAL82186788
Для наглядности результат верификации абсолютно исправного винчестера: 50 ERR INDX CORR DREQ DRSC WRFT DRDY
BUSY AMNF T0NF ABRT IDNF UNCR
BBK 00 d) Общий анализ логических структур ОСТ. к. возможности DOS в быстром визуальном анализе имеющихся на жестком диске файловых структур довольно ограничены, то, признаюсь честно, особых альтернатив Linux и GParted я не вижу. Во-первых, мы предположили вначале, что ничего о тестируемом накопителе неизвестно, в том числе ни об установленных ОС, ни о файловой структуре. Следует согласиться, что кроме Windows в мире существует еще много различных операционных систем. Во-вторых, в пору разгула совершенно безумного числа различных виндовых авторановых вирусов было бы глупо очертя голову подсоединять незнакомый винчестер к любимой винде, на которой только-только в очередной 325-й раз мы вылечили все глюки :) . И, в-третьих, пора уже привыкать к Линуксу как к одному из инструментов на компьютере тестировщика. В крайнем случае, можно ограничиться GParted-LiveCD. GParted имеет «интуитивно понятный дружественный интерфейс», стандартный для такого рода программ, и в деле быстрого анализа имеющихся на диске разделов и файловых систем вполне подойдёт. e) Проверка на записьВнимание! В процессе выполнения этого теста, информация на винчестере будет уничтожена без возможности восстановления! Здесь мы вернемся во FreeDOS. Вместо MHDD предложу воспользоваться Vivard. Он лучше работает в UDMA режиме на запись, плюс к тому, наглядно рисует карту диска при записи, и при ошибках пишет сообщения в специальном окошке :) . У исправного винчестера процедура записи в UDMA режиме занимает приблизительно столько же времени, сколько и верификация. Скорость записи приблизительно равна скорости верификации и имеет плавно падающую к концу диска характеристику. Любые аномалии резко (в разы) отличающиеся от заявленных условий свидетельствуют о ненормальном поведении винчестера при записи. Пример неисправного Seagate, идеально верифицирующегося без единого бэда, но тут же вешающегося при записи: Плюс к тому, в народе давно известны лечебные
свойства записи по всей «поляне», удаляющей софт-бэды, кривые MBR,
вирусы и всю имеющуюся на диске информацию :) . Поэтому сама процедура
заполнения
винчестера нулевыми байтами (аналог так наз. «low-level format»)
совершенно не повредит даже абсолютно исправному накопителю. f) LinuxНе могу обойти вниманием возлюбленных братиев своих во Патрике :) , нежелающих использовать «некошерные» ОС и «юзер-френдли» программы с «интуитивно понятными» графическими интерфейсами. Что нам может дать стандартный набор консольных программ, имеющийся в любом дистрибутиве, в деле программной диагностики накопителя? Кратко остановимся на этом вопросе. В просмотре смарт-атрибутов нам поможет команда smartctl -A /dev/hdX, где -A - вывод только атрибутов, /dev/hdX - наш подопытный винчестер. Для SATA винчестеров команда будет иметь вид smartctl -A -d ata /dev/sdX. Для просмотра имеющихся разделов на всех подключенных накопителях применим fdisk -l. Если нас интересует конкретный подопытный экземпляр, то укажем его: fdisk /dev/hdX, после чего уже в самой программе введем p для просмотра имеющихся разделов. По завершению анализа введем q и выйдем из программы. Для проверки накопителя на бэды используем dd if=/dev/hdX of=/dev/null bs=8K. При наличии таковых dd просигнализирует нам выводом i/o error. Для «low-level format» применим dd if=/dev/zero of=/dev/hdX bs=8K. И в том, и в другом случае для наблюдения за скоростью чтения или записи привлечем на другом терминале watch -n60 killall -SIGUSR1 dd. На первый терминал раз в 60 сек. dd будет выводить промежуточные результаты процесса. В заключение хотелось бы сказать, что как в диагностике, ремонте жестких дисков, восстановлении данных, так и в любой другой работе необходимы вдумчивость, сосредоточенность, неторопливость («винчестеры любят терпеливых») и четкое понимание конечных, в том числе и отрицательных, результатов тех или иных манипуляций. Следует учитывать, что при работе с диском одной из главных задач является - не навредить, не сделать хуже, чем было. Поэтому, после прочтения этого материала, я предлагаю сначала задуматься: стоит ли этим вообще заниматься? И лишь потом приступить практическому применению полученных знаний. |
|||||||||||||||||
With any suggestions or questions please feel free to contact us |