SMART – dahili HDD durum değerlendirme teknolojisi

Mayıs 22, 2023 Yazar: korjeek

Kaynak: http://www.3dnews.ru/storage/smart/

Giriiş

Bugün, bir önceki makalede bir sabit sürücü seçme kriterleri hakkında bahsedilen SMART teknolojisi hakkında biraz daha konuşmak ve ayrıca özel programlarla yüzeyi kontrol ederken ve yorucu olduğunda kötü sektörlerin ortaya çıkması konusunu öğrenmek istiyorum. yeniden atanmaları için yedek yüzey – forumda son makaleden ortaya çıkan bir soru.

Başlamak için, her zaman olduğu gibi, kısa bir tarihsel inceleme. Bir sabit sürücünün (ve genel olarak herhangi bir depolama aygıtının) güvenilirliği her zaman çok önemlidir. Ve mesele hiçbir şekilde maliyeti değil, başka bir dünyaya götürdüğü, hayatın kendisini terk ettiği ve iş kullanıcıları hakkında konuşuyorsak, sabit diskler arızalandığında kesinti süresiyle ilişkili kar kaybının değeridir. bilgi kalsa bile. Ve böyle tatsız anları önceden bilmek istemeniz çok doğal. Hane düzeyindeki sıradan akıl yürütme bile, cihazın çalışma durumunun izlenmesinin bu tür anları önerebileceğini öne sürüyor. Geriye sadece bir şekilde bu gözlemi sabit sürücüde uygulamak kalıyor.

Mavi devin (yani IBM) mühendisleri ilk kez bu görevi düşündüler. Ve 1995’te, sürücünün birkaç kritik parametresini izleyen ve toplanan verilere dayanarak arızasını tahmin etmeye çalışan bir teknoloji önerdiler – Tahmini Arıza Analizi (PFA). Fikir, daha sonra kendi teknolojisi olan IntelliSafe’i yaratan Compaq tarafından alındı. Seagate, Quantum ve Conner da Compaq’ın geliştirilmesine katıldı. Oluşturdukları teknoloji aynı zamanda bir takım disk performans özelliklerini de izlemiş, bunları kabul edilebilir bir değerle karşılaştırmış ve bir tehlike varsa ana sisteme bildirmiştir. Bu, sabit sürücülerin güvenilirliğini artırmasa da en azından bunları kullanırken bilgi kaybı riskini azaltma açısından ileriye doğru büyük bir adımdı. İlk girişimler başarılı oldu ve teknolojinin daha da geliştirilmesi gerektiğini gösterdi. IntelliSafe ve PFA teknolojilerine dayalı S.M.A.R.T (Kendi Kendini İzleme Analiz ve Raporlama Teknolojisi) teknolojisi, tüm büyük sabit sürücü üreticilerinin birliğinde zaten ortaya çıkmıştır (bu arada, PFA, çeşitli alt sistemleri izlemek ve analiz etmek için bir dizi teknoloji olarak hala mevcuttur) disk alt sistemi dahil olmak üzere IBM sunucularının ve ikincisinin izlenmesi tam olarak SMART teknolojisine dayalıdır).

Dolayısıyla SMART, bir diskin durumunu dahili olarak değerlendirmek için bir teknoloji ve bir sabit diskin olası bir arızasını tahmin etmek için bir mekanizmadır. Teknolojinin prensip olarak ortaya çıkan sorunları çözmediğini (ana olanlar aşağıdaki şekilde gösterilmiştir), yalnızca halihazırda ortaya çıkmış veya yakın gelecekte beklenen bir sorun hakkında uyarıda bulunabileceğini not etmek önemlidir.

Aynı zamanda, teknolojinin olası tüm sorunları kesinlikle tahmin edemediği de söylenmelidir ve bu mantıklıdır: bir güç dalgalanması sonucunda elektronik çıktı, bir sonucu olarak kafalarda ve yüzeylerde hasar. etki vb. hiçbir teknoloji tahmin edemez. Yalnızca herhangi bir özelliğin kademeli olarak bozulmasıyla, herhangi bir bileşenin tek tip bozulmasıyla ilişkili sorunlar tahmin edilebilir.

Teknoloji geliştirme aşamaları

SMART teknolojisi, gelişiminde üç aşamadan geçti. Birinci nesilde, az sayıda parametrenin gözlemlenmesi gerçekleştirilmiştir. Sürücünün hiçbir bağımsız eylemi sağlanmadı. Başlatma, yalnızca arayüzdeki komutlarla gerçekleştirildi. Standardı tam olarak açıklayan bir spesifikasyon yoktur ve bu nedenle, hangi parametrelerin kontrol edilmesi gerektiğine dair net bir kader yoktur ve yoktur. Ayrıca, bunların tanımı ve izin verilen azalma seviyesinin belirlenmesi tamamen sabit sürücü üreticilerine bırakılmıştır (bu doğaldır çünkü üretici, verilen sabit sürücü tarafından tam olarak neyin kontrol edilmesi gerektiğini daha iyi bilir, çünkü tüm sabit sürücüler sürücüler çok farklı). Ve bu nedenle, kural olarak üçüncü taraf şirketler tarafından yazılan yazılım evrensel değildi ve yaklaşan bir arızayı yanlışlıkla bildirebilirdi (karışıklık, farklı üreticilerin çeşitli parametrelerin değerlerini kaydetmesi nedeniyle ortaya çıktı) aynı tanımlayıcı altında). Arıza öncesi durumun tespit edilmesi vakalarının sayısının son derece küçük olduğuna dair çok sayıda şikayet vardı (insan doğasının özellikleri: her şeyi bir kerede almak istiyorsunuz, bir şekilde daha önce ani disk arızalarından şikayet etmek hiç kimsenin aklına gelmemişti. SAMRT’nin tanıtımı). Durum, çoğu durumda SMART’ın çalışması için gerekli minimum gereksinimlerin karşılanmaması gerçeğiyle daha da kötüleşti (bunun hakkında daha sonra konuşacağız). İstatistikler, tahmin edilen arıza sayısının %20’den az olduğunu gösteriyor. Bu aşamadaki teknoloji mükemmel olmaktan uzaktı ama ileriye doğru devrim niteliğinde bir adımdı.

SMART gelişiminin ikinci aşaması olan SMART II hakkında pek bir şey bilinmiyor. Temel olarak, ilkinde olduğu gibi aynı problemler gözlendi. Yenilikler, boşta kalma sürelerinde disk tarafından otomatik olarak gerçekleştirilen yüzeyin arka plan kontrolünün olasılığı ve hata kaydıydı, kontrol edilen parametrelerin listesi genişletildi (yine modele ve üreticiye bağlı olarak). İstatistikler, öngörülebilir arızaların sayısının %50’ye ulaştığını gösteriyor.

Modern aşama SMART III teknolojisi ile temsil edilmektedir. Bunun üzerinde daha ayrıntılı duracağız, genel olarak nasıl çalıştığını, neye ve neden ihtiyaç duyulduğunu anlamaya çalışacağız.

SMART’ın sürücünün ana özelliklerini izlediğini zaten biliyoruz. Bu parametrelere nitelikler denir. İzleme için gerekli parametreler üretici tarafından belirlenir. Her özelliğin bir değeri vardır – Değer. Genellikle 0 ile 100 arasında değişir (ancak 200 veya 255’e kadar çıkabilir), değeri, belirli bir özelliğin bazı referans değerlerine (üretici tarafından belirlenir) göre güvenilirliğidir. Yüksek bir değer, bu parametrede değişiklik olmadığını veya değere bağlı olarak yavaş bozulduğunu gösterir. Düşük bir değer, hızlı bozulmayı veya yakında olası bir arızayı gösterir, yani Değer özelliğinin değeri ne kadar yüksek olursa o kadar iyidir. Bazı izleme programları, Ham veya Ham Değer değerini görüntüler – bu, özniteliğin sürücüde depolandığı dahili biçimdeki değeridir (farklı modellerin ve farklı üreticilerin diskleri için de farklıdır). Basit bir kullanıcı için çok bilgilendirici değil, ondan hesaplanan Value değeri daha büyük ilgi görüyor. Üretici, her özellik için sürücünün hatasız çalışmasının garanti edildiği minimum olası değeri belirler – Eşik. Öznitelik değeri Eşik değerinin altındaysa, bir arıza veya tam bir arıza olasılığı çok yüksektir. Geriye yalnızca özniteliklerin kritik ve kritik olmadığını eklemek kalır. Kritik derecede önemli bir parametre Eşiği aşarsa, gerçek değer arıza anlamına gelir, kritik olmayan bir parametre izin verilen değerlerin üzerine çıkarsa, bir sorun olduğunu gösterir, ancak disk yine de çalışabilir (belki bazı özelliklerde bir miktar bozulma olsa da) : performans, örneğin).

En sık gözlemlenen kritik özellikler şunlardır: Ham Okuma Hata Oranı – Disk donanımından kaynaklanan bir diskten veri okurken hata oranı.

Döndürme Süresi – bir disk paketinin durağan durumdan çalışma hızına dönmesi için geçen süre. Normalleştirilmiş değer (Değer) hesaplanırken, pratik süre fabrikada ayarlanan bazı referans değerlerle karşılaştırılır. Spin Up Retry Count Value = max (Raw eşittir 0) ile bozulmayan maksimum olmayan bir değer, kötü bir şey ifade etmez. Referanstan zaman farkı, örneğin güç kaynağının bizi hayal kırıklığına uğratması gibi bir dizi nedenden kaynaklanabilir.

Döndürme Yeniden Deneme Sayısı – ilk deneme başarısız olursa, diskleri çalışma hızına döndürmek için yapılan yeniden deneme sayısı. Sıfır olmayan bir Ham değer (sırasıyla maksimum olmayan bir Değer), sürücünün mekanik kısmındaki sorunları gösterir.

Arama Hata Oranı – kafa bloğunu konumlandırırken hata oranı. Yüksek bir Ham değer, hasar görmüş servolar, disklerin aşırı termal genleşmesi, konumlandırma ünitesindeki mekanik sorunlar vb. gibi sorunların varlığını gösterir. Sürekli yüksek bir Değer, her şeyin yolunda olduğunu gösterir.

Yeniden Tahsis Edilen Sektör Sayısı – sektör yeniden eşleme işlemlerinin sayısı. Modern olanlarda SMART, sektörü anında istikrar açısından analiz edebilir ve bir başarısızlık olarak kabul edilirse yeniden atayabilir. Aşağıda bunun hakkında daha ayrıntılı olarak konuşacağız.

Kritik olmayan, tabiri caizse, bilgi niteliğindeki özelliklerden genellikle aşağıdakiler izlenir:
Başlat/Durdur Sayısı iş milinin toplam başlatma/durdurma sayısıdır. Disk motorunun yalnızca belirli sayıda açma/kapama işlemine dayanması garanti edilir. Bu değer Eşik olarak seçilir. 7200 rpm dönüş hızına sahip ilk disk modelleri güvenilmez bir motora sahipti, yalnızca küçük bir kısmını transfer edebildi ve hızlı bir şekilde arızalandı.
Açılış Saatleri – açık durumda geçirilen saat sayısı. Bunun için eşik değer olarak Passport Time Between Failure (MBTF) seçilmiştir. Genellikle oldukça olası olmayan MBTF değerleri göz önüne alındığında, parametrenin kritik bir eşiğe ulaşması pek olası değildir. Ancak bu durumda bile diskin arızalanması tamamen isteğe bağlıdır.
Sürücü Güç Döngüsü Sayısı – tam disk açma/kapama döngülerinin sayısı. Bu ve önceki öznitelik, örneğin satın almadan önce diskin ne kadar kullanıldığını tahmin etmek için kullanılabilir.
Sıcaklık – basit ve net. Dahili sıcaklık sensörünün okumaları burada saklanır. Sıcaklığın disk ömrü üzerinde büyük bir etkisi vardır (kabul edilebilir sınırlar içinde olsa bile).
Mevcut Bekleyen Sektör Sayısı – değiştirilmeye aday sektörlerin sayısı burada saklanır. Henüz kötü olarak tanımlanmadılar, ancak onları okumak, şüpheli veya kararsız sektörler olarak adlandırılan istikrarlı bir sektörü okumaktan farklıdır.
Düzeltilemeyen Sektör Sayısı – sektöre erişim sırasında düzeltilmemiş hataların sayısı. Olası nedenler mekanik arızalar veya yüzey hasarı olabilir.
UDMA CRC Hata Oranı – verileri harici arabirim üzerinden iletirken oluşan hataların sayısı. Düşük kaliteli kablolar, anormal çalışma modları neden olabilir.
Yazma Hatası Oranı – Diske yazarken oluşan hataların oranını gösterir. Yüzey kalitesinin ve sürücü mekaniğinin bir göstergesi olarak hizmet edebilir.

Meydana gelen tüm hatalar ve parametre değişiklikleri SMART günlüklerine kaydedilir. Bu olasılık zaten SMART II’de ortaya çıktı. Dergilerin tüm parametreleri – amaç, boyut, sayıları sabit sürücü üreticisi tarafından belirlenir. Şu anda sadece onların varlığı gerçeğiyle ilgileniyoruz. Ayrıntılar olmadan. Günlüklerde saklanan bilgiler, durumu analiz etmek ve tahminler yapmak için kullanılır.

Ayrıntılara girmezseniz, SMART’ın işi basittir – sürücünün çalışması sırasında meydana gelen tüm hatalar ve şüpheli olaylar basitçe izlenir ve bunlar ilgili özniteliklere yansıtılır. Ayrıca, SMART II’den itibaren birçok sürücüde kendi kendini tanılama işlevleri bulunur. SMART testleri iki modda başlatılabilir, çevrimdışı – test aslında arka planda gerçekleştirilir, çünkü sürücü herhangi bir zamanda bir komutu kabul etmeye ve yürütmeye hazırdır ve özel, bir komut alındığında testin yürütme biter.

Üç tür kendi kendine teşhis testi belgelenmiştir: arka plan veri toplama (Çevrimdışı toplama), kısaltılmış test (Kısa Kendi Kendini Test), genişletilmiş test (Genişletilmiş Kendi Kendini Test). Son ikisi hem arka planda hem de özel modlarda çalışabilir. İçlerinde bulunan test seti standartlaştırılmamıştır.

Yürütme süreleri saniyelerden dakikalara ve saatlere kadar olabilir. Aniden diske erişmezseniz ve aynı zamanda bir iş yükü sırasındaki gibi sesler çıkarırsa, sadece iç gözlem yapıyor gibi görünür. Bu tür testler sonucunda toplanan tüm veriler ayrıca günlüklerde ve özniteliklerde saklanacaktır.

Ah şu bozuk sektörler…

Şimdi her şeyi başlatan kötü sektörler konusuna geri dönelim. SMART III, kullanıcı için BAD sektörlerini şeffaf bir şekilde yeniden atamanıza izin veren bir özelliğe sahiptir. Mekanizma oldukça basit çalışır, bir sektörün dengesiz okunması veya okunmasında bir hata olması durumunda, SMART bunu kararsız olanlar listesine girer ve sayaçlarını artırır (Current Pending Sector Count). Tekrarlanan erişimlerde sektör sorunsuz okunursa bu listeden atılacaktır. Değilse, fırsat verildiğinde – diske erişimin olmaması durumunda, disk, öncelikle şüpheli sektörler olmak üzere yüzeyde bağımsız bir kontrol başlatacaktır. Sektör kötü olarak tanınırsa, sektöre yedekleme yüzeyinden yeniden atanacaktır (sırasıyla RSC artacaktır). Bu tür arka plan yeniden eşleme, modern sabit disklerde, servis programlarıyla yüzey kontrol edilirken kötü sektörlerin neredeyse hiç görülmemesine yol açar. Aynı zamanda, çok sayıda bozuk sektör ile bunların yeniden atanması süresiz olarak devam edemez. İlk sınırlayıcı açıktır – bu, yedek yüzeyin hacmidir. Aklıma gelen olay buydu. İkincisi o kadar açık değil – gerçek şu ki, modern sabit disklerin iki kusur listesi var P listesi (Birincil, fabrika) ve G listesi (Büyüme, doğrudan çalışma sırasında oluşur). Ve çok sayıda yeniden atama ile, G listesinde yeni bir yeniden atamayı kaydedecek yer olmadığı ortaya çıkabilir. Bu durum, SMART’ta yüksek oranda yeniden eşlenen sektörlerle belirlenebilir. Bu durumda, her şey kaybolmaz, ancak bu, bu makalenin kapsamı dışındadır.

Böylece, SMART verilerini kullanarak, diski atölyeye bile götürmeden, ona ne olduğunu oldukça doğru bir şekilde söyleyebilirsiniz. SMART için, diskin durumunu arızasının nedenini daha doğru ve neredeyse güvenilir bir şekilde belirlemenizi sağlayan çeşitli eklenti teknolojileri vardır. Bu teknolojilerden ayrı bir yazıda bahsedeceğiz.

SMART ile bir sürücü satın almanın, sürücüde meydana gelen tüm sorunlardan haberdar olmak için yeterli olmadığını bilmelisiniz. Disk elbette durumunu dışarıdan yardım almadan izleyebilir, ancak yaklaşan bir tehlike durumunda kendi kendini uyaramaz. SMART verilerine dayalı olarak bir uyarı vermenizi sağlayacak bir şeye ihtiyacınız var. (normal zincir aşağıdaki şekilde gösterilmiştir).
Alternatif olarak, ilgili seçenek etkinleştirildiğinde önyükleme yaparken SMART sürücülerinin durumunu kontrol eden BIOS da mümkündür. Ve diskin durumunu sürekli olarak izlemek istiyorsanız, bir tür izleme programı kullanmanız gerekir. Ardından bilgileri ayrıntılı ve kullanışlı bir şekilde görebilirsiniz.

DOS altında çalışan HDD Speed’den SmartMonitor
Windows’tan çalışan SIGuiardian

Bu programlardan da ayrı bir yazıda bahsedeceğiz. Sabit diskleri SMART ile çalıştırırken ilk başta gerekli gereksinimlerin karşılanmadığını söylediğimde kastettiğim buydu.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Projeniz üzerinde çalışmaya bugün başlayın
Telegram'da bize ulaşın. Bir soru sorun ve hızlı bir yanıt alın.
или
İleti
Telegram'da
Düğmeye tıklayarak, kişisel verilerin işlenmesine onay vermiş ve gizlilik politikasını kabul etmiş olursunuz.