Assiste.com - Sécurité informatique - Vie privée sur le Web - Neutralité d'Internet

cr  02.01.2012      r+  07.09.2022      r-  20.10.2024      Pierre Pinard.         (Alertes et avis de sécurité au jour le jour)

L'acronyme S.M.A.R.T. est utilisé pour : Self-Monitoring, Analysis, and Reporting Technology.




En français, S.M.A.R.T. est traduit en « Technique d’Auto-surveillance, d’Analyse et de Rapport ».

Presque chaque disque dur peut rendre compte d'un ensemble de données sur son état et sa santé. C'est ce que l'on appelle S.M.A.R.T. (Self-Monitoring, Analysis, and Reporting Technology).

Selon les données signalées, une panne de disque dur peut souvent être détectée très tôt. Les températures des disques durs font partie des données lues et il est utile d'identifier les composants en surchauffe qui pourraient réduire la fiabilité des données et la durée de vie du disque.

SpeedFan, un petit logiciel gratuit, offre une caractéristique unique (appelée « analyse en ligne approfondie ») qui compare les données S.M.A.R.T. de votre disque dur avec un modèle théorique de données S.M.A.R.T. établi à partir de milliers ou millions de rapports S.M.A.R.T. du même modèle de disque dur. Cela permet de mieux identifier si un disque dur spécifique est en dehors des valeurs « normales » (habituelles) de ce même modèle.

Attention : S.M.A.R.T., parfois écrit SMART, n’est pas une norme ou un standard. C’est un système de prévision des pannes des disques durs et la seule partie normalisée de S.M.A.R.T. est le mode de communication (le « protocole ») entre le firmware d’un disque dur et le système d’exploitation de l’appareil hôte du disque dur.

« S.M.A.R.T. », par erreur subtilement conduite, a introduit dans l’esprit du consommateur un niveau de confiance élevé dans un disque dur avant son achat et analyse. Tous les fabricants de disques durs déclarent donc leurs disques « S.M.A.R.T. » ou « compatibles S.M.A.R.T. », même s'ils ne fournissent qu’une seule mesure, sans réelle importance.

Les mesures elles-mêmes fournies aux systèmes d’exploitation ne sont pas les mêmes et, lorsque ce sont les mêmes, elles ne sont pas calculées de la même manière chez un fabricant ou un autre.

En gros, S.M.A.R.T. est un truc dont les mesures sont assez floues, en signification comme en calcul de leurs mesures.

S.M.A.R.T. Self-Monitoring, Analysis, and Reporting Technology (recherches avec google)
S.M.A.R.T. Self-Monitoring, Analysis, and Reporting Technology (recherches avec qwant)




Une des premières technologies de surveillance de disques durs a été introduite par IBM en 1992 dans ses baies de disques IBM 9337 pour serveurs AS/400 utilisant des unités de disque IBM 0662 SCSI-2 (l’annonce SZG92-0289 d’IBM n’existe plus sur le WEB, ni même dans les archives du WEB). Plus tard, elle a été nommée « Technologie d'analyse prédictive des défaillances » (Predictive Failure Analysis (PFA) technology). Elle mesurait plusieurs paramètres clés de santé de l'appareil et les évaluait dans le micrologiciel (firmware) du périphérique. Les communications entre l'unité physique et le logiciel de surveillance étaient limitées à un résultat binaire (0 ou 1), à savoir :

  • « L'appareil est OK »

  • « Le lecteur est susceptible de tomber en panne bientôt »

Plus tard, une autre variante, nommée IntelliSafe, a été créée par le fabricant d'ordinateurs Compaq et les fabricants de disques durs Seagate, Quantum et Conner (annonce). Les lecteurs de disque mesureraient les « paramètres de santé » du disque et les valeurs seraient transférées au système d’exploitation et au logiciel de surveillance de l'espace utilisateur. Chaque fournisseur d'unité de disque était libre de décider quels paramètres devaient être inclus pour la surveillance et quels devraient être leurs seuils. La seule unification (normalisation) se faisait au niveau du protocole de communication avec l'hôte.

Compaq a soumis IntelliSafe au comité Small Form Factor (SFF) pour normalisation au début de 1995. IntelliSafe était soutenu par IBM, par les partenaires de développement de Compaq, Seagate, Quantum et Conner, et par Western Digital, qui ne disposait pas de système de prévision des pannes à l'époque. Le Comité a choisi l'approche d'IntelliSafe, car elle offrait plus de flexibilité. Compaq a placé IntelliSafe dans le domaine public le 12 mai 1995.

Cette norme IntelliSafe développée conjointement décrivait un protocole de communication permettant à un hôte ATA d'utiliser et de contrôler la surveillance et l'analyse d’un disque dur, mais ne spécifiait aucune métrique ou méthode d'analyse particulière. Cette norme a ensuite été nommée S.M.A.R.T.. (Seagate parle d'IntelliSafe et de S.M.A.R.T. PDF anglais).

Plus tard, S.M.A.R.T. est venu à être compris (bien que sans aucune spécification formelle) comme faisant référence à une variété de métriques et de méthodes spécifiques, or il est impossible de produire des métriques homogènes avec des systèmes de disques et de connexions aussi différents que SCSI, Fibre Channel, ATA, SATA, SAS, SSA, etc. Un système RAID est vu comme un disque unique alors qu’il est constitué de plusieurs disques.




Il n’y a pas d’accord entre les constructeurs, ni sur une définition précise des attributs, ni sur leurs unités de mesure. Chaque métrique, qui est évaluée de 1 à 253 (1 étant le pire et 253 le mieux), n’a aucune norme d’évaluation (l’évaluation est en fonction du constructeur, à la tête du fabricant) et les fabricants de disques considèrent certaines métriques comme des secrets.

Attributs S.M.A.R.T. connus

Légende

Valeur la plus haute attendue

Une valeur haute est désirée

Valeur la plus basse attendue

Une valeur basse est désirée

Valeur la plus basse attendue

Valeur n'existant plus

Critique

Indicateurs potentiels d’une panne électromécanique imminente

Articles en relation ou de référence


IDHexNom de l’attributDésiré

Description

010x01Read Error Rate
Valeur la plus basse attendue

Indique le taux d’erreur matérielle lors de la lecture de la surface du disque. Une valeur élevée indique un problème soit avec la surface du disque, soit avec les têtes de lecture/écriture. (Valeur brute spécifique au fournisseur.) Stocke les données liées au taux d'erreurs de lecture matérielle survenues lors de la lecture de données à partir d'une surface de disque. La valeur brute a une structure différente pour différents fournisseurs et n'est souvent pas significative en tant que nombre décimal.

020x02Throughput Performance
Valeur la plus haute attendue

Performance de débit générale en sortie du disque dur. Si la valeur de cet attribut diminue, il y a une forte probabilité qu'il y ait un problème avec le disque dur.

030x03Spin-Up Time
Valeur la plus basse attendue

Temps moyen de mise en rotation (de zéro RPM [tour par minute] jusqu’au fonctionnement complet) [en millisecondes].

040x04Start/Stop Count

Décompte des cycles de démarrage/arrêt du disque dur. Le disque dur démarre, et par conséquent le compteur est augmenté, à la fois lorsque le disque dur est allumé après avoir été complètement éteint auparavant (déconnecté de la source d'alimentation) et lorsque le disque dur revient après avoir été précédemment mis en mode veille.

050x05Reallocated Sectors Count
Valeur la plus basse attendue

Nombre de secteurs réalloués. Quand le disque dur rencontre une erreur de lecture/écriture/vérification sur un secteur, il note ce secteur (en réalité tout le cluster dans lequel se trouve ce secteur) comme réalloué et transfère les données vers une zone saine de la surface disque. Ce processus est aussi connu sous le nom de remapping et les secteurs réalloués sont appelés remaps. C’est pourquoi, sur les disques dur modernes, on ne peut pas voir de « mauvais » blocs lorsque l'on teste la surface du disque (tous les mauvais secteurs sont cachés dans les secteurs réalloués). Cependant, plus il y a de secteurs réalloués, plus la vitesse d’écriture/lecture diminue. Lire :

060x06Read Channel Margin

Marge du canal pendant la lecture des données. La fonction de cet attribut n’est pas spécifiée.

070x07Seek Error Rate
NC N/A

(Valeur brute spécifique au fournisseur.) Taux d'erreurs de recherche des têtes magnétiques. En cas de défaillance partielle du système de positionnement mécanique des têtes, des erreurs de recherche se produiront. Une telle défaillance peut être due à de nombreux facteurs, tels que l'endommagement d'un servomoteur ou la dilatation thermique des plateaux du disque dur avec la montée en température. Une augmentation de ce nombre indique une dégradation du disque. La valeur brute a une structure différente selon chaque fabricant et n'est souvent pas significative en tant que nombre décimal. Lire ces articles.

080x08Seek Time Performance
Valeur la plus haute attendue

Performance moyenne des opérations d’accès des têtes magnétiques. Si cet attribut diminue, c’est un signe de problèmes avec le sous-système mécanique.

090x09Power-On Hours (POH)
Valeur la plus basse attendue

Nombre d’heures de fonctionnement. La valeur brute de cet attribut indique le nombre total d’heures (ou de minutes ou de secondes, selon le constructeur) de fonctionnement du disque. Quand cette valeur se rapproche du niveau critique (durée de vie du disque donnée par le constructeur), le temps moyen entre deux pannes ou MTBF tend vers zéro. Cependant, en réalité, même si le MTBF chute à zéro, cela n’implique pas obligatoirement que le disque va cesser de fonctionner normalement.

100x0ASpin Retry Count
Valeur la plus basse attendue

Nombre d’essais de relancement de la rotation. Cet attribut stocke le nombre total d’essais de relancement de la rotation pour atteindre la pleine vitesse de fonctionnement (à condition que la 1re tentative soit un échec). Une augmentation de cet attribut est signe de problèmes au niveau du sous-système mécanique du disque dur.

110x0BRecalibration Retries
Valeur la plus basse attendue

Cet attribut indique le nombre de fois qu’une recalibration a été relancée (à condition que la 1re tentative soit un échec). Une augmentation de cet attribut est signe de problèmes au niveau du sous-système mécanique du disque dur.

120x0CDevice Power Cycle Count

Cet attribut indique le nombre total de cycles marche/arrêt complets du disque dur.

130x0DSoft Read Error Rate
Valeur la plus basse attendue

Taux d’erreurs non corrigées transmises au système d’exploitation.

220x16Current Helium Level
Valeur la plus haute attendue

Spécifique aux lecteurs He8 de HGST. Cette valeur mesure l'hélium à l'intérieur du lecteur de disque dur spécifique à ce fabricant. Il s'agit d'un attribut de pré-échec qui se déclenche une fois que la sonde détecte que l'environnement interne est hors spécifications.

1700xAAAvailable Reserved Space

Voir attribut 0xE8 (ID 232)

1710xABSSD Program Fail Count

(Kingston) Nombre total d'échecs de fonctionnement du programme flash depuis le déploiement du lecteur. Identique à l'attribut 181.

1980xA0Uncorrectable Sector Count
Valeur la plus basse attendue

Nombre total d'erreurs incorrigibles (de secteurs incorrigibles) lors de la lecture/écriture d'un secteur. Une augmentation de la valeur de cet attribut indique des défauts de la surface du disque et/ou des problèmes dans le sous-système mécanique. Lire ces articles.

Valeur la plus basse attendue
0xA1Valid Spare Blocks

Blocs de rechange valides

0xA3Initial Invalid Blocks

Blocs non valides initiaux

0xA4Total TLC Erase Count

Nombre total d'effacements Triple Level Cell

0xA5Maximum TLC Erase Count

Nombre maximal d'effacements Triple Level Cell

0xA6Minimum TLC Erase Count

Nombre minimal d'effacements Triple Level Cell

0xA7Average TLC Erase Count

Nombre moyen d'effacements Triple Level Cell

0xA9Percentage Lifetime Remaining

Pourcentage de vie restante du disque (pour SSD).

1810xB5Program Fail Count Total
ou
Non-4K Aligned Access Count
Valeur la plus basse attendue

Nombre d'accès aux données utilisateur (à la fois en lecture et en écriture) où les LBA ne sont pas alignés sur 4 Kio (LBA% 8! = 0) ou où la taille n'est pas le module 4 Kio (nombre de blocs! = 8), en supposant une taille de bloc logique (LBS) = 512 B. [Micron : The SMART Command Feature Set – Anglais PDF 26 pages]

1820xB6Erase Fail Count

Nombre d'échecs d'effacement. Attribut "Pre-Fail" utilisé au moins dans les appareils Samsung.

1830xB7SATA Downshift Error Count
ou
Runtime Bad Block
Valeur la plus basse attendue

Attribut Western Digital, Samsung ou Seagate :

  • Nombre de rétrogradations de la vitesse de la liaison (par exemple de 6 Gbit / s à 3 Gbit / s) ou

  • Nombre total de blocs de données avec des erreurs détectées et incorrigibles rencontrées en fonctionnement normal.

Bien que la dégradation de ce paramètre puisse être un indicateur du vieillissement du disque dur et/ou indiquer des problèmes électromécaniques potentiels, elle n'indique pas directement une panne imminente du disque dur.

1840xB8Data transfer through RAM buffer cache between host and hard drive
Valeur la plus basse attendue

Transfert des données à travers le cache tampon RAM entre l' hôte et le disque dur

1870xBBReported Uncorrectable Errors
Valeur la plus basse attendue

Le nombre d'erreurs qui n'ont pu être corrigées par le code correcteur (?) (voir attribut 195)

1880xBCCommand Timeout
Valeur la plus basse attendue

Nombre d'opérations interrompues à cause d'un timeout du disque dur.

1900xBEAirflow Temperature (WDC)
Valeur la plus basse attendue

Température de l’air sur les disques Western Digital (la même que la température (C2), mais la valeur de l’attribut est inférieure de 50).

1910xBFG-sense Error Rate
Valeur la plus basse attendue

Nombre d'erreurs dues à des chocs externes et/ou vibrations.

1920xC0Power-off Retract Count

Indique le nombre d'arrêts d'urgence, c'est-à-dire, le nombre total d'arrêts non sécuritaires du disque dur, souvent causés par un arrêt forcé de l'ordinateur ou un choc violent.

1930xC1Load/Unload Cycle
Valeur la plus basse attendue

Nombre de cycles de chargement/déchargement dans la position où la tête magnétique est posée.

1940xC2Temperature
Valeur la plus basse attendue

Température interne actuelle.

1950xC3Hardware ECC Recovered
NC N/A

Temps entre les erreurs corrigées par code correcteur (?) (augmente et diminue, une faible valeur est probablement mauvaise).

1960xC4Reallocation Event Count
Valeur la plus basse attendue

Nombre d’opérations de réallocation (remap). La valeur brute de cet attribut est le nombre total de tentatives de transfert de données entre un secteur réalloué et un secteur de réserve. Les essais fructueux et les échecs sont tous comptés au même titre.

1970xC5Current Pending Sector Count
Valeur la plus basse attendue

Nombre de secteurs « instables » (en attente de réallocation). Quand des secteurs instables sont lus avec succès, cette valeur est diminuée. Si des erreurs se produisent à la lecture d’un secteur, le disque va tenter de récupérer les données, puis de les transférer vers la zone de réserve et va marquer le secteur comme réalloué.

1980xC6Uncorrectable Sector Count
Valeur la plus basse attendue

Nombre total d’erreurs incorrigibles à la lecture/écriture d’un secteur. Une augmentation de cette valeur indique des défauts de la surface du disque et/ou des problèmes avec le sous-système mécanique.

1990xC7UltraDMA CRC Error Count
Valeur la plus basse attendue

Nombre d’erreurs dans le transfert de données via le câble d’interface comme déterminé par l’ICRC (Interface Cyclic Redundancy Check, littéralement vérification des redondances cycliques de l’interface).

2000xC8Write Error Rate /
Multi-Zone Error Rate
Valeur la plus basse attendue

Nombre total d’erreurs à l’écriture d’un secteur.

2010xC9Soft Read Error Rate /
Soft Read Error Rate
Valeur la plus basse attendue

Nombre total d’erreurs off-track.

2200xDCDisk Shift
Valeur la plus basse attendue

Distance de laquelle le disque est déplacé par rapport à son axe de rotation (habituellement à cause des chocs). L’unité de mesure est inconnue.

2210xDDG-Sense Error Rate
Valeur la plus basse attendue

Nombre d’erreurs résultant de chocs ou de vibrations externes.

2220xDELoaded Hours

Temps de fonctionnement passé en charge de données (mouvement de l’armature des têtes magnétiques).

2230xDFLoad/Unload Retry Count

Nombre d'essais infructueux de chargement/déchargement de la tête avant changement effectif du statut.

2240xE0Load Friction
Valeur la plus basse attendue

Résistance causée par la friction dans les parties mécaniques en cours de fonctionnement.

2260xE2Load 'In'-time

Temps total de charge sur l’actuateur des têtes magnétiques (temps qui n’est pas passé en zone de positionnement fixe).

2270xE3Torque Amplification Count
Valeur la plus basse attendue

Nombre de tentatives de compensation des variations de la vitesse de rotation du plateau.

2280xE4Power-Off Retract Cycle
Valeur la plus basse attendue

Nombre de fois que l’armature magnétique a été rétractée automatiquement à la suite d'une coupure d’alimentation.

2300xE6GMR Head Amplitude

Amplitude des « à-coups » (amplitude du mouvement d’avance et de recul répétitif de la tête)

2310xE7Life Left (SSDs) or Temperature (HDDs)

Sur un disque SSD, indique la durée de vie approximative qu'il lui reste, que ce soit en termes de cycles d'écriture (program/erase cycles) ou au niveau du nombre de blocks réservés encore disponibles.

Il s'agit d'un indice compris entre 0 et 100 : de manière normalisée, la valeur 100 correspond à un disque SSD neuf, tandis que la valeur seuil de 10 indique que le SSD doit être remplacé rapidement. Une valeur de 0 peut signifier que le disque fonctionne en mode "lecture-seule" afin de permettre la récupération des données présentes sur le disque.

Avant 2010, cet attribut était occasionnellement utilisé pour rapporter la température du disque (mais on utilise plus généralement l'attribut 0xC2 pour cela).

2320xE8Endurance Remaining
ou
Available Reserved Space

Nombre de cycles d'effacement physique effectués sur le SSD en pourcentage du nombre maximal de cycles d'effacement physique que le disque SSD est prévu de supporter. Les SSD Intel indiquent l'espace réservé disponible sous forme de pourcentage de l'espace réservé initial.

2400xF0Head Flying Hours

Temps total où les têtes mécaniques sont au-dessus des plateaux, et pas dans une position parquée (en heure)