S.M.A.R.T (Self Monitoring Analysis and Reporting Technology) o como evitar la pérdida de datos en Discos duros


Las únicas piezas electromecánicas de un ordenador suelen ser el disco duro (HDD: Hard Disk Drive) y los ventiladores, ambos tienen un tiempo de vida estimado y limitado a un cierto número de horas de funcionamiento. Los discos duros son piezas informáticas que tienen básicamente dos tipos de componentes:

  1. Piezas electrónicas, como por ejemplo el chip de memoria cache (Bufer) o la controladora de datos (IDE, SATA, SCSI, SAS).
  2. Piezas mecánicas, como por ejemplo el motor de giro del plato o los cabezales de lectura.

La vida media de un disco duro doméstico se estima en unas 500.000 horas MTBF (Mean Time Between Failures, Tiempo medio entre fallos), mientras que la de un disco duro empresarial tienen al menos 1.000.000 de horas MTBF o incluso más (algunos modelos llegan a 1.400.000 horas), visto así podríamos decir que la vida de un disco duro es casi “ilimitada” (500.000 horas equivalen a unos 57 años funcionando las 24 horas) sin embargo la realidad es bastante más dura, muchos fabricante dan una vida útil de sus discos de unos 5 años (la cual me parece más realista). Por otro lado otros fabricantes usan varios sistemas para medir el tiempo de vida de un dispositivo. Teniendo en cuenta que:

  • El MTBF (Mean Time Between Failures, Tiempo Medio Entre Fallos) nos indica el tiempo promedio en que se tiene alta probabilidad de otra falla después de que ocurrió una.
  • El MTTF (Mean Time To Failure, Tiempo Hasta el Fallo) nos indica el tiempo promedio en el que se tiene alta probabilidad de que el sistema falle.
  • El MTTR (Mean Time To Repear, Tiempo Medio de Reparación) nos permite conocer el tiempo promedio que se requiere desde que el sistema falla hasta su completa recuperación. Este último a los usuarios domésticos no nos importa excesivamente ya que en principio no tenemos las misma urgencia para reactivar un sistema como puede ocurrir por ejemplo en una empresa.

Por lo tanto los discos duros tienen mayores probabilidades de fallar que otras piezas únicamente electrónicas (por ejemplo un procesador, una memoria RAM, una tarjeta gráfica,…), desde hace unos años los discos duros implementan un sistema denominado S.M.A.R.T (Self Monitoring Analysis and Reporting Technology, en Wikipedia y Alegsa hay información sobre esta tecnología) que sirve para avisar al usuario de un fallo en el disco duro y así evitar la perdida de datos, para que S.M.A.R.T funcione debe estar activado en la BIOS de la placa base y el disco duro debe soportar dicha tecnología (actualmente cualquier placa base y disco duro deberían soportarlo sin problemas). S.M.A.R.T informa al usuario de diversos parámetros como por ejemplo:

  • La Temperatura del disco: Un aumento de temperatura excesivo del disco puede hacer que funcione mal los elementos electrónicos.
  • Tasa de transferencia: Si van aumentando los errores en la tasa de transferencia es síntoma de que puede haber algún error.
  • Velocidad de lectura: Muy similar al punto anterior, y la tasa de error puede provenir por síntomas muy similares.
  • Tiempo de partida (spinspin-up): Puede ser un reflejo de algún tipo de error de motor del disco.
  • Contador de sectores reasignados: Cuando son reasignados muchos valores, significa que no pueden ser grabados donde se intenta hacerlo, con lo cual deben ser asignados a otros sectores. Esto es una referencia inequívoca del deterioro del disco y de su fallo probablemente inmediato.
  • Altura de Vuelo del Cabezal: La tendencia a la baja en altura de vuelo a menudo presagian un accidente del cabezal, esto significa que puede haber uno de los peores errores de un disco duro. Que el cabezal dañe la superficie física del disco duro y lo deje totalmente inutilizable.
  • Uso de ECC y Conteo de errores: Es un dato importante a tener en cuenta, el número de errores detectados por la unidad, aunque se corrijan internamente, a menudo señala problemas con su desarrollo. La tendencia es, en algunos casos, más importante que el conteo real.

Los valores de los atributos S.M.A.R.T. van del número 1 al 253, siendo 1 el peor valor. Los valores normales son entre 100 y 200. Estos valores son guardados en un espacio reservado del disco duro.

Existen utilidades que evaluan los parámetros S.M.A.R.T del disco duro, tanto para Linux (por ejemplo SMARTMonTools, en el blog de Jorge Huerga y en SIG.net puede encontrarse más información) como para Windows como por ejemplo:

  • Crystal Disk Info (Utilidad Freeware (Gratuita), la última versión es la v2.x), que es un programa ejecutable (sin instalación) que informa del estado de los discos duros del equipo, en Gen Beta hay más información sobre este programa.
  • HDD Scan (Utilidad Freeware) que basa sus diagnósticos en los parámetros S.M.A.R.T.
  • HDD Health (Utilidad freeware en inglés), algo básica pero con la información de interes mínima.
  • Hard Drive Monitor (Otra utilidad freeware) con información básica.
  • El programa HD Tune (la última versión v2.55) que nos permite hacer un escaneado de errores (Sectores Defectuosos), aunque existe una versión Profesional de pago con mayores opciones.
  • El programa Everest de Lavalys (tanto la versión Ultimate como la Corporate (añade temas de red) son de pago, ambas versiones tienen un periodo de prueba), anteriormente este programa se denominaba Aida32 y posteriormente paso a llamarse Everest, la versión Home es la que sustituyo al Aida32, pero actualmente esta versión ha sido abandonada en favor de la Ultimate y Corporate.
  • Programas de pago (que son funcionales durante unos días) especializados en monitorización de parámetros S.M.A.R.T como por ejemplo:

Así mismo las propias utilidades de diagnóstico de los distintos fabricantes (Comentadas en esta entrada) también suelen basar sus diagnósticos rápidos en la información S.M.A.R.T, aunque disponen de diagnósticos más exaustivos pero también más lentos.

Por otro lado para testear el estado del disco duro también se pueden utilizar otros sistemas como por ejemplo:

  • Utilizar el Scandisk de Windows XP (comando CHKDSK) con las opciones /F (Corrige errores del disco) y /R (Encuentra sectores dañados y recupera la información
    legible, implica /F) , ej: CHKDSK C: /F /R haría un análisis de la unidad C.
  • Utilizar un disco de arranque de Windows 98 para hacer el particionamiento (con el comando FDISK) y el posterior Formateo de la unidad (con el comando Format) ya que en muchos casos si durante el particionamiento de la unidad el proceso se reinicia o se bloquea, o durante el formateo aparece el mensaje “Intentanto recuperar sector n”  es un síntoma de un posible fallo. En este caso se perderían los datos del disco duro ya que al volver a particionar y/o formatear la unidad los datos se borran.

Por esta razón cuando dejamos un ordenador funcionando 24 horas al día los 7 días de la semana las primeras piezas que se resienten a largo plazo (y tarde o temprano deben ser sustituidas) son:

  1. El disco duro, el cual suele hacer más ruido con el tiempo que al principio de comprarlo.
  2. Los ventiladores que en muchos casos suelen hacer más ruido del habitual debido al desgaste.
  3. El ventilador de la fuente de alimentación que en caso de fallo, implica la sustitución de la fuente de alimentación o en su defecto si se tienen suficientes conocimientos de electrónica se puede abrir (hay que tener cuidado porque las fuentes trabajan con voltajes muy altos y podría producirse una descarga eléctrica) y sustituir el ventilador estropeado por otro nuevo, aunque esto no deja de ser un “apaño”, en general suele traer más cuenta cambiar la fuente por otra nueva porque evitamos que un posible desgaste de la fuente pueda llegar a afectar a los componentes del ordenador, por ejemplo si se funde la fuente por un pico de tensión y esta no implementa algún tipo de protección (o la que tiene no funciona correctamente) podría llevarse con ella cualquier pieza del equipo (disco duro, memoria RAM, lector CD/DVD, Placa base, CPU,…), por esta razón es importante contar al menos con una regleta de una cierta calidad que proteja frente a estos imprevisto.

En cuanto a mi experiencia personal casi ningún disco que te tenido ha pasado de los 5 años de uso aproximadamente (por regla general han aparecido sectores defectuosos en mayor o menor grado), así que teniendo en cuenta que la garantía de los mismos es de 2 años (algunos dan 3 años e incluso otros llegan hasta los 5 años de garantía), creo que no se puede decir que son piezas “fiables”, sin embargo almacenamos nuestros datos en ellos porque no hay muchas opciones actualmente de almacenamiento masivo que sean tan asequibles como los discos duros ya que en la relación precio/gigabyte son los más baratos (y tienen mejores prestaciones en general) frente a otras soluciones como por ejemplo:

  • Soportes ópticos CD (hasta 700 MB en los CDs convencionales de 80 minutos), DVD (hasta 4,5 GB en DVD de una capa, y 8,5 GB en DVD de doble capa) o Blu-Ray (hasta 25 GB en Blu-Ray una capa).
  • Memorias flash, ya sean USB o tarjetas de memoria (SD, MMC,…).
  • Discos SSD (Solid State Disk/Drive), discos duros basados en memoria flash.

Además teniendo en cuenta que la capacidad de almacenamiento aumenta pero el precio se mantiene, en caso de que un discos nos falle con el cambio de disco duro ganamos por un lado espacio (al tener mayor capacidad) y prestaciones (por regla general los modelos más actuales tienen rendimientos ligeramente mejores que las generaciones anteriores).

3 comentarios

  1. […] S.M.A.R.T (Self Monitoring Analysis and Reporting Technology) o como evitar la pérdida de datos en … […]

  2. […] fiables (su tiempo estimado de vida es de entre unas 500.000 y 1.400.000 horas MTBF o MTTF, en esta entrada hay más información sobre la diferencia entre MTBF, MTTF y MTTR) sin embargo conviene recordar que no son “indestructibles” por lo que es aconsejable […]

  3. […] entre otros parámetros siempre y cuando sean compatibles con la tecnología SMART (En esta entrada hay más información sobre […]

Los comentarios están cerrados.

A %d blogueros les gusta esto: