Tiene como objetivo la detección y
resolución oportuna de situaciones anormales en la red. Consiste de varias
etapas. Primero, una falla debe ser detectada y reportada de manera inmediata.
Una vez que la falla ha sido notificada se debe determinar el origen de la
misma para asà considerar las decisiones
a tomar. Las pruebas de diagnóstico son, algunas veces, la manera de localizar
el origen de una falla. Una vez que el origen ha sido detectado, se deben tomar
las medidas correctivas para reestablecer la situación o minimizar el impacto
de la falla.
El proceso de la administración de fallas
consiste de distintas fases.
- Monitoreo de alarmas. Se realiza la notificación de la existencia de una falla y del lugar donde se ha generado. Esto se puede realizar con el auxilio de las herramientas basadas en el protocolo SNMP.
- Localización de fallas. Determinar el origen de una falla.
- Pruebas de diagnóstico. Diseñar y realizar pruebas que apoyen la localización de una falla.
- Corrección de fallas. Tomar las medidas necesarias para corregir el problema, una vez que el origen de la misma ha sido identificado.
- Administración de reportes. Registrar y dar seguimiento a todos los reportes generados por los usuarios o por el mismo administrador de la red.
Una falla puede
ser notificada por el sistema de alarmas o por un usuario que reporta algún
problema.
1.2.1.-MONITOREO DE ALARMAS
Las alarmas son un elemento importante para la
detección de problemas en la red. Es por eso que se propone contar con un
sistema de alarmas, el cual es una herramienta con la que el administrador se
auxilia para conocer que existe un problema en la red. También conocido como
sistema de monitoreo, se trata de un mecanismo que permite notificar que ha
ocurrido un problema en la red. Esta propuesta se basa en la utilización de
herramientas basadas en el protocolo estándar de monitoreo, SNMP, ya que este
protocolo es utilizado por todos los fabricantes de equipos de red.
Cuando una
alarma ha sido generada, ésta debe ser detectada casi en el instante de haber
sido emitida para poder atender el problema de una forma inmediata, incluso
antes de que el usuario del servicio pueda percibirla.
Las alarmas
pueden ser caracterizada desde al menos dos perspectivas, su tipo y su
severidad.
Tipo de las alarmas
- Alarmas en las comunicaciones. Son las asociadas con el transporte de la información, como las pérdidas de señal.
- Alarmas de procesos. Son las asociadas con las fallas en el software o los procesos, como cuando el procesador de un equipo excede su porcentaje normal.
- Alarmas de equipos. Como su nombre lo indica, son las asociadas con los equipos. Una falla de una fuente de poder, un puerto, son algunos ejemplos.
- Alarmas ambientales. Son las asociadas con las condiciones ambientales en las que un equipo opera. Por ejemplo, alarmas de altas temperaturas.
- Alarmas en el servicio. Relacionadas con la degradación del servicio en cuanto a lÃmites predeterminados, como excesos en la utilización del ancho de banda, peticiones abundantes de icmp.
Severidad de las alarmas.
- CrÃtica. Indican que un evento severo ha ocurrido, el cual requiere de atención inmediata. Se les relaciona con fallas que afectan el funcionamiento global de la red. Por ejemplo, cuando un enlace importante está fuera de servicio, su inmediato restablecimiento es requerido.
- Mayor. Indica que un servicio ha sido afectado y se requiere su inmediato restablecimiento. No es tan severo como el crÃtico, ya que el servicio se sigue ofreciendo aunque su calidad no sea la óptima.
- Menor. Indica la existencia de una condición que no afecta el servicio pero que deben ser tomadas las acciones pertinentes para prevenir una situación mayor. Por ejemplo, cuando se alcanza cierto lÃmite en la utilización del enlace, no indica que el servicio sea afectado, pero lo será si se permite que siga avanzando.
- Indefinida. Cuando el nivel de severidad no ha sido determinado por alguna razón.
1.2.2.- LOCALIZACION DE FALLAS
Este segundo elemento de la administración
de fallas es importante para identificar las causas que han originado una
falla. La alarma indica el lugar del problema, pero las pruebas de diagnóstico
adicionales son las que ayudan a determinar el origen de la misma. Una vez
identificado el origen, se tienen que tomar las acciones suficientes para
reparar el daño.
Pruebas de diagnóstico
Las pruebas de
diagnóstico son medios importantes para determinar el origen de una falla.
Algunas de estas pruebas de diagnóstico que se pueden realizar son:
- Pruebas de conectividad fÃsica.
Son
pruebas que se realizan para verificar que los medios de transmisión se
encuentran en servicio, si se detecta lo contrario, tal vez el problema es el
mismo medio.
- Pruebas de conectividad lógica.
Son
pruebas que ofrecen una gran variedad, ya que pueden ser punto a punto, o salto
por salto. Las pruebas punto a punto se realizan entre entidades finales, y las
salto por salto se realizan entre la entidad origen y cada elemento intermedio
en la comunicación. Los comandos usualmente utilizados son “ping” y
“traceroute”.
- Pruebas de medición.
Esta prueba va de la mano con la
anterior, donde, además de revisar la conectividad, se prueban los tiempos de respuesta en ambos
sentidos de la comunicación, la pérdida de paquetes, la ruta que sigue la
información.
1.2.3.-CORRECCION DE FALLAS.
Es la etapa
donde se recuperan las fallas, las cuales pueden depender de la tecnologÃa de
red. En esta propuesta solo se mencionan las prácticas referentes a las fallas
al nivel de la red.
Entre los
mecanismos más recurridos, y que en una red basada en interruptores son aplicables, se encuentran
los siguientes.
- Reemplazo de recursos dañados. Hay equipos de red que permiten cambiar módulos en lugar de cambiarlo totalmente.
- Aislamiento del problema. Aislar el recurso que se encuentra dañado y que, además, afecta a otros recursos es factible cuando se puede asegurar que el resto de los elementos de la red pueden seguir funcionando.
- Redundancia. Si se cuenta con un recurso redundante, el servicio se cambia hacia este elemento.
- Recarga del sistema. Muchos sistemas se estabilizan si son reiniciados.
- Instalación de software. Sea una nueva versión de sistema operativo, una actualización, un parche que solucione un problema especÃfico, etc.
- Cambios en la configuración. También es algo muy usual cambiar algún parámetro en la configuración del elemento de la red.
1.2.4.- ADMINISTRACION DE REPORTES
Es la etapa de
documentación de las fallas. Cuando un problema es detectado o reportado, se le
debe asignar un número de reporte para su debido seguimiento, desde ese momento
un reporte queda abierto hasta que es corregido. Este es un medio para que los
usuarios del servicio puedan conocer el estado actual de la falla que
reportaron.
El ciclo de vida de la administración de
reportes se divide en cuatro áreas, de acuerdo a la recomendación X.790 de la
ITU-T.
Creación de reportes
Un reporte es creado después de haber
recibido una notificación sobre la existencia de un problema un problema
en la red, ya sea por una alarma, una
llamada telefónica de un usuario, por correo electrónico o por otros
medios. Cuando se crea un reporte de be
contener al menos la siguiente información:
- · El nombre de la persona que reportó el problema
- · El nombre de la persona que atendió el problema o que creó el reporte del mismo.
- · Información técnica para ubicar el área del problema
- · Comentarios acerca de la problemática.
- · Fecha y hora del reporte
Seguimiento a reportes
La
administración de reportes debe permitir al administrador dar seguimiento de
cada acción tomada para solucionar el problema, y conocer el estado histórico y
actual del reporte. Para cada reporte debe mantenerse un registro de toda la
información relacionada al mismo: pruebas de diagnóstico, como fue solucionado
el problema, tiempo que llevó la solución, etc, y esta debe poder ser
consultada en cualquier momento por el administrador.
Manejo de reportes
El administrador
debe ser capaz de tomar ciertas acciones cuando un reporte está en curso, como
escalar el reporte, solicitar que sea cancelado un reporte que no ha sido
cerrado aún, poder hacer cambios en los atributos del reporte, como lo es el
teléfono de algún contacto, poder solicitar hora y fecha de la creación o
finalización de un reporte, etc.
Finalización de reportes
Una vez que el problema reportado ha sido
solucionado, el administrador o la gente responsable del sistema de reportes,
debe dar por cerrado el reporte. Una práctica importante, es que antes de
cerrar un reporte el administrador debe asegurarse que efectivamente el
problema reportado ha sido debidamente corregido.
muy nbueno grasias!!1!
ResponderEliminar