Accueil
Accueil
S'inscrire
Contactez-nous
Bande Passante
Mesurer votre bande passante
Fiches
Supervision
Bonnes Pratiques ITIL
Version Anglaise
Fault Management
Performance Management
All-in-one Monitoring
ITIL
Informations
Monitoring News
ozMonitor News
Demos
Google monitor
MSN monitor
Yahoo monitor
Articles les plus lus
Société
La Société
OZOOD Solutions
Conditions Générales
Connexion





Perdu votre mot de passe ?
Qui est en ligne ?
Il y a actuellement 87 connectés et 1 membre

 
Gestion de la Disponibilité : Onze exemples de méthodes et techniques

Voici onze méthodes et techniques pouvant être utilisées dans le cadre de la Gestion de la Disponibilité.

Component Failure Impact Analysis

CFIA simple : Tableau Composant x Service avec :

  • blanc si le Service n’est pas impacté par le Composant.
  • « X » si le Service dépend du Composant.
  • « A » si le Composant est un Composant alternatif au Service.
  • « B » si le Composant est un Composant alternatif au Service mais que le Service doit d’abord être restauré.

En combinant avec les fonctions Métiers vitales et les Utilisateurs associés à chaque Service, on peut obtenir un tableau reliant un Composant de l’Infrastructure au nombre d’Utilisateurs impactés par une panne de ce dernier.

Cette méthode permet d’identifier rapidement les points de panne simples (SPOF) et les Services en risque lors d’une panne de Composant.

CFIA élaboré : il est possible d’ajouter les paramètres suivants :

  • probabilité de panne (à partir du MTBF = Mean Time Between Failure).
  • temps de réparation.
  • procédures de restauration (existence ou absence).


Fault Tree Analysis

Utilisé pour déterminer la chaîne d’événements qui cause une interruption de Service.

Les événements :

  • événement de base : point terminal d’une arborescence (défaillance électrique, etc.).
  • événement résultant : nœud intermédiaire de l’arborescence (la racine de l’arborescence est généralement l’interruption d’un Service).
  • événement conditionnel : événement ne survenant que dans certaines conditions.
  • événement déclencheur : événement déclenchant d’autres événements (une panne électrique peut lancer un arrêt automatique de Services).

CRAMM

Cette méthode permet de définir les contre-mesures justifiables pour protéger la confidentialité, l’intégrité et la Disponibilité de l’Infrastructure face à des risques potentiels.

Calcul de la Disponibilité

Cette méthode utilise des formules mathématiques pour calculer la Disponibilité d’un Service en fonction de la Disponibilité de ses composants élémentaires.

Temps validé = Temps de Disponibilité du Service dans l’Accord.

Temps d’arrêt = Temps d’arrêt du Service pendant la période validée dans l’Accord.

Eléments en série :

Eléments en parallèle :

Calcul de l’indisponibilité

Pour justifier le coût d’un investissement, il est nécessaire d’intégrer tous les paramètres de coût de l’indisponibilité qui sera levée.

Développer la métrologie de base de la Disponibilité

Quelques suggestions :

Calcul de base de la Disponibilité

La mesure la plus simple est de donner le taux de Disponibilité.

La grande majorité des Accords de Niveau de Service (SLAs) sont basés sur ce taux de Disponibilité.

Rapport sur la durée totale d’arrêt

  • non prévu (pannes).
  • planifié (arrêts programmés pendant les heures de Service).
  • étendu (temps supplémentaire non prévu pour terminer les opérations de maintenance planifiées).

Rapports basés sur les Incidents

  • fréquence des pannes.
  • performance des restaurations (temps de restauration et de redémarrage du Service après interruption).
  • MTBF (Mean Time Between Failures) : temps moyen entre le redémarrage complet d’un Service et son interruption suivante.
  • MTBSI (Mean Time Between System Incidents) : temps moyen entre deux pannes.
  • MTTR (Mean Time To Repair) : temps moyen entre l’apparition d’un Incident et sa résolution.

Développer la métrologie Métiers de la Disponibilité

Le taux de Disponibilité réel ne reflète pas toujours la satisfaction Clients.

Différentes approches :

  • Le CFIA (Componant Failure Impact Analysis) peut servir de base en y ajoutant une information sur le nombre d’utilisateurs affectés par la panne d’un composant.
  • Intégration dans les développements des mesures de Disponibilité.
  • Estimation du nombre de transactions perdues pendant la panne (informations fournies par la Gestion des Capacités).
  • Sondage quotidien d’un panel d’Utilisateurs (réponses : BON, ACCEPTABLE ou MAUVAIS par exemple).
  • Outils de simulations de transactions passées par les Utilisateurs.
  • Plaintes des Clients (en relation avec la Disponibilité).
  • Pénalités de retard.
  • Calcul de la Disponibilité Utilisateurs (absolu) :
    • Rapport sur les Incidents avec la durée et le nombre d’Utilisateurs impactés.
    • Total : nombre d’Utilisateurs concernés par les Incidents.
  • Calcul de la Disponibilité Utilisateurs (productivité).
    • Idem avec le produit durée x nombre d’Utilisateurs impactés.
    • Total : nombre de jours hommes perdus en raison des Incidents (EUDT ou End-User Downtime).
  • Calcul de la Disponibilité Utilisateurs (pourcentage de disponibilité).
    • EUPT (End-User Processing Time) = AST (Agreed Service Time ou Durée de Service validée dans l’Accord de Niveau de Service) x Nombre d’Utilisateurs.
    • EUA (End-User Availability) = (EUPTEUDT) / EUPT x 100

Exemple de métrologie Métiers de la Disponibilité

Service fourni 24/24 et 7/7 à 1 000 Utilisateurs et avec 2 heures de maintenance le week-end.

4 Incidents : 60 min et 50 Utilisateurs, 25 min et 20 Utilisateurs, 125 min et 1000 Utilisateurs, 20 min et 1 Utilisateur.

Durée de Service hebdomadaire (AST ou Agreed Service Time) = (24 x 7) – 2 = 166 heures.

EUPT (End-User Processing Time) = 166 h x 1000 Utilisateurs soit 166 000 h ou 9 960 000 minutes.

EUDT = (60 x 50) + (25 x 20) + (15 x 1000) + (20 x 1) = 128 520 min.

EUA (End-User Availability) = (EUPTEUDT) / EUPT x 100 = (9 960 000 – 128 520) / 9 960 000 x 100 = 98,7 %.

Analyse des pannes de Services (Service Outage Analysis)

Approche structurée pour identifier des opportunités d’amélioration de la Disponibilité finale (côté Utilisateurs).

En collaboration étroite avec la Gestion des Problèmes.

Les objectifs sont :

  • identifier les causes sous-jacentes d’une interruption de Service.
  • analyser l’efficacité des équipes de support et des processus.
  • produire des recommandations.
  • initier un programme pour mettre en place les recommandations.
  • mesures effectuées sur les améliorations mises en place.

Le « cycle de vie » étendu d’un Incident

Permet d’étudier le cycle de vie complet de son apparition au rédémarrage du Service et de s’assurer que les temps de chaque phase sont bien optimisés.

En collaboration avec la Gestion des Incidents et des Problèmes.

L’amélioration continue

La Gestion de la Disponibilité peut aussi jouer un rôle clé dans l’optimisation des coûts et dans la stabilité de l’Infrastructure.

L’amélioration continue est un élément clé de la Gestion de la Qualité.

Technical Observation Post

Equipe de spécialistes support transversale travaillant sur un sujet particulier concernant la Disponibilité.

Exemple : une équipe peut être constituée pour améliorer l’efficacité des batches de nuit en travaillant sur l’ensemble des domaines concernés :

  • planification des traitements batch.
  • procédures de relance des traitements batch après incident.
  • automatisation.
  • performance des applications.
  • performance de l’Infrastructure.
  • procédures et processus opérationnels.

Source :

  • Auteur : Pascal Delbrayelle
  • Site : www.eurotil.com

 
< Précédent


 
     
OZOOD Solutions SARL. Copyright 2005