|
Voici onze méthodes et techniques pouvant être utilisées dans le cadre de la Gestion de la Disponibilité.
Component Failure Impact Analysis
CFIA simple : Tableau Composant x Service avec :
- blanc si le Service n’est pas impacté par le Composant.
- « X » si le Service dépend du Composant.
- « A » si le Composant est un Composant alternatif au Service.
- « B » si le Composant est un Composant alternatif au Service mais que le Service doit d’abord être restauré.
En combinant avec les fonctions Métiers vitales et les Utilisateurs
associés à chaque Service, on peut obtenir un tableau reliant un
Composant de l’Infrastructure au nombre d’Utilisateurs impactés par une
panne de ce dernier.
Cette méthode permet d’identifier rapidement les points de panne simples (SPOF) et les Services en risque lors d’une panne de Composant.
CFIA élaboré : il est possible d’ajouter les paramètres suivants :
- probabilité de panne (à partir du MTBF = Mean Time Between Failure).
- temps de réparation.
- procédures de restauration (existence ou absence).
Fault Tree Analysis
Utilisé pour déterminer la chaîne d’événements qui cause une interruption de Service.
Les événements :
- événement de base : point terminal d’une arborescence (défaillance électrique, etc.).
- événement résultant : nœud intermédiaire de l’arborescence (la
racine de l’arborescence est généralement l’interruption d’un Service).
- événement conditionnel : événement ne survenant que dans certaines conditions.
- événement déclencheur : événement déclenchant d’autres
événements (une panne électrique peut lancer un arrêt automatique de
Services).
CRAMM
Cette méthode permet de définir les contre-mesures justifiables pour
protéger la confidentialité, l’intégrité et la Disponibilité de
l’Infrastructure face à des risques potentiels.
Calcul de la Disponibilité
Cette méthode utilise des formules mathématiques pour calculer la
Disponibilité d’un Service en fonction de la Disponibilité de ses
composants élémentaires.
Temps validé = Temps de Disponibilité du Service dans l’Accord.
Temps d’arrêt = Temps d’arrêt du Service pendant la période validée dans l’Accord.
Eléments en série :
Eléments en parallèle :
Calcul de l’indisponibilité
Pour justifier le coût d’un investissement, il est nécessaire
d’intégrer tous les paramètres de coût de l’indisponibilité qui sera
levée.
Développer la métrologie de base de la Disponibilité
Quelques suggestions :
Calcul de base de la Disponibilité
La mesure la plus simple est de donner le taux de Disponibilité.
La grande majorité des Accords de Niveau de Service (SLAs) sont basés sur ce taux de Disponibilité.
Rapport sur la durée totale d’arrêt
- non prévu (pannes).
- planifié (arrêts programmés pendant les heures de Service).
- étendu (temps supplémentaire non prévu pour terminer les opérations de maintenance planifiées).
Rapports basés sur les Incidents
- fréquence des pannes.
- performance des restaurations (temps de restauration et de redémarrage du Service après interruption).
- MTBF (Mean Time Between Failures) : temps moyen entre le redémarrage complet d’un Service et son interruption suivante.
- MTBSI (Mean Time Between System Incidents) : temps moyen entre deux pannes.
- MTTR (Mean Time To Repair) : temps moyen entre l’apparition d’un Incident et sa résolution.
Développer la métrologie Métiers de la Disponibilité
Le taux de Disponibilité réel ne reflète pas toujours la satisfaction Clients.
Différentes approches :
- Le CFIA (Componant Failure Impact Analysis) peut servir de base en y ajoutant une information sur le nombre d’utilisateurs affectés par la panne d’un composant.
- Intégration dans les développements des mesures de Disponibilité.
- Estimation du nombre de transactions perdues pendant la panne (informations fournies par la Gestion des Capacités).
- Sondage quotidien d’un panel d’Utilisateurs (réponses : BON, ACCEPTABLE ou MAUVAIS par exemple).
- Outils de simulations de transactions passées par les Utilisateurs.
- Plaintes des Clients (en relation avec la Disponibilité).
- Pénalités de retard.
- Calcul de la Disponibilité Utilisateurs (absolu) :
- Rapport sur les Incidents avec la durée et le nombre d’Utilisateurs impactés.
- Total : nombre d’Utilisateurs concernés par les Incidents.
- Calcul de la Disponibilité Utilisateurs (productivité).
- Idem avec le produit durée x nombre d’Utilisateurs impactés.
- Total : nombre de jours hommes perdus en raison des Incidents (EUDT ou End-User Downtime).
- Calcul de la Disponibilité Utilisateurs (pourcentage de disponibilité).
- EUPT (End-User Processing Time) = AST (Agreed Service Time ou Durée de Service validée dans l’Accord de Niveau de Service) x Nombre d’Utilisateurs.
- EUA (End-User Availability) = (EUPT – EUDT) / EUPT x 100
Exemple de métrologie Métiers de la Disponibilité
Service fourni 24/24 et 7/7 à 1 000 Utilisateurs et avec 2 heures de maintenance le week-end.
4 Incidents : 60 min et 50 Utilisateurs, 25 min et 20 Utilisateurs, 125 min et 1000 Utilisateurs, 20 min et 1 Utilisateur.
Durée de Service hebdomadaire (AST ou Agreed Service Time) = (24 x 7) – 2 = 166 heures.
EUPT (End-User Processing Time) = 166 h x 1000 Utilisateurs soit 166 000 h ou 9 960 000 minutes.
EUDT = (60 x 50) + (25 x 20) + (15 x 1000) + (20 x 1) = 128 520 min.
EUA (End-User Availability) = (EUPT – EUDT) / EUPT x 100 = (9 960 000 – 128 520) / 9 960 000 x 100 = 98,7 %.
Analyse des pannes de Services (Service Outage Analysis)
Approche structurée pour identifier des opportunités d’amélioration de la Disponibilité finale (côté Utilisateurs).
En collaboration étroite avec la Gestion des Problèmes.
Les objectifs sont :
- identifier les causes sous-jacentes d’une interruption de Service.
- analyser l’efficacité des équipes de support et des processus.
- produire des recommandations.
- initier un programme pour mettre en place les recommandations.
- mesures effectuées sur les améliorations mises en place.
Le « cycle de vie » étendu d’un Incident
Permet d’étudier le cycle de vie complet de son apparition au
rédémarrage du Service et de s’assurer que les temps de chaque phase
sont bien optimisés.
En collaboration avec la Gestion des Incidents et des Problèmes.
L’amélioration continue
La Gestion de la Disponibilité peut aussi jouer un rôle clé dans
l’optimisation des coûts et dans la stabilité de l’Infrastructure.
L’amélioration continue est un élément clé de la Gestion de la Qualité.
Technical Observation Post
Equipe de spécialistes support transversale travaillant sur un sujet particulier concernant la Disponibilité.
Exemple : une équipe peut être constituée pour améliorer
l’efficacité des batches de nuit en travaillant sur l’ensemble des
domaines concernés :
- planification des traitements batch.
- procédures de relance des traitements batch après incident.
- automatisation.
- performance des applications.
- performance de l’Infrastructure.
- procédures et processus opérationnels.
Source :
- Auteur : Pascal Delbrayelle
- Site : www.eurotil.com
|