Déterminer les besoins en Disponibilité
- définition des fonctions Métiers vitales.
- définition Métier de la notion d’indisponibilité d’un Service.
- l’impact Métier de l’interruption du Service.
- délais Métiers acceptables pour l’interruption de Service et le fonctionnement en dégradé.
- les jours et heures demandées pour la fourniture du Service.
- le calendrier des différentes périodes de travail Métiers (périodes critiques, etc.).
- besoins de sécurité spécifiques.
Activités de conception
Disponibilité
Conception des architectures techniques de l’infrastructure et de
l’alignement des fournisseurs internes et externes pour répondre aux
besoins de Disponibilité.
Activité proactive : éviter l’interruption des Services.
Restauration
Conception des différents points pour le redémarrage le plus rapide possible d’un Service après son interruption.
Activité réactive : minimiser l’impact Métier et Utilisateurs d’une interruption de Service.
Activités de conception : la Disponibilité
Points à considérer dans la conception
1. Composants et produits de base
La commande et le développement des composants de base de
l’infrastructure doivent intégrer les critères nécessaires à la
Disponibilité attendue.
Si ces composants de base ne répondent pas aux critères demandés, il est illusoire de travailler sur les autres points.
2. Processus de la Gestion des Services
Les processus de Gestion des Incidents, des Problèmes, des Changements jouent un rôle crucial .
3. Administration des systèmes
Surveillance, diagnostic et corrections automatiques des pannes permettent d’accélérer leur détection et leur résolution.
4. Solutions de haute disponibilité
Eradication des points simples de panne (SPOF ou Single Point Of Failure)
et/ou le stockage de composants de remplacement en cas de panne en
production (pour minimiser le temps de restauration du Service).
Elimination ou minimisation de l’effet des arrêts planifiés (maintenance ou mises en production) .
5. Solutions spécifiques avec redondance totale
Solutions onéreuses avec redondance (duplication des composants et utilisation en parallèle).
Inclut obligatoirement l’environnement informatique (alimentation électrique, etc.).
Définitions suggérées
- Haute Disponibilité (High Availability)
: Caractéristique d’un Service des SIs qui minimise ou masque les
effets d’une panne de composant sur les activités Utilisateurs.
- Exploitation en continu (Continuous operation) : Caractéristique d’un Service des SIs qui minimise ou masque les effets d’un arrêt de production planifié.
- Disponibilité en continu (Continuous availability) : Caractéristique d’un Service des SIs qui minimise ou masque les effets de TOUTES les pannes ET arrêts de production PLANIFIES.
Activités de conception : la Restauration
Il est impossible d’avoir une Disponibilité de 100% et des pannes surviendront.
Il est nécessaire de travailler sur la phase de restauration et de redémarrage du Service après une panne.
Chaque panne est un « moment de vérité » : chaque interruption de
Service est l’occasion de faire ou de défaire votre réputation chez les
organisations Métiers.
Il est nécessaire de prendre en compte les besoins :
- Métiers : avoir des informations pour les aider à gérer au mieux la période de la panne.
- DSI : ensemble des outils et procédures pour restaurer en un délai optimum le Service interrompu.
Elément clé : le rôle de la Gestion des Incidents et du Centre de Services
Eviter que des Incidents mineurs se transforment en Incidents
majeurs en impliquant dès le début de la panne les bons interlocuteurs
afin d’éviter les erreurs.
Lors d’Incidents majeurs, la Gestion des Incidents et le Centre de Services doivent agir selon des règles déjà établies :
- procédures d’escalade rigoureuses.
- rôles et responsabilités clairement définis pour la gestion des Incidents majeurs.
- plan de communication vers les Utilisateurs et Clients pour
répondre aux besoins importants d’informations lors d’Incidents
majeurs.
Le « cycle de vie » d’un Incident
Chaque Incident passe par les étapes suivantes :
- apparition.
- détection.
- diagnostic.
- réparation du composant.
- restauration du composant (réintégration dans l’infrastructure).
- restauration du Service (et vérification).
Ceci donne une trame dans la réflexion sur la définition d’une restauration rapide des Services.
La supervision des systèmes
Les outils de supervision permettent d’augmenter le niveau de Disponibilité.
Ils peuvent aussi être utilisés pour :
- fournir une détection automatique des pannes.
- assister au diagnostic.
- réparation automatisée des erreurs.
Déterminer les besoins en sauvegarde et restauration
A intégrer très tôt dans le développement ou la sélection de solutions.
Cela devrait couvrir : le matériel, le logiciel et les données.
Développer et tester une stratégie de sauvegarde et restauration et sa planification
Les opérations de sauvegarde et de restauration doivent être automatisées le plus possible.
Les tests de sauvegarde et restauration donnent une approximation des temps (information destinées au plan de communication .
Métrologie de restauration
La durée approximative de restauration d’un Service est une données essentielle pour les organisations Métiers.
Elle permet aux organisations Métiers de prendre des décisions importantes pour gérer la période d’indisponibilité.
Performance dans la sauvegarde et la restauration
La Gestion de la Disponibilité doit continuer rechercher et
promouvoir des méthodes rapides de restauration pour tous les Problèmes
potentiels.
Restauration du Service et vérification
Un Incident ne devrait être considéré comme fermé qu’au moment où le
Service a redémarré et que les activités Métiers fonctionnent de
nouveau correctement.
Il est important de vérifier que le Service restauré fonctionne correctement :
- le plus souvent en ayant un retour des Utilisateurs.
- quelquefois avec des outils et des méthodes (cas d’un site Internet par exemple).
Ces outils et méthodes doivent être définies et testées.
Différence entre Gestion des Incidents et Gestion de la Disponibilité
Les objectifs des deux processus sont complémentaires : restaurer le
plus rapidement le Service interrompu et minimiser l’impact sur les
activités Métiers.
La Gestion des Incidents est utilisée par le Centre de Services pour
utiliser une approche structurée et cohérente pour la gestion, le suivi
et la résolution des Incidents.
La Gestion de la Disponibilité fournit les méthodes, les outils et
les techniques employées par les équipes de support à chacune des
étapes du « cycle de vie » d’un Incident.
Activités de conception : les arrêts planifiés
Les arrêts planifiés concernent :
- les maintenances préventives.
- les montées de version matérielles et logicielles pour mettre
en place de nouvelles fonctions ou pour augmenter la Capacité de
production.
- les Changements sur les applications suite à des demandes Métiers.
- les activations de nouvelles fonctions sur l’Infrastructure.
Les arrêts planifiés sont problématiques sur des Services 24/24 et 7/7 (sites Internet par exemple).
Options pour réduire l’impact Métier
Utiliser des composants de l’infrastructure (CI ou Configuration Item) alternatifs lors des arrêts programmés
Attention que des arrêts planifiés ne tombent pas en même temps sur ces composants.
Planifier les arrêts dans les périodes où il y a le moins d’impact Métiers
Travailler avec les organisations Métiers.
Regrouper les opérations de maintenance en une seule opération
Le bénéfice est de n’avoir qu’un seul arrêt pour plusieurs opérations.
Les risques potentiels à analyser sont :
- la capacité de l’organisation informatique à mettre en place simultanément un nombre élevé de changements.
- la capacité à analyser un Problème survenant après l’opération de maintenance multiple.
- la dépendance des Changements les uns par rapport aux autres lorsqu’un Retour Arrière sur l’un d’entre eux est nécessaire.
Source :
- Auteur : Pascal Delbrayelle
- Site : www.eurotil.com
|