Accueil
Accueil
S'inscrire
Contactez-nous
Bande Passante
Mesurer votre bande passante
Fiches
Supervision
Bonnes Pratiques ITIL
Version Anglaise
Fault Management
Performance Management
All-in-one Monitoring
ITIL
Informations
Monitoring News
ozMonitor News
Demos
Google monitor
MSN monitor
Yahoo monitor
Articles les plus lus
Société
La Société
OZOOD Solutions
Conditions Générales
Connexion





Perdu votre mot de passe ?
Qui est en ligne ?
Il y a actuellement 71 connectés et 1 membre

 
Gestion de la Disponibilité : Mise en oeuvre

Déterminer les besoins en Disponibilité

  • définition des fonctions Métiers vitales.
  • définition Métier de la notion d’indisponibilité d’un Service.
  • l’impact Métier de l’interruption du Service.
  • délais Métiers acceptables pour l’interruption de Service et le fonctionnement en dégradé.
  • les jours et heures demandées pour la fourniture du Service.
  • le calendrier des différentes périodes de travail Métiers (périodes critiques, etc.).
  • besoins de sécurité spécifiques.


Activités de conception

Disponibilité

Conception des architectures techniques de l’infrastructure et de l’alignement des fournisseurs internes et externes pour répondre aux besoins de Disponibilité.

Activité proactive : éviter l’interruption des Services.

Restauration

Conception des différents points pour le redémarrage le plus rapide possible d’un Service après son interruption.

Activité réactive : minimiser l’impact Métier et Utilisateurs d’une interruption de Service.

Activités de conception : la Disponibilité

Points à considérer dans la conception

1. Composants et produits de base

La commande et le développement des composants de base de l’infrastructure doivent intégrer les critères nécessaires à la Disponibilité attendue.

Si ces composants de base ne répondent pas aux critères demandés, il est illusoire de travailler sur les autres points.

2. Processus de la Gestion des Services

Les processus de Gestion des Incidents, des Problèmes, des Changements jouent un rôle crucial .

3. Administration des systèmes

Surveillance, diagnostic et corrections automatiques des pannes permettent d’accélérer leur détection et leur résolution.

4. Solutions de haute disponibilité

Eradication des points simples de panne (SPOF ou Single Point Of Failure) et/ou le stockage de composants de remplacement en cas de panne en production (pour minimiser le temps de restauration du Service).

Elimination ou minimisation de l’effet des arrêts planifiés (maintenance ou mises en production) .

5. Solutions spécifiques avec redondance totale

Solutions onéreuses avec redondance (duplication des composants et utilisation en parallèle).

Inclut obligatoirement l’environnement informatique (alimentation électrique, etc.).

Définitions suggérées

  • Haute Disponibilité (High Availability) : Caractéristique d’un Service des SIs qui minimise ou masque les effets d’une panne de composant sur les activités Utilisateurs.
  • Exploitation en continu (Continuous operation) : Caractéristique d’un Service des SIs qui minimise ou masque les effets d’un arrêt de production planifié.
  • Disponibilité en continu (Continuous availability) : Caractéristique d’un Service des SIs qui minimise ou masque les effets de TOUTES les pannes ET arrêts de production PLANIFIES.

Activités de conception : la Restauration

Il est impossible d’avoir une Disponibilité de 100% et des pannes surviendront.

Il est nécessaire de travailler sur la phase de restauration et de redémarrage du Service après une panne.

Chaque panne est un « moment de vérité » : chaque interruption de Service est l’occasion de faire ou de défaire votre réputation chez les organisations Métiers.

Il est nécessaire de prendre en compte les besoins :

  • Métiers : avoir des informations pour les aider à gérer au mieux la période de la panne.
  • DSI : ensemble des outils et procédures pour restaurer en un délai optimum le Service interrompu.

Elément clé : le rôle de la Gestion des Incidents et du Centre de Services

Eviter que des Incidents mineurs se transforment en Incidents majeurs en impliquant dès le début de la panne les bons interlocuteurs afin d’éviter les erreurs.

Lors d’Incidents majeurs, la Gestion des Incidents et le Centre de Services doivent agir selon des règles déjà établies :

  • procédures d’escalade rigoureuses.
  • rôles et responsabilités clairement définis pour la gestion des Incidents majeurs.
  • plan de communication vers les Utilisateurs et Clients pour répondre aux besoins importants d’informations lors d’Incidents majeurs.

Le « cycle de vie » d’un Incident

Chaque Incident passe par les étapes suivantes :

  • apparition.
  • détection.
  • diagnostic.
  • réparation du composant.
  • restauration du composant (réintégration dans l’infrastructure).
  • restauration du Service (et vérification).

Ceci donne une trame dans la réflexion sur la définition d’une restauration rapide des Services.

La supervision des systèmes

Les outils de supervision permettent d’augmenter le niveau de Disponibilité.

Ils peuvent aussi être utilisés pour :

  • fournir une détection automatique des pannes.
  • assister au diagnostic.
  • réparation automatisée des erreurs.

Déterminer les besoins en sauvegarde et restauration

A intégrer très tôt dans le développement ou la sélection de solutions.

Cela devrait couvrir : le matériel, le logiciel et les données.

Développer et tester une stratégie de sauvegarde et restauration et sa planification

Les opérations de sauvegarde et de restauration doivent être automatisées le plus possible.

Les tests de sauvegarde et restauration donnent une approximation des temps (information destinées au plan de communication .

Métrologie de restauration

La durée approximative de restauration d’un Service est une données essentielle pour les organisations Métiers.

Elle permet aux organisations Métiers de prendre des décisions importantes pour gérer la période d’indisponibilité.

Performance dans la sauvegarde et la restauration

La Gestion de la Disponibilité doit continuer rechercher et promouvoir des méthodes rapides de restauration pour tous les Problèmes potentiels.

Restauration du Service et vérification

Un Incident ne devrait être considéré comme fermé qu’au moment où le Service a redémarré et que les activités Métiers fonctionnent de nouveau correctement.

Il est important de vérifier que le Service restauré fonctionne correctement :

  • le plus souvent en ayant un retour des Utilisateurs.
  • quelquefois avec des outils et des méthodes (cas d’un site Internet par exemple).

Ces outils et méthodes doivent être définies et testées.

Différence entre Gestion des Incidents et Gestion de la Disponibilité

Les objectifs des deux processus sont complémentaires : restaurer le plus rapidement le Service interrompu et minimiser l’impact sur les activités Métiers.

La Gestion des Incidents est utilisée par le Centre de Services pour utiliser une approche structurée et cohérente pour la gestion, le suivi et la résolution des Incidents.

La Gestion de la Disponibilité fournit les méthodes, les outils et les techniques employées par les équipes de support à chacune des étapes du « cycle de vie » d’un Incident.

Activités de conception : les arrêts planifiés

Les arrêts planifiés concernent :

  • les maintenances préventives.
  • les montées de version matérielles et logicielles pour mettre en place de nouvelles fonctions ou pour augmenter la Capacité de production.
  • les Changements sur les applications suite à des demandes Métiers.
  • les activations de nouvelles fonctions sur l’Infrastructure.

Les arrêts planifiés sont problématiques sur des Services 24/24 et 7/7 (sites Internet par exemple).

Options pour réduire l’impact Métier

Utiliser des composants de l’infrastructure (CI ou Configuration Item) alternatifs lors des arrêts programmés

Attention que des arrêts planifiés ne tombent pas en même temps sur ces composants.

Planifier les arrêts dans les périodes où il y a le moins d’impact Métiers

Travailler avec les organisations Métiers.

Regrouper les opérations de maintenance en une seule opération

Le bénéfice est de n’avoir qu’un seul arrêt pour plusieurs opérations.

Les risques potentiels à analyser sont :

  • la capacité de l’organisation informatique à mettre en place simultanément un nombre élevé de changements.
  • la capacité à analyser un Problème survenant après l’opération de maintenance multiple.
  • la dépendance des Changements les uns par rapport aux autres lorsqu’un Retour Arrière sur l’un d’entre eux est nécessaire.

Source :

  • Auteur : Pascal Delbrayelle
  • Site : www.eurotil.com
 
< Précédent   Suivant >


 
     
OZOOD Solutions SARL. Copyright 2005