Cloud et Panne : Ne pas sous-estimer les risques

26 novembre 2018/Emilie Ravet

Même s’ils répondent à des critères précis et à des certifications, TIER notamment, les data centers ne sont pas à l’abri d’une défaillance. Elle peut être technique, organisationnelle ou humaine. Pourtant, très peu d’entreprises intègrent ce risque dans leur projet cloud...

Les clients d’OVH se rappelleront de la fin 2017. En novembre, l’hébergeur est victime d’une importante panne qui a touché ses infrastructures. Résultat, plus de 3 millions de sites Web, dont des grands noms des médias, du e-commerce, de la banque ont été impactés !

Plus récemment, en juin, le système européen de Visa est tombé en panne. Même si 91 % des transactions des titulaires de cartes britanniques ont été traitées normalement selon la responsable européenne de la société, des détaillants ont dû délaisser leur machine pour n’encaisser que du liquide.

Ces deux exemples montrent que les data centers et les infrastructures de grands groupes ne sont pas à l’abri d’une défaillance. Or, six entreprises sur 10 migrent leurs données et une partie de leur SI dans le cloud sans évaluer pleinement le coût d’une interruption de service.

C’est ce que l’on découvre en lisant le rapport intitulé « The Truth in Cloud »  de Veritas.

Le plus surprenant est la volonté affichée de franchir le pas vers le cloud et la faible prise de conscience des risques. D’un côté, 99 % des responsables informatiques déclarent que leur entreprise va opérer une migration dans le cloud dans les 12 à 24 prochains mois.

D’un autre côté, une majorité des Français interrogés reconnaissent ne pas avoir évalué le coût d’une interruption de service pour leur entreprise. Or, la menace existe. Selon une enquête de l’Uptime Institute (qui délivre les certifications TIER) menée auprès de 1 000 opérateurs de data centers, entre 25 % et 46 % des personnes interrogées ont connu une panne d’activité.

Certes, cette étude date de 2014. Mais ses résultats sont en partie confirmés par le rapport de Veritas : 36 % des répondants (41 % en France) estiment à moins de 15 minutes par mois la durée totale des interruptions de service. Mais un tiers (20 % dans l’hexagone) indiquent qu’elles peuvent atteindre les 30 minutes, voire plus !

Erreurs humaines : 70 % des pannes

Peut-on imaginer un consommateur revenir une demi-heure plus tard pour faire ses emplettes sur un site de e-commerce inaccessible ? Toutes les études montrent que les internautes sont rarement fidèles à un site et qu’ils recherchent avant tout la bonne occasion !

La fonction principale d’un data center devrait être de fournir un temps de disponibilité constant pour les applications critiques qu’il abrite. Cependant, des pannes imprévues peuvent survenir. Leurs opérateurs doivent être proactifs pour trouver des moyens de les prévenir.

Quatre causes représentent la majorité des pannes.

  • L’erreur humaine

Qu’elles interviennent lors de la conception, de l’installation ou de la maintenance, les personnes sont souvent à l’origine d’une défaillance ou d’un dysfonctionnement. L’Uptime Institute indique que près de 70 % des pannes peuvent être attribuées à des erreurs humaines.

Il faut dire que de nombreux aspects invitent à des erreurs potentielles, que ce soit en raison d’un enchaînement illogique, d’un mauvais (ou de son absence) étiquetage, d’un manque de maintenance ou d’une formation inadéquate.

  • La défaillance du refroidissement

La surchauffe peut faire tomber un data center ou la salle de serveur d’une entreprise. Cas véridique : un stagiaire qui, durant la pause déjeuner, se prend pour l’administrateur et tripatouille des réglages. Résultat, il met en veille la clim ».

Or, lorsque l’équipement devient trop chaud, il s’éteint pour se protéger, ce qui entraîne une défaillance. Dans le cas de notre stagiaire, c’est l’entreprise qui a commis deux fautes. Premièrement, elle a laissé ouverte la salle serveurs durant la pause déjeuner (outre le risque de dysfonctionnement de la climatisation, il y a aussi un risque de vol ou de perte de données). Deuxièmement, elle a laissé le stagiaire seul dans un endroit critique.

  • Les problèmes de câblage

Le câblage est au cœur de toute l’activité d’un data center. Il doit être performant et ne souffrir d’aucune anomalie. Si le système de câblage subit une défaillance, le data center peut également être en danger.

  • Les menaces numériques

Les attaques informatiques sont une cause croissante de pannes dans les centres de données. Là aussi, l’origine peut être interne : un employé tombant accidentellement dans le piège d’une attaque de phishing. Elle peut être aussi d’origine externe : tentative d’intrusion sur le réseau informatique ou attaque Ddos.

Et il y a les pannes qui s’enchaînent. Dans le cas d’OVH, les deux arrivées électriques EDF et les deux groupes électrogènes sont tombés en panne. Résultat, la salle de routage n’était plus alimentée.

Quels que soient les risques, il est indispensable de renforcer les plans B. Il convient aussi de ne pas jeter la pierre trop vite aux techniciens. Par manque de formation ou à cause d’un accroissement de charge de travail, ils peuvent involontairement être à l’origine d’une défaillance. Il est donc indispensable de multiplier les formations et notamment celles consacrées à la sécurité informatique.

Ces sessions ne doivent pas non plus exempter les responsables de la sécurité informatique de renforcer leur politique de gestion des accès et des mots de passe...

Investir dans du câblage haute performance et vérifier périodiquement l’équipement de refroidissement représentent également de sages précautions.

Toutes ces mesures doivent être appliquées par les opérateurs de data centers. Mais leurs clients peuvent aussi s’assurer que ces derniers les appliquent correctement. Il en va de la pérennité de leur activité !

New Call-to-action

Emilie Ravet
À propos de Emilie Ravet : Emilie est responsable Marketing en charge de la publication des articles du blog.

À lire ensuite

protection-donnees-aws

3 mesures indispensables pour protéger ses données dans AWS

La moitié des entreprises qui utilisent le service de stockage cloud Amazon Web Services (AWS) S3 ont subi au...

virtual

Six types de virtualisation

Réduction des coûts, utilisation efficace des ressources, meilleure accessibilité, minimisation des risques......

Cloud-Panne

Cloud et Panne : Ne pas sous-estimer les risques

Même s’ils répondent à des critères précis et à des certifications, TIER notamment, les data centers ne sont pas...