Retour sur l'incendie de notre datacenter

Retour d'expérience sur l'incendie d'OVH qui a détruit nos serveurs de production et comment nous avons rétabli le service en 48h.

Retour sur l'incendie de notre datacenter

Mercredi 10 mars 2021... le ciel nous est tombé sur la tête : nos serveurs de production sont détruits dans l'incendie du datacenter d'OVH. Retour sur cette aventure et sur les conclusions que nous pouvons en tirer.

Chronologie des événements

Le 10 mars, nous découvrons l'ampleur de la situation (serveurs détruits ainsi que les sauvegardes locales sans espoir de rétablissement) et nous mettons en oeuvre le PRA (plan de reprise d'activité). Nous informons tous nos clients que notre service est interrompu et qu'il ne faut plus transmettre de documents. Un monitoring régulier de la situation est mis en place au travers de notre page du suivi de l'état des plateformes.

Le 11 mars en fin de nuit, la bascule complète des services sur les serveurs de secours (Gravelines) est quasiment achevée.

Le 11 mars le service est rétabli avec quelques fonctions manquantes (le dépot par scanners) et des performances de traitement réduites dues à l'absence de répartition de la charge sur plusieurs serveurs (ceux de Strasbourg n'étants plus disponibles). Les dépôts de fichiers par nos clients reprennent.

Le 12 mars, Conciliator est entièrement fonctionnel. Tous nos clients ont repris un fonctionnement normal. Aucune donnée n'a été perdue ou compromise.

Pourquoi nous avons réussi à rétablir aussi vite le service ?

Le cas évoqué, la destruction totale du site de production principale et des sauvegardes associées, est quasiment le pire des cas qui puisse arriver pour de l'hébergement. Le niveau d'au-dessus correspond à une guerre ou à une attaque malveillante ciblée volontaire de type terroriste : la destruction de tous les sites d'hébergement de notre hébergeur. Cas qui mettrait alors en danger une grande partie de l'économie française.

Nous avons donc été confrontés à un des cas les plus graves en terme d'hébergement et nous avons rétabli tous les services en moins de 3 jours ouvrés sans aucune perte de données.  
Les 4000 utilisateurs de Conciliator n'ont pas pu transmettre leurs écritures automatiquement durant 3 jours mais tous les documents qu'ils ont mis de côté durant cette période ont été traités par la suite. L'impact sur nos clients a donc été limité.

Ceci a été possible grâce à la redondance d'architecture qui est en place : toutes les données stockées sur le site principal de production sont en permanence répliquées vers le site secondaire. Les 2 sites sont distants de plusieurs centaines de kilomètres pour limiter le risque de destruction concommitante.

La sécurité des données

La sécurité des données est une question qui nous a été légitimement posée (de façon encore plus critique pour Conciliator Pay qui manipule beaucoup de données personnelles) car l'incendie a rendu nos serveurs et les disques qu'ils contiennent accessibles physiquement (les contrôles d'accès ayant été détruits).

Nous n'avons pas signalé de fuite de données car il ne pouvait y en avoir : toutes les données que nous stockons sur les serveurs sont chiffrées au préalable. Nous sommes les seuls à disposer des clés de chiffrement, il est donc impossible de lire les données stockées même en accédant physiquement aux disques de stockage.

Quelles leçons à tirer ?

De notre côté, certains éléments techniques (donc non critiques) n'étaient pas sauvegardés sur un autre site ce qui a fait perdre du temps à nos équipes pour tout reconstruire. Nous avons donc mis en place une stratégie de sauvegarde à distance plus systématique.

Sur les autres points, nous avions bien anticipé ce qui a été malheureusement découvert douloureusement par beaucoup de services qui utilisent un hébergement délégué :

  • Ce n'est pas l'hébergeur qui assure la sécurité des données mais bien l'architecture mise en place par le service.
  • Ne jamais se croire à l'abri. Un incendie, une attaque informatique ou physique peut arriver partout à n'importe quel moment.
  • Les données sur les serveurs doivent être impérativement chiffrées : même un  accès physique sécurisé peut être défaillant.
  • Une communication régulière, transparente et précise permet de réduire l'inquiétude des utilisateurs qui accompagnent alors les équipes.

En conclusion, délivrer un service SaaS ne consiste pas uniquement à faire la "plus belle application" qui impressionne par son interface, l'aspect production et sécurité des données fait partie intégrante du service et n'est pas forcément la plus simple. Anthony, qui a mis en place toute notre architecture technique, avait d'ailleurs écrit un article précis sur ce sujet : Le concept de Haute Disponibilité (HA) et la tenue comptable automatique

Nous remercions aussi tous nos clients de la confiance qu'ils nous ont accordée tout au long de cet accident, celle-ci nous a permis de rétablir sereinement le service dans les meilleurs délais en nous consacrant avant tout à la technique.