Ce projet a été réalisé durant mon stage de fin d'études au sein de l'équipe MessMass de Michelin. La problématique était simple à formuler, mais compliquée à vivre au quotidien : les autres équipes IT manquaient de visibilité sur l'état réel des middleware, et ouvraient souvent des tickets sans savoir si le problème venait de leurs applications… ou de chez nous.
J’ai donc conçu et développé une status page Grafana permettant de surveiller en temps réel les middleware critiques, de visualiser leur historique d’incidents et de donner aux équipes consommatrices une réponse immédiate à la question : « Est-ce que le problème vient de l’infrastructure MessMass ou de mon périmètre ? »
Dans le cadre du programme OneSystem IT Platforms, l’équipe MessMass devait améliorer l’observabilité de ses middleware (EDA, MFT, EAI, IFE/M2I, ETL) et réduire le nombre de tickets « pour rien ». La status page devait :
Grafana venait tout juste d’être introduit chez Michelin au moment de mon arrivée. J’ai dû apprendre à maîtriser l’outil de manière autonome et construire, itération après itération, une status page complète et maintenable qui serve de référence pour les futurs travaux Grafana au sein de l’entreprise.
La status page s'appuie sur une architecture d'observabilité unifiée :
Au fil des versions, l’interface est passée d’une simple vue binaire (up/down) à un tableau de bord structuré par domaines, combinant statut actuel, historique d’incidents et indicateurs de service dans une vue unique pensée pour les équipes utilisatrices.
Le développement s’est déroulé en plusieurs itérations : PoC basé sur Blackbox, ajout de statuts détaillés, structuration par domaines et enrichissement par les données des autres équipes. La version finale, validée par la squad HIP, est devenue un modèle de status page pour les futurs usages de Grafana chez Michelin.
Même si mon stage s’est terminé au moment de la mise en production, l’objectif est clair : réduire les tickets « inutiles », améliorer la compréhension de l’état des middleware par les équipes consommatrices et faciliter les diagnostics en centralisant l’information utile au même endroit.
Afin de mieux visualiser l'évolution de la status page au cours des itérations, voici quelques captures d'écran représentatives des différentes versions du tableau de bord.
Version PoC
Première preuve de concept se limitant à la vérification de la disponibilité via le
Blackbox Exporter. Les statuts sont binaires (up/down) et l'interface très épurée.
Première version
Introduction de cartes dynamiques pour chaque environnement (Prod, Dev, Indus).
La structure visuelle commence à refléter les usages des équipes.
Version tests
Expérimentations sur les seuils, les codes couleur et l’organisation des blocs pour
trouver le bon compromis entre richesse d’information et lisibilité.
Version finale
Version validée par la squad, présentant les statuts, l'historique des incidents,
les indicateurs SLI/SLO et un bandeau d'informations pour chaque domaine
fonctionnel.