La supervision, également appelée surveillance informatique ou monitoring, est le processus de contrôle continu du fonctionnement, de l'activité et des performances d'un système informatique. Les solutions de supervision, qu'elles soient matérielles ou logicielles, permettent non seulement de surveiller, mais aussi d'analyser et de piloter le système en agissant directement suite à des alertes.
Les objectifs principaux sont :
- Assurer la disponibilité des services : Garantir que les services, notamment les plus critiques, sont opérationnels.
- Détecter les anomalies : Identifier tout comportement anormal ou potentielle défaillance.
- Alerter les responsables : Prévenir les administrateurs via divers canaux (console, email, SMS, appels vocaux) pour une intervention rapide.
- Automatiser les interventions : Permettre des actions automatiques, comme le redémarrage d'un serveur ou le relancement d'un service, pour minimiser les temps d'indisponibilité.
Le champ d'application de la supervision est très large et peut concerner l'intégralité de l'infrastructure informatique et téléphonique d'une entreprise.
- Infrastructure physique : courant électrique, disponibilité des connexions WAN (FTTx, xDSL).
- Serveurs : état de fonctionnement, ressources, services.
- Périphériques : imprimantes, scanners, etc.
- Éléments actifs du réseau : switches, routeurs, pare-feux.
On distingue trois grandes catégories de supervision, couvrant l'ensemble des couches d'un système d'information :
- Supervision de l’infrastructure matérielle et des éléments actifs du réseau : La couche la plus basse, concernant le matériel physique.
- Supervision des cœurs de systèmes & processus métiers : Surveillance des systèmes d'exploitation et des processus critiques pour l'activité de l'entreprise.
- Supervision des services et applications : La couche la plus haute, qui inclut la mesure de l'expérience utilisateur ("ressenti") et le respect des accords de niveau de service (SLA).
La supervision repose sur un ensemble de concepts fondamentaux qui définissent la manière dont les informations sont collectées, traitées et stockées.
| Concept |
Description |
| Élément |
Un aspect unique d'une entité (appareil, logiciel) à surveiller, qui renvoie une ou plusieurs informations (ex : l'utilisation de la RAM). |
| Acquisition |
La méthode de collecte des données. Soit le système attend de recevoir les données (push), soit il interroge activement l'élément (pull, ou polling) |
| Fréquence |
La périodicité à laquelle les informations sont collectées ou envoyées. |
| Rétention |
La politique de conservation des données. Celles-ci peuvent être traitées puis oubliées, ou stockées durablement, ce qui pose des enjeux techniques (stockage) et juridiques. |
| Seuil (Threshold) |
Une limite prédéfinie (binaire ou numérique) dont le dépassement par une mesure déclenche une action. |
| Reset |
L'opposé logique du seuil, marquant le point où un élément est considéré comme revenu à un état normal. |
| Réponse (Response) |
L'action déclenchée lorsqu'un seuil est franchi (ex : envoi d'un email, exécution d'un script). |
| Demandeur (Requester) |
Le point d'origine de la surveillance. Soit un logiciel agent s'exécutant sur l'entité surveillée, soit une surveillance externe sans agent (agentless). |
La supervision collecte deux types principaux de données pour évaluer l'état d'un système.
Les métriques sont des mesures numériques collectées selon une fréquence définie. Elles permettent de quantifier la performance et l'état des composants du système.
Elles sont liées à l'infrastructure sous-jacente (matériel et middleware) et se divisent en trois types :
- Taux de disponibilité : Pourcentage de temps durant lequel une ressource est capable de répondre aux requêtes.
- Taux d'utilisation : Pourcentage de temps durant lequel une ressource est occupée, ou pourcentage d'utilisation de sa capacité (stockage, débit).
- Contention : Quantité de requêtes qu'une ressource ne peut pas servir car elle est déjà occupée (mesurée par les files d'attente, les buffers, le swap, etc.).
Elles mesurent directement l'expérience utilisateur et la santé d'un service. Elles répondent aux questions : "Le service est-il disponible et rapide ?"
- Performance : Efficacité d'un composant, mesurée par la latence (temps de réponse effectif ou en percentiles).
- Débit (Throughput) : Quantité de requêtes traitées par unité de temps (ex: pages par seconde).
- Succès : Pourcentage de requêtes traitées avec succès (ex: réponses HTTP 2XX).
- Échec : Pourcentage de requêtes ayant échoué (ex: réponses HTTP 5XX).
Contrairement aux métriques, les événements sont des informations sporadiques, voire exceptionnelles, et souvent imprévisibles. Ils contiennent généralement en eux-mêmes suffisamment d'informations pour être interprétés directement, souvent via des journaux (logs). Exemples :
- Échec d'une tâche planifiée.
- Détection d'un virus dans un système de fichiers.
- Réception d'un Trap SNMP.
Les systèmes de supervision utilisent fréquemment des bases de données chronologiques (Time Series Database - TSDB), optimisées pour stocker des séries de données indexées par le temps (ex : InfluxDB, Prometheus, Graphite).
Une stratégie de collecte efficace doit trouver un équilibre. Maximiser les métriques, la fréquence et la granularité risque de surcharger le système de supervision et d'impacter paradoxalement les performances du système supervisé.
¶ 4.2. Protocoles Standards
La plupart des protocoles de supervision sont standardisés, notamment par le DMTF (Distributed Management Task Force).
- IPMI (Intelligent Platform Management Interface) : Spécifications pour surveiller les composants matériels d'un serveur (ventilateurs, température) et le contrôler à distance (redémarrage, console). Implémentations connues : HP iLO, Dell iDRAC.
- CIM (Common Information Model) : Standard ouvert définissant un modèle d'administration unifié, indépendant des fabricants. Son implémentation la plus connue est WMI (Windows Management Instrumentation) de Microsoft.
- SNMP (Simple Network Management Protocol) : Protocole de communication essentiel pour gérer et superviser les équipements réseau.
- Composants : Agent SNMP sur l'équipement, NMS (Network Management Station) pour la supervision, et MIB (Management Information Base) qui structure les objets gérables via des OID (Object Identifier).
- Modes :
- Pull (port UDP 161) : Le NMS interroge l'agent (get, getnext, getbulk).
- Push (port UDP 162) : L'agent envoie des alertes (Trap ou Inform).
- Versions : v1 (sécurité faible), v2c (améliorations mais sécurité similaire), et v3 (sécurité renforcée avec authentification et chiffrement).
- ICMP (Internet Control Message Protocol) : Protocole de la suite TCP/IP utilisé pour véhiculer des messages de contrôle et d'erreur (ex: ping). Son fonctionnement transparent le rend idéal pour les tests de base.
- Syslog : Protocole et format pour la journalisation des événements. Un agent envoie les messages à un serveur d'écoute où ils sont stockés de façon permanente.
ITIL est un référentiel de bonnes pratiques pour le management du système d'information. Il vise à organiser le SI, améliorer son efficacité, réduire les risques et augmenter la qualité des services informatiques.
- Ping : Utilitaire envoyant un paquet (généralement ICMP) pour vérifier si une entité est active ("up") et mesurer sa latence.
- Utilitaires Windows :
- Gestionnaire de tâches (taskmgr), Moniteur de ressources (resmon).
- Observateur d’événements (eventvwr), Analyseur de performances (perfmon), Moniteur de fiabilité (perfmon /rel).
- Utilitaires Linux (Debian) :
- Commandes de base : watch, tail, df, free, ps, ss.
- Commandes évoluées : top, htop, iotop, iptraf-ng, nmon, glances.
Il existe une multitude de solutions complètes, disponibles en open source ou en version propriétaire, sur site (on-prem) ou en SaaS.
- Open Source : Nagios, Centreon, Zabbix, Icinga, Grafana, ELK Stack, Cacti, LibreNMS.
- Propriétaires : Microsoft SCCM, Paessler PRTG, Solarwinds.
- Gestion Globale (ITSM/ITIL) : Splunk, Jira, ServiceNow, FreshServices, Atera.