Veille technologique · B6 · Uptime Kuma · Monitoring · Alerting

Supervision d'infrastructure

Étude des outils et pratiques de monitoring d'infrastructure IT : supervision en temps réel, alerting, métriques SLA/SLO, et comparaison des solutions open source vs entreprise.

1. Contexte et lien avec le stage

Chez Paul Hartmann SAS, j'ai déployé Uptime Kuma pour superviser 12 services en permanence — de la passerelle réseau aux conteneurs Docker, en passant par les serveurs Proxmox et les solutions de stockage. En cas de panne, des alertes Telegram sont envoyées automatiquement.

12 services supervisés, 100% uptime atteint en fin de stage. Uptime Kuma vérifie chaque service toutes les 60 secondes et notifie en temps réel via Telegram.

2. Les notions clés du monitoring

Disponibilité (Uptime) : pourcentage de temps où un service est opérationnel. Objectif entreprise : ≥ 99,9% (SLA « trois neuf »)
SLA (Service Level Agreement) : contrat de niveau de service entre prestataire et client
SLO (Service Level Objective) : objectif interne de performance
MTTR (Mean Time To Repair) : temps moyen de résolution d'un incident
MTBF (Mean Time Between Failures) : temps moyen entre deux pannes

SLA	Downtime/mois	Downtime/an
99%	7h 18min	3j 15h
99,9%	43min 49s	8h 45min
99,99%	4min 22s	52min
99,999%	26 secondes	5min 15s

3. Uptime Kuma — Solution déployée

Uptime Kuma est un outil de monitoring open source auto-hébergé, alternatif à Uptime Robot. Il supporte : HTTP/HTTPS, TCP, ping, DNS, Docker container, port monitoring.

Interface web moderne, temps réel
Notifications multi-canaux : Telegram, Discord, Slack, email, webhook
Historique des incidents avec durée et causes
Page de statut publique personnalisable
Déploiement en quelques secondes via Docker

4. Comparaison des outils de monitoring

Outil	Type	Points forts	Usage
Uptime Kuma	Open source	Simple, léger, auto-hébergé	PME, homelab
Zabbix	Open source	Complet, SNMP, agents	Grande infrastructure
Prometheus + Grafana	Open source	Métriques temps réel, dashboards	Cloud, Kubernetes
Nagios	Open source	Référence historique, plugins	Entreprise classique
Datadog	SaaS	APM, logs, infra unifiés	Cloud enterprise
PRTG	Commercial	Interface intuitive, SNMP	PME/ETI Windows

5. Évolutions — Observabilité

Le monitoring classique (« est-ce que ça marche ? ») évolue vers l'observabilité (« pourquoi ça ne marche pas ? »), reposant sur trois piliers :

Métriques : CPU, RAM, latence, requêtes/sec
Logs : journaux d'événements centralisés (ELK Stack, Loki)
Traces : suivi des requêtes à travers les microservices (Jaeger, Zipkin)

L'évolution naturelle d'Uptime Kuma serait l'intégration de Prometheus + Grafana pour avoir des dashboards de métriques détaillés, comme le CPU Proxmox ou les I/O du SAN Dell.

6. Sources

Uptime Kuma GitHub (louislam/uptime-kuma) Prometheus Documentation Grafana Labs Google SRE Book — SLA/SLO/SLI Zabbix Documentation IT-Connect.fr — Supervision réseau