Veille technologique · B6 · Uptime Kuma · Monitoring · Alerting
Supervision d'infrastructure
Étude des outils et pratiques de monitoring d'infrastructure IT : supervision en temps réel, alerting, métriques SLA/SLO, et comparaison des solutions open source vs entreprise.
1. Contexte et lien avec le stage
Chez Paul Hartmann SAS, j'ai déployé Uptime Kuma pour superviser 12 services en permanence — de la passerelle réseau aux conteneurs Docker, en passant par les serveurs Proxmox et les solutions de stockage. En cas de panne, des alertes Telegram sont envoyées automatiquement.
12 services supervisés, 100% uptime atteint en fin de stage. Uptime Kuma vérifie chaque service toutes les 60 secondes et notifie en temps réel via Telegram.
2. Les notions clés du monitoring
- Disponibilité (Uptime) : pourcentage de temps où un service est opérationnel. Objectif entreprise : ≥ 99,9% (SLA « trois neuf »)
- SLA (Service Level Agreement) : contrat de niveau de service entre prestataire et client
- SLO (Service Level Objective) : objectif interne de performance
- MTTR (Mean Time To Repair) : temps moyen de résolution d'un incident
- MTBF (Mean Time Between Failures) : temps moyen entre deux pannes
| SLA | Downtime/mois | Downtime/an |
| 99% | 7h 18min | 3j 15h |
| 99,9% | 43min 49s | 8h 45min |
| 99,99% | 4min 22s | 52min |
| 99,999% | 26 secondes | 5min 15s |
3. Uptime Kuma — Solution déployée
Uptime Kuma est un outil de monitoring open source auto-hébergé, alternatif à Uptime Robot. Il supporte : HTTP/HTTPS, TCP, ping, DNS, Docker container, port monitoring.
- Interface web moderne, temps réel
- Notifications multi-canaux : Telegram, Discord, Slack, email, webhook
- Historique des incidents avec durée et causes
- Page de statut publique personnalisable
- Déploiement en quelques secondes via Docker
4. Comparaison des outils de monitoring
| Outil | Type | Points forts | Usage |
| Uptime Kuma | Open source | Simple, léger, auto-hébergé | PME, homelab |
| Zabbix | Open source | Complet, SNMP, agents | Grande infrastructure |
| Prometheus + Grafana | Open source | Métriques temps réel, dashboards | Cloud, Kubernetes |
| Nagios | Open source | Référence historique, plugins | Entreprise classique |
| Datadog | SaaS | APM, logs, infra unifiés | Cloud enterprise |
| PRTG | Commercial | Interface intuitive, SNMP | PME/ETI Windows |
5. Évolutions — Observabilité
Le monitoring classique (« est-ce que ça marche ? ») évolue vers l'observabilité (« pourquoi ça ne marche pas ? »), reposant sur trois piliers :
- Métriques : CPU, RAM, latence, requêtes/sec
- Logs : journaux d'événements centralisés (ELK Stack, Loki)
- Traces : suivi des requêtes à travers les microservices (Jaeger, Zipkin)
L'évolution naturelle d'Uptime Kuma serait l'intégration de Prometheus + Grafana pour avoir des dashboards de métriques détaillés, comme le CPU Proxmox ou les I/O du SAN Dell.
6. Sources
Uptime Kuma GitHub (louislam/uptime-kuma)
Prometheus Documentation
Grafana Labs
Google SRE Book — SLA/SLO/SLI
Zabbix Documentation
IT-Connect.fr — Supervision réseau