
Le Guide Ultime de Dépannage Réseau : Étapes, Outils, Problèmes & Bonnes Pratiques
Le Guide Ultime de Dépannage Réseau : Étapes, Outils, Problèmes & Bonnes Pratiques
Pour qui : Ingénieurs réseau, SRE, red-teamers, analystes SOC, experts en optimisation des performances, et développeurs seniors qui veulent un manuel terrain pratique et sans fioritures, évolutif d’un labo Raspberry Pi à des dorsales SD-WAN multi-continentales.
Fondations
Qu’est-ce que le dépannage réseau ?
Le dépannage réseau est un processus rigoureux et fondé sur des preuves pour détecter, isoler et corriger les défaillances du chemin de données à tous les niveaux OSI/TCP-IP. Il repose sur deux indicateurs métier clés :
- MTTD — Temps Moyen de Détection
- MTTR — Temps Moyen de Rétablissement
Une bonne pratique réduit ces deux valeurs, documente la cause racine, et réinjecte les enseignements dans l’architecture, la supervision et les runbooks.
Réactif vs proactif :
Le travail réactif éteint les incendies ; le travail proactif les prévient. Vos outils, métriques et exercices de chaos doivent soutenir les deux.
Pourquoi c’est important pour les réseaux domestiques, d’entreprise et ISP/jeux
- Respect des SLA & SLO – les cibles de disponibilité ou de latence manquées entraînent crédits, remboursements ou perte d’utilisateurs.
- Applications sensibles à la latence – gigue VoIP au-dessus de 30 ms, latence de téléportation VR, délais de hit-reg en e-sport : tous visibles par l’utilisateur.
- Suivi MTBF – réduire le temps moyen entre pannes est un indicateur de maturité opérationnelle au niveau du conseil d’administration.
Rappel des concepts clés
Adressage IP, sous-réseaux, CIDR & VLSM
/24,/27,/31— pourquoi les masques de taille étrange comptent pour les liens point-à-point.- VLSM permet de découper des blocs non contigus ; planifiez avec IPAM, vérifiez avec
ipcalc:
ipcalc 192.168.14.0/29
Enregistrements DNS, forwarders & root hints
- A/AAAA vs PTR, chaînes CNAME, SRV pour VoIP.
- Forwarders stubs vs récursion root-hint ; comment les vues split-horizon cassent les VPN.
Fondamentaux du routage : statique, dynamique, ECMP
- Statique pour les loopbacks, dynamique (OSPF, IS-IS, BGP) pour tout le reste.
- Pièges du hachage Equal-Cost Multi-Path (ECMP) avec les flux équilibrés L4.
Variantes NAT : SNAT, DNAT, PAT
- SNAT pour surcharge sortante, DNAT pour VIP entrantes, PAT pour regroupement de ports.
- Le hair-pinning à travers des NAT chaînés cause souvent des chemins asymétriques.
Couches de sécurité : ACL, tables d’état FW, UTM vs NGFW
- ACL 5-tuple → règles stateful → moteurs UTM (AV/IPS) → NGFW DPI couche 7.
- Toujours cartographier l’ordre des règles ; les règles shadow laissent tomber les paquets silencieusement.
La méthodologie de dépannage en 7 étapes
- Identifier le problème – capturer les symptômes, métriques de référence, extraits de logs.
- Établir une hypothèse – top-down (L7→L1) ou bottom-up (L1→L7) ; choisir selon les preuves.
- Tester l’hypothèse – VM labo, fenêtre de maintenance, capture de paquets.
- Créer un plan d’action – points de retour, validations, notes sur le rayon d’impact.
- Mettre en œuvre ou escalader – exécuter MOP/SOP ou passer au niveau supérieur.
- Vérifier la fonctionnalité complète – tableaux de bord RUM, sondes synthétiques, validation utilisateur.
- Documenter les résultats – post-mortem d’incident, article KB, mise à jour du runbook.
Vérifications rapides matériel & connectivité
Validation couche physique
| Vérification | Commande typique | Critère de succès |
|---|---|---|
| Voyants & négociation | ethtool eth0 |
1 Gbit Full, sans erreurs |
| Bouchon loopback | swconfig dev switch0 set loopback 1 |
Compteurs Rx/Tx propres |
| Puissance optique | ethtool -m eth2 |
Puissance Rx dans la spec –1 dBm à –3 dBm |
Bonnes pratiques de redémarrage & démarrage à froid
- Annoncer dans le canal incident.
- Enregistrer l’heure murale + UTC dans le ticket.
- Démarrage à froid : couper l’alimentation 30 s, réinsérer les SFP si applicable.
- Post-démarrage : vérifier la synchro NTP et la remise à zéro des compteurs d’interface.
Compteurs d’interface : CRC, Giants, Runts, Collisions
watch -n2 "ip -s link show eth0 | grep -A1 RX"
- CRC en hausse → câble ou optique défaillant.
- Giants/Runts → décalage MTU ou erreurs duplex.
- Collisions (semi-duplex) doivent être nulles sur liens full-duplex.
Outils de diagnostic essentiels
| Outil | Couche | Extrait | Insight |
|---|---|---|---|
ping -M do -s1472 dst |
3 | Découverte Path-MTU | |
traceroute -I -T dst |
3 | Latence par saut, labels MPLS | |
ip -s link |
2/3 | Erreurs, pertes, vitesse | |
dig +trace fqdn |
7 | Arbre de délégation | |
ss -tulpn |
4 | Sockets à l’écoute/établis | |
ip route get 8.8.8.8 |
3 | Chemin de sortie choisi | |
tcpdump -ni any 'tcp[13]&2!=0' |
2-7 | Santé flood SYN | |
nmap -sS -Pn -p1-1024 dst |
3-7 | Ports ouverts/filtrés | |
arp -a |
2 | MAC dupliquées | |
mtr -ezbwrc 100 dst |
3 | Perte/latence en temps réel |
Diagnostic couche par couche
Physique & Liaison de données
- Tests de longueur et réflexion câble TDR/OTDR.
- Spanning-Tree :
show spanning-tree detail | include role– chercher root inconsistent. - Exploits 802.1Q : double-tag VLAN hopping ; atténuer par élagage VLAN natif.
Réseau
- Blocages dual-stack :
curl -6 https://examplevscurl -4 …. - FSM voisin BGP : boucles
Idle → Active → OpenSentindiquent problème auth/TTL. - Fuite VRF :
ip route show vrf red 0.0.0.0/0ne doit pas apparaître dansvrf blue.
Transport
- Échecs de handshake en trois temps :
sequenceDiagram
Client->>Server: SYN
Server-->>Client: SYN-ACK ❌ (perdu)
Client->>Server: SYN (réessais)
Souvent épuisement table d’état firewall ou route asymétrique.
- Fragmentation UDP : vérifier
sudo ethtool -k eth0 | grep offload.
Application
- DNSSEC :
dig +dnssec +multi example.com— chercher le flagad. - HTTP :
curl -v https://site | grep HTTP— sémantique 499 vs 504. - TLS :
openssl s_client -servername site -connect ip:443— vérifier correspondance SNI CN.
Problèmes courants & corrections
| Catégorie | Symptôme | Cause racine | Remédiation |
|---|---|---|---|
| DNS | Résolution FQDN longue | SERVFAIL en amont | Corriger ACL transfert zone, incrémenter SOA serial |
| Routage | Accessibilité intermittente | Déséquilibre hachage ECMP | Activer hachage L4, ou fixer flux par politique |
| Firewall | Réinitialisations HTTPS aléatoires | DROP shadow au-dessus d’ACCEPT | Réordonner règles, ajouter préfixe log |
| Performance | Pics à 200 ms | Bufferbloat sur CPE | Appliquer FQ-CoDel : tc qdisc … fq_codel |
| MTU | TLS échoue après 14 kB | Black-hole ICMP | Clamp MSS : iptables --clamp-mss-to-pmtu |
Dépannage sans fil & mobile
Études de site Wi-Fi
- Capturer carte thermique RSSI passive.
- Identifier interférences CCI (co-canal) et ACI (canal adjacent).
- Préférer 5 GHz/6 GHz ; verrouiller canaux DFS uniquement avec AP radar-aware.
Roaming & Fast-BSS
- Activer 802.11k (rapports voisins), 11v (transition BSS), 11r (réassoc rapide).
- Ajuster seuils RSSI : clients collants dégradent le temps d’antenne.
KPI WAN cellulaire
- RSRP (puissance signal), RSRQ (qualité), SINR (bruit).
- Logger événements de handoff :
mmcli -m 0 --command='AT+QENG="servingcell"'.
Environnements conteneurs, cloud & SDN
Réseau Docker & Kubernetes
# Tracer le chemin sur overlay Cilium
cilium monitor --icmp --related -v
- VXLAN Flannel : chercher interface
flannel.1encapsulée. - Calico BGP :
calicoctl node statuspour vérifier état pair.
Flux sidecar Service Mesh
Graph Mermaid des flux entrants/sortants :
graph TD
Client -->|mTLS| Envoy_Sidecar
Envoy_Sidecar -->|mTLS| App_Pod
App_Pod --> Envoy_Sidecar
Envoy_Sidecar -->|mTLS| Remote_Envoy
Nuances Cloud public
- AWS : lancer Reachability Analyzer entre ENI.
- Azure : inspecter NSG Flow Logs dans Log Analytics.
- GCP : VPC-SC bloque egress vers APIs interdites — vérifier
gcloud logging read.
Tunnels Overlay & SD-WAN
- Capture VXLAN port 4789 :
tcpdump -ni underlay udp port 4789. - Keep-alives IPSec GRE :
show crypto isakmp sapour timers phase 1.
Sécurité & réponse aux incidents
Packet Broker / TAP
- Utiliser capture sans perte 100 Gb ; agréger avec filtre SPAN
ip netmask 255.255.255.0.
Miroirs de déchiffrement & empreinte TLS
- Hash JA3/JA4 identifient famille malware ; injecter dans Elastic/Splunk.
- Déchiffrer avec fichier clé SSL key-log en test serveur.
Chasse aux menaces avec Zeek & Suricata
zeek -i eth0 local "Site::local_nets += { 10.0.0.0/8 }"
Corréler notice.log avec eve.json Suricata pour alertes riches en contexte.
Optimisation des performances & QoS
Réglage latence vs débit
- BBR pour chemins haut BDP :
sysctl net.ipv4.tcp_congestion_control=bbr. - Comparer avec CUBIC : surveiller croissance cwnd dans
ss -ti.
Traffic shaping & WRED
tc qdisc add dev eth0 root handle 1: htb default 20
tc class add dev eth0 parent 1: classid 1:20 htb rate 10mbit ceil 20mbit
Activer WRED sur classe 1:20 pour pertes priorisées.
Problèmes CDN Anycast
- Utiliser
dig +short CHAOS TXT id.server @resolverpour géolocaliser POP DNS. - Valider biais Anycast avec mesures RIPE Atlas.
Automatisation & IaC pour dépannage
ChatOps & SOAR
- Commande slash déclenche playbook Ansible → lance tcpdump, upload pcap sur S3, poste lien.
Détection de dérive de config
- NetBox + GitOps : config désirée dans Git ; pipeline CI lance tests Batfish de reachabilité sur PR.
Tests transactionnels synthétiques
- Script k6 :
import http from 'k6/http';
export default function () {
http.get('https://api.example.com/health', { timeout: '2s' });
}
Exécution horaire via CronJob Kubernetes ; alerte PagerDuty si P95 > 300 ms.
Matrice de sélection d’outils (condensée)
| Stack | Open-Source | Commercial |
|---|---|---|
| NPM | LibreNMS, Prometheus, Grafana | SolarWinds, PRTG |
| AIOps | Zabbix + Python ML | Kentik, ThousandEyes |
| Capture paquets | Wireshark, Arkime | Gigamon GigaVUE |
| APM | OpenTelemetry | Datadog NPM, New Relic |
Études de cas & laboratoires
Migration WAN MPLS vers SD-WAN en entreprise
- Problème : 20 % du trafic perdu via hub MPLS legacy.
- Cause racine : filtrage OSPF zone manquant les loopbacks SDP.
- Correction : fuite des loopbacks /32 dans zone 0, activation BFD sur bords SD-WAN.
Flapping peering ISP (Graceful-Restart)
- 10 k retraits BGP/min détectés.
- Activation GR, augmentation hold-time à 180 s, amortissement ASN instable avec
route-map.
Black-hole Kubernetes Est-Ouest
- Nœud 3 sans
ip rule100 à cause d’un bug Cilium. cilium bpf ct flush, cordon & drain, redémarrage daemonset → restauration.
Bonnes pratiques & gouvernance
- Baselining : benchmarks mensuels qualité chemin — stocker en TSDB pour alertes régressions.
- Contrôle de changement : pré-check (mtr, dig), post-check (panneau SLO Grafana).
- Versioning runbook : Markdown + Git ; lien direct depuis playbooks d’alerte.
Conclusion & prochaines étapes
- Centraliser visibilité — paquets, flux, logs, métriques dans un seul tableau de bord.
- Exercer l’équipe — exercices chaos pour flap BGP, panne DNS, black-hole MTU.
- Automatiser remédiation — rollback CI/CD, politiques CNI Kubernetes auto-réparantes.
La discipline opérationnelle associée à une bonne profondeur d’analyse au niveau paquet transforme la lutte contre les incidents en science reproductible — gardant la latence basse, le débit élevé, et les utilisateurs satisfaits.
Annexe A – Fiche CLI (exemples)
# Découverte MTU (échoue si DF dépassé)
ping -M do -s 1472 8.8.8.8
# Retransmissions TCP en temps réel
tcpdump -ni any 'tcp[13] & 0x10 != 0 and tcp[13] & 0x08 != 0'
# Afficher annonce de route (Juniper)
show route advertising-protocol bgp 192.0.2.1
# Mapper VIP Kubernetes vers endpoints
kubectl get ep kube-dns -o wide
Annexe B – Tableaux de référence protocolaires
Flags TCP : URG ACK PSH RST SYN FIN
Headers Ext IPv6 : 0 Hop-by-Hop | 43 Routing | 44 Fragment | 50 ESP | 51 AH
Opcodes DNS : 0 QUERY | 5 UPDATE | 4 NOTIFY
Annexe C – Collecte & rétention logs
| Type de données | Stockage chaud | Stockage froid | Conformité |
|---|---|---|---|
| pcap brut | 7 jours SSD | 30 jours S3/Glacier | PCI-DSS |
| Flux/métriques | 13 mois TSDB | 2 ans stockage objet | GDPR |
| Syslog/audit | 1 an | 5 ans bande | HIPAA |
Faites passer votre carrière en cybersécurité au niveau supérieur
Si vous avez trouvé ce contenu utile, imaginez ce que vous pourriez accomplir avec notre programme de formation élite complet de 47 semaines. Rejoignez plus de 1 200 étudiants qui ont transformé leur carrière grâce aux techniques de l'Unité 8200.
