
El Guía Definitiva de Solución de Problemas de Red: Pasos, Herramientas, Problemas y Mejores Prácticas
Guía definitiva de solución de problemas de red: pasos, herramientas, problemas y mejores prácticas
¿Para quién es esta guía? Ingenieros de redes, SRE, analistas de ciberseguridad, equipos Red Team y desarrolladores sénior que necesitan un manual práctico—desde un laboratorio doméstico con Raspberry Pi hasta un backbone SD-WAN intercontinental.
Conceptos básicos
¿Qué es la solución de problemas de red?
Es un proceso estructurado y basado en evidencias que detecta, aísla y corrige fallos en la ruta de tráfico en todas las capas OSI / TCP-IP. Los dos KPI críticos:
- MTTD — Tiempo medio de detección
- MTTR — Tiempo medio de restauración
Un proceso maduro reduce ambos tiempos, documenta la causa raíz y retroalimenta la arquitectura, el monitoreo y los runbooks.
Reactivo vs. proactivo: apagar incendios y prevenirlos; tus herramientas, métricas y ejercicios de caos deben cubrir ambos frentes.
Por qué importa en hogares, empresas e ISP/juegos
- Cumplir SLA / SLO — Infringir disponibilidad o latencia genera penalizaciones y fuga de usuarios.
- Aplicaciones sensibles a latencia — VoIP con > 30 ms de jitter, VR, e-sports.
- MTBF — Aumentar el tiempo medio entre fallos indica madurez operativa.
Recordatorio rápido de conceptos clave
Tema | Punto clave |
---|---|
Direcciones IP / CIDR / VLSM | Subredes irregulares; valida con ipcalc . |
Registros DNS | A/AAAA, PTR, CNAME, SRV, split-horizon. |
Enrutamiento | Estático vs. OSPF/BGP/IS-IS, ECMP, PBR, VRF. |
Modalidades NAT | SNAT, DNAT, PAT; rutas asimétricas. |
Controles de seguridad | ACL sin estado, cortafuegos stateful, UTM, NGFW. |
Metodología de siete pasos
- Identificar el problema — síntomas, métricas, registros.
- Plantear la hipótesis — análisis de arriba abajo o abajo arriba.
- Probar la hipótesis — laboratorio, ventana de mantenimiento, pcap.
- Crear plan de acción — puntos de rollback, aprobaciones, alcance.
- Implementar o escalar — ejecutar MOP/SOP o derivar al siguiente nivel.
- Verificar funcionalidad — sondas sintéticas, métricas de usuario real.
- Documentar hallazgos — post-mortem, base de conocimiento, runbook.
Comprobaciones rápidas de hardware y conectividad
Validación de la capa física
Verificación | Comando | Resultado esperado |
---|---|---|
LEDs / negociación | ethtool eth0 |
1 Gb Full, sin errores |
Loopback / TDR | swconfig … |
Contadores estables |
Potencia óptica | ethtool -m |
–1 dBm ~ –3 dBm |
Buenas prácticas de reinicio eléctrico
Avisar en el canal de incidentes → anotar la hora → apagar 30 s → comprobar NTP tras arrancar.
Contadores de interfaz (CRC/Giants/Runts/Collisions)
watch -n2 "ip -s link show eth0 | grep -A1 RX"
Cualquier contador en aumento continuo requiere investigación.
Herramientas de diagnóstico esenciales
Herramienta | Capa | Ejemplo CLI | Información |
---|---|---|---|
ping / hping3 | 3 | ping -M do -s1472 |
MTU y alcance |
traceroute / pathping | 3 | traceroute -I -w2 |
Latencia por salto |
ip / ifconfig | 2-3 | ip -s link |
Errores Rx/Tx |
dig / nslookup | 7 | dig +trace |
Cadena de delegación |
ss / netstat | 4 | ss -tulpn |
Puertos en uso |
ip route | 3 | ip route get 8.8.8.8 |
Ruta de salida |
tcpdump | 2-7 | tcpdump 'tcp[13]&2!=0' |
Tormenta SYN |
nmap / masscan | 3-7 | nmap -sS -Pn |
Puertos abiertos |
arp | 2 | arp -a |
MAC duplicadas |
mtr | 3 | mtr -ezbwrc100 |
Pérdida/latencia en vivo |
Diagnóstico capa por capa
Física y de enlace
- Pruebas TDR/OTDR de cableado.
- Bucles Spanning-Tree.
- Ataque VLAN de doble etiquetado.
Capa de red
- Bloqueos IPv6 vs. IPv4 (Happy-Eyeballs).
- Estados de vecinos BGP/OSPF.
- Filtraciones de VRF/PBR.
Capa de transporte
- Fallo en el three-way handshake TCP (tabla stateful).
- Fragmentación UDP y offload.
- Bloqueo de QUIC en UDP/443.
Capa de aplicación
- Fallo DNSSEC.
- HTTP 502/504/499.
- SNI/TLS incoherente.
Problemas frecuentes y soluciones
Síntoma | Causa | Solución |
---|---|---|
curl: name or service not known |
/etc/resolv.conf mal |
Ajustar search/domain y SOA |
RTT alto en el último salto | CPU / NIC saturada | irqbalance, habilitar GRO/LRO |
Cortes HTTPS aleatorios | Tabla de estado llena | Ampliar conn-track |
VoIP unidireccional | NAT asimétrico | Fijar puertos RTP/RTCP |
Subred “black-hole” | Ruta de retorno faltante | Añadir ruta/redistribución |
Redes inalámbricas y móviles
- Site survey Wi-Fi — RSSI < –67 dBm.
- Roaming rápido — 802.11 k/v/r.
- DFS en 5/6 GHz — gestión de radar.
- KPIs LTE / 5G — RSRP, RSRQ, SINR.
Contenedores, nube y SDN
- Traza CNI en Kubernetes (
cilium monitor
). - AWS Reachability Analyzer, Azure NSG Flow Logs, GCP VPC-SC.
- VXLAN/GRE/IPSec — captura en underlay + overlay.
Seguridad y respuesta a incidentes
- Packet Broker/TAP de 100 Gb sin pérdidas.
- Huellas TLS JA3/JA4.
- Correlación de fuentes Zeek + Suricata.
Optimización de rendimiento y QoS
Técnica | Comando | Efecto |
---|---|---|
BBR | sysctl net.ipv4.tcp_congestion_control=bbr |
Menor latencia |
FQ-CoDel | tc qdisc add dev eth0 root fq_codel |
Reduce bufferbloat |
DSCP | EF/46 voz, AF41 vídeo | QoS extremo-a-extremo |
WRED | random-detect dscp 46 |
Menos tail-drop |
Automatización e IaC
- ChatOps — comando Slack → Ansible → tcpdump → S3.
- NetBox + Batfish — detección de drift y pruebas de reachability.
- k6 / Locust — transacciones sintéticas en CronJob de K8s.
Matriz resumida de herramientas
Capa | Open Source | Comercial |
---|---|---|
NPM | LibreNMS, Prometheus | SolarWinds, PRTG |
AIOps | Zabbix + ML | Kentik, ThousandEyes |
Packet Capture | Wireshark, Arkime | Gigamon |
APM | OpenTelemetry | Datadog, New Relic |
Casos prácticos
- Migración MPLS → SD-WAN — fuga de /32 al Area 0.
- Flap BGP en ISP — activar Graceful-Restart, hold-time 180 s.
- Black hole east-west en K8s —
cilium bpf ct flush
y redeploy CNI.
Mejores prácticas
- Baselining mensual.
- Control de cambios — verificaciones before/after.
- Runbooks en Git con enlaces a paneles Grafana.
Conclusiones y próximos pasos
Centraliza la observabilidad, ejecuta drills de caos mensuales y automatiza los rollbacks: así el “apagafuegos” se convierte en ciencia repetible—latencia baja y throughput alto.
Apéndice A — Ejemplos CLI
ping -M do -s 1472 8.8.8.8 # Descubrir MTU
tcpdump -ni any 'tcp[13]&8!=0' # Retransmisiones
show route advertising-protocol bgp # Juniper
kubectl get ep kube-dns -o wide # VIP ↔ Pods
Apéndice B — Tablas de protocolo
Banderas TCP: URG ACK PSH RST SYN FIN
Cabeceras IPv6: 0 Hop-by-Hop, 43 Routing, 44 Fragment
DNS Opcode: 0 QUERY, 5 UPDATE, 4 NOTIFY
Apéndice C — Retención de registros
Tipo de dato | Almacenamiento caliente | Almacenamiento frío | Cumplimiento |
---|---|---|---|
pcap bruto | 7 días SSD | 30 días S3/Glacier | PCI-DSS |
Flujos / métricas | 13 meses TSDB | 2 años object-store | GDPR |
Syslog / Auditoría | 1 año | 5 años cinta | HIPAA |
Lleva tu Carrera de Ciberseguridad al Siguiente Nivel
Si encontraste este contenido valioso, imagina lo que podrías lograr con nuestro programa de capacitación élite integral de 47 semanas. Únete a más de 1.200 estudiantes que han transformado sus carreras con las técnicas de la Unidad 8200.