El Guía Definitiva de Solución de Problemas de Red: Pasos, Herramientas, Problemas y Mejores Prácticas

Guía definitiva de solución de problemas de red: pasos, herramientas, problemas y mejores prácticas

¿Para quién es esta guía? Ingenieros de redes, SRE, analistas de ciberseguridad, equipos Red Team y desarrolladores sénior que necesitan un manual práctico—desde un laboratorio doméstico con Raspberry Pi hasta un backbone SD-WAN intercontinental.

Conceptos básicos

¿Qué es la solución de problemas de red?

Es un proceso estructurado y basado en evidencias que detecta, aísla y corrige fallos en la ruta de tráfico en todas las capas OSI / TCP-IP. Los dos KPI críticos:

MTTD — Tiempo medio de detección
MTTR — Tiempo medio de restauración

Un proceso maduro reduce ambos tiempos, documenta la causa raíz y retroalimenta la arquitectura, el monitoreo y los runbooks.

Reactivo vs. proactivo: apagar incendios y prevenirlos; tus herramientas, métricas y ejercicios de caos deben cubrir ambos frentes.

Por qué importa en hogares, empresas e ISP/juegos

Cumplir SLA / SLO — Infringir disponibilidad o latencia genera penalizaciones y fuga de usuarios.
Aplicaciones sensibles a latencia — VoIP con > 30 ms de jitter, VR, e-sports.
MTBF — Aumentar el tiempo medio entre fallos indica madurez operativa.

Recordatorio rápido de conceptos clave

Tema	Punto clave
Direcciones IP / CIDR / VLSM	Subredes irregulares; valida con `ipcalc`.
Registros DNS	A/AAAA, PTR, CNAME, SRV, split-horizon.
Enrutamiento	Estático vs. OSPF/BGP/IS-IS, ECMP, PBR, VRF.
Modalidades NAT	SNAT, DNAT, PAT; rutas asimétricas.
Controles de seguridad	ACL sin estado, cortafuegos stateful, UTM, NGFW.

Metodología de siete pasos

Identificar el problema — síntomas, métricas, registros.
Plantear la hipótesis — análisis de arriba abajo o abajo arriba.
Probar la hipótesis — laboratorio, ventana de mantenimiento, pcap.
Crear plan de acción — puntos de rollback, aprobaciones, alcance.
Implementar o escalar — ejecutar MOP/SOP o derivar al siguiente nivel.
Verificar funcionalidad — sondas sintéticas, métricas de usuario real.
Documentar hallazgos — post-mortem, base de conocimiento, runbook.

Comprobaciones rápidas de hardware y conectividad

Validación de la capa física

Verificación	Comando	Resultado esperado
LEDs / negociación	`ethtool eth0`	1 Gb Full, sin errores
Loopback / TDR	`swconfig …`	Contadores estables
Potencia óptica	`ethtool -m`	–1 dBm ~ –3 dBm

Buenas prácticas de reinicio eléctrico

Avisar en el canal de incidentes → anotar la hora → apagar 30 s → comprobar NTP tras arrancar.

Contadores de interfaz (CRC/Giants/Runts/Collisions)

watch -n2 "ip -s link show eth0 | grep -A1 RX"

Cualquier contador en aumento continuo requiere investigación.

Herramientas de diagnóstico esenciales

Herramienta	Capa	Ejemplo CLI	Información
ping / hping3	3	`ping -M do -s1472`	MTU y alcance
traceroute / pathping	3	`traceroute -I -w2`	Latencia por salto
ip / ifconfig	2-3	`ip -s link`	Errores Rx/Tx
dig / nslookup	7	`dig +trace`	Cadena de delegación
ss / netstat	4	`ss -tulpn`	Puertos en uso
ip route	3	`ip route get 8.8.8.8`	Ruta de salida
tcpdump	2-7	`tcpdump 'tcp[13]&2!=0'`	Tormenta SYN
nmap / masscan	3-7	`nmap -sS -Pn`	Puertos abiertos
arp	2	`arp -a`	MAC duplicadas
mtr	3	`mtr -ezbwrc100`	Pérdida/latencia en vivo

Diagnóstico capa por capa

Física y de enlace

Pruebas TDR/OTDR de cableado.
Bucles Spanning-Tree.
Ataque VLAN de doble etiquetado.

Capa de red

Bloqueos IPv6 vs. IPv4 (Happy-Eyeballs).
Estados de vecinos BGP/OSPF.
Filtraciones de VRF/PBR.

Capa de transporte

Fallo en el three-way handshake TCP (tabla stateful).
Fragmentación UDP y offload.
Bloqueo de QUIC en UDP/443.

Capa de aplicación

Fallo DNSSEC.
HTTP 502/504/499.
SNI/TLS incoherente.

Problemas frecuentes y soluciones

Síntoma	Causa	Solución
`curl: name or service not known`	`/etc/resolv.conf` mal	Ajustar search/domain y SOA
RTT alto en el último salto	CPU / NIC saturada	irqbalance, habilitar GRO/LRO
Cortes HTTPS aleatorios	Tabla de estado llena	Ampliar conn-track
VoIP unidireccional	NAT asimétrico	Fijar puertos RTP/RTCP
Subred “black-hole”	Ruta de retorno faltante	Añadir ruta/redistribución

Redes inalámbricas y móviles

Site survey Wi-Fi — RSSI < –67 dBm.
Roaming rápido — 802.11 k/v/r.
DFS en 5/6 GHz — gestión de radar.
KPIs LTE / 5G — RSRP, RSRQ, SINR.

Contenedores, nube y SDN

Traza CNI en Kubernetes (cilium monitor).
AWS Reachability Analyzer, Azure NSG Flow Logs, GCP VPC-SC.
VXLAN/GRE/IPSec — captura en underlay + overlay.

Seguridad y respuesta a incidentes

Packet Broker/TAP de 100 Gb sin pérdidas.
Huellas TLS JA3/JA4.
Correlación de fuentes Zeek + Suricata.

Optimización de rendimiento y QoS

Técnica	Comando	Efecto
BBR	`sysctl net.ipv4.tcp_congestion_control=bbr`	Menor latencia
FQ-CoDel	`tc qdisc add dev eth0 root fq_codel`	Reduce bufferbloat
DSCP	EF/46 voz, AF41 vídeo	QoS extremo-a-extremo
WRED	`random-detect dscp 46`	Menos tail-drop

Automatización e IaC

ChatOps — comando Slack → Ansible → tcpdump → S3.
NetBox + Batfish — detección de drift y pruebas de reachability.
k6 / Locust — transacciones sintéticas en CronJob de K8s.

Matriz resumida de herramientas

Capa	Open Source	Comercial
NPM	LibreNMS, Prometheus	SolarWinds, PRTG
AIOps	Zabbix + ML	Kentik, ThousandEyes
Packet Capture	Wireshark, Arkime	Gigamon
APM	OpenTelemetry	Datadog, New Relic

Casos prácticos

Migración MPLS → SD-WAN — fuga de /32 al Area 0.
Flap BGP en ISP — activar Graceful-Restart, hold-time 180 s.
Black hole east-west en K8s — cilium bpf ct flush y redeploy CNI.

Mejores prácticas

Baselining mensual.
Control de cambios — verificaciones before/after.
Runbooks en Git con enlaces a paneles Grafana.

Conclusiones y próximos pasos

Centraliza la observabilidad, ejecuta drills de caos mensuales y automatiza los rollbacks: así el “apagafuegos” se convierte en ciencia repetible—latencia baja y throughput alto.

Apéndice A — Ejemplos CLI

ping -M do -s 1472 8.8.8.8          # Descubrir MTU
tcpdump -ni any 'tcp[13]&8!=0'      # Retransmisiones
show route advertising-protocol bgp # Juniper
kubectl get ep kube-dns -o wide     # VIP ↔ Pods

Apéndice B — Tablas de protocolo

Banderas TCP: URG ACK PSH RST SYN FIN
Cabeceras IPv6: 0 Hop-by-Hop, 43 Routing, 44 Fragment
DNS Opcode: 0 QUERY, 5 UPDATE, 4 NOTIFY

Apéndice C — Retención de registros

Tipo de dato	Almacenamiento caliente	Almacenamiento frío	Cumplimiento
pcap bruto	7 días SSD	30 días S3/Glacier	PCI-DSS
Flujos / métricas	13 meses TSDB	2 años object-store	GDPR
Syslog / Auditoría	1 año	5 años cinta	HIPAA

Guía definitiva de solución de problemas de red: pasos, herramientas, problemas y mejores prácticas

¿Para quién es esta guía? Ingenieros de redes, SRE, analistas de ciberseguridad, equipos Red Team y desarrolladores sénior que necesitan un manual práctico—desde un laboratorio doméstico con Raspberry Pi hasta un backbone SD-WAN intercontinental.

Conceptos básicos

¿Qué es la solución de problemas de red?

Es un proceso estructurado y basado en evidencias que detecta, aísla y corrige fallos en la ruta de tráfico en todas las capas OSI / TCP-IP. Los dos KPI críticos:

MTTD — Tiempo medio de detección
MTTR — Tiempo medio de restauración

Un proceso maduro reduce ambos tiempos, documenta la causa raíz y retroalimenta la arquitectura, el monitoreo y los runbooks.

Reactivo vs. proactivo: apagar incendios y prevenirlos; tus herramientas, métricas y ejercicios de caos deben cubrir ambos frentes.

Por qué importa en hogares, empresas e ISP/juegos

Cumplir SLA / SLO — Infringir disponibilidad o latencia genera penalizaciones y fuga de usuarios.
Aplicaciones sensibles a latencia — VoIP con > 30 ms de jitter, VR, e-sports.
MTBF — Aumentar el tiempo medio entre fallos indica madurez operativa.

Recordatorio rápido de conceptos clave

Tema	Punto clave
Direcciones IP / CIDR / VLSM	Subredes irregulares; valida con `ipcalc`.
Registros DNS	A/AAAA, PTR, CNAME, SRV, split-horizon.
Enrutamiento	Estático vs. OSPF/BGP/IS-IS, ECMP, PBR, VRF.
Modalidades NAT	SNAT, DNAT, PAT; rutas asimétricas.
Controles de seguridad	ACL sin estado, cortafuegos stateful, UTM, NGFW.

Metodología de siete pasos

Identificar el problema — síntomas, métricas, registros.
Plantear la hipótesis — análisis de arriba abajo o abajo arriba.
Probar la hipótesis — laboratorio, ventana de mantenimiento, pcap.
Crear plan de acción — puntos de rollback, aprobaciones, alcance.
Implementar o escalar — ejecutar MOP/SOP o derivar al siguiente nivel.
Verificar funcionalidad — sondas sintéticas, métricas de usuario real.
Documentar hallazgos — post-mortem, base de conocimiento, runbook.

Comprobaciones rápidas de hardware y conectividad

Validación de la capa física

Verificación	Comando	Resultado esperado
LEDs / negociación	`ethtool eth0`	1 Gb Full, sin errores
Loopback / TDR	`swconfig …`	Contadores estables
Potencia óptica	`ethtool -m`	–1 dBm ~ –3 dBm

Buenas prácticas de reinicio eléctrico

Avisar en el canal de incidentes → anotar la hora → apagar 30 s → comprobar NTP tras arrancar.

Contadores de interfaz (CRC/Giants/Runts/Collisions)

watch -n2 "ip -s link show eth0 | grep -A1 RX"

Cualquier contador en aumento continuo requiere investigación.

Herramientas de diagnóstico esenciales

Herramienta	Capa	Ejemplo CLI	Información
ping / hping3	3	`ping -M do -s1472`	MTU y alcance
traceroute / pathping	3	`traceroute -I -w2`	Latencia por salto
ip / ifconfig	2-3	`ip -s link`	Errores Rx/Tx
dig / nslookup	7	`dig +trace`	Cadena de delegación
ss / netstat	4	`ss -tulpn`	Puertos en uso
ip route	3	`ip route get 8.8.8.8`	Ruta de salida
tcpdump	2-7	`tcpdump 'tcp[13]&2!=0'`	Tormenta SYN
nmap / masscan	3-7	`nmap -sS -Pn`	Puertos abiertos
arp	2	`arp -a`	MAC duplicadas
mtr	3	`mtr -ezbwrc100`	Pérdida/latencia en vivo

Diagnóstico capa por capa

Física y de enlace

Pruebas TDR/OTDR de cableado.
Bucles Spanning-Tree.
Ataque VLAN de doble etiquetado.

Capa de red

Bloqueos IPv6 vs. IPv4 (Happy-Eyeballs).
Estados de vecinos BGP/OSPF.
Filtraciones de VRF/PBR.

Capa de transporte

Fallo en el three-way handshake TCP (tabla stateful).
Fragmentación UDP y offload.
Bloqueo de QUIC en UDP/443.

Capa de aplicación

Fallo DNSSEC.
HTTP 502/504/499.
SNI/TLS incoherente.

Problemas frecuentes y soluciones

Síntoma	Causa	Solución
`curl: name or service not known`	`/etc/resolv.conf` mal	Ajustar search/domain y SOA
RTT alto en el último salto	CPU / NIC saturada	irqbalance, habilitar GRO/LRO
Cortes HTTPS aleatorios	Tabla de estado llena	Ampliar conn-track
VoIP unidireccional	NAT asimétrico	Fijar puertos RTP/RTCP
Subred “black-hole”	Ruta de retorno faltante	Añadir ruta/redistribución

Redes inalámbricas y móviles

Site survey Wi-Fi — RSSI < –67 dBm.
Roaming rápido — 802.11 k/v/r.
DFS en 5/6 GHz — gestión de radar.
KPIs LTE / 5G — RSRP, RSRQ, SINR.

Contenedores, nube y SDN

Traza CNI en Kubernetes (cilium monitor).
AWS Reachability Analyzer, Azure NSG Flow Logs, GCP VPC-SC.
VXLAN/GRE/IPSec — captura en underlay + overlay.

Seguridad y respuesta a incidentes

Packet Broker/TAP de 100 Gb sin pérdidas.
Huellas TLS JA3/JA4.
Correlación de fuentes Zeek + Suricata.

Optimización de rendimiento y QoS

Técnica	Comando	Efecto
BBR	`sysctl net.ipv4.tcp_congestion_control=bbr`	Menor latencia
FQ-CoDel	`tc qdisc add dev eth0 root fq_codel`	Reduce bufferbloat
DSCP	EF/46 voz, AF41 vídeo	QoS extremo-a-extremo
WRED	`random-detect dscp 46`	Menos tail-drop

Automatización e IaC

ChatOps — comando Slack → Ansible → tcpdump → S3.
NetBox + Batfish — detección de drift y pruebas de reachability.
k6 / Locust — transacciones sintéticas en CronJob de K8s.

Matriz resumida de herramientas

Capa	Open Source	Comercial
NPM	LibreNMS, Prometheus	SolarWinds, PRTG
AIOps	Zabbix + ML	Kentik, ThousandEyes
Packet Capture	Wireshark, Arkime	Gigamon
APM	OpenTelemetry	Datadog, New Relic

Casos prácticos

Migración MPLS → SD-WAN — fuga de /32 al Area 0.
Flap BGP en ISP — activar Graceful-Restart, hold-time 180 s.
Black hole east-west en K8s — cilium bpf ct flush y redeploy CNI.

Mejores prácticas

Baselining mensual.
Control de cambios — verificaciones before/after.
Runbooks en Git con enlaces a paneles Grafana.

Conclusiones y próximos pasos

Centraliza la observabilidad, ejecuta drills de caos mensuales y automatiza los rollbacks: así el “apagafuegos” se convierte en ciencia repetible—latencia baja y throughput alto.

Apéndice A — Ejemplos CLI

ping -M do -s 1472 8.8.8.8          # Descubrir MTU
tcpdump -ni any 'tcp[13]&8!=0'      # Retransmisiones
show route advertising-protocol bgp # Juniper
kubectl get ep kube-dns -o wide     # VIP ↔ Pods

Apéndice B — Tablas de protocolo

Banderas TCP: URG ACK PSH RST SYN FIN
Cabeceras IPv6: 0 Hop-by-Hop, 43 Routing, 44 Fragment
DNS Opcode: 0 QUERY, 5 UPDATE, 4 NOTIFY

Apéndice C — Retención de registros

Tipo de dato	Almacenamiento caliente	Almacenamiento frío	Cumplimiento
pcap bruto	7 días SSD	30 días S3/Glacier	PCI-DSS
Flujos / métricas	13 meses TSDB	2 años object-store	GDPR
Syslog / Auditoría	1 año	5 años cinta	HIPAA

El Guía Definitiva de Solución de Problemas de Red: Pasos, Herramientas, Problemas y Mejores Prácticas

Lleva tu Carrera de Ciberseguridad al Siguiente Nivel

El Guía Definitiva de Solución de Problemas de Red: Pasos, Herramientas, Problemas y Mejores Prácticas

Lleva tu Carrera de Ciberseguridad al Siguiente Nivel