La inteligencia artificial está permitiendo a los equipos de desarrollo lanzar actualizaciones de software a una velocidad sin precedentes. Sin embargo, con un 70% de los incidentes originados por cambios implementados en sistemas activos, este aumento en la rapidez conlleva un crecimiento paralelo en la frecuencia de fallos o interrupciones.
Ante esta realidad, resulta indispensable evolucionar de los métodos tradicionales de respuesta a incidentes, que no están diseñados para hacerse cargo de esta elevada velocidad. Según el Director de Inteligencia Artificial (CAIO) de PagerDuty, la clave está en construir un ecosistema de IA que conecte diversas herramientas y utilice datos operativos propios —como el historial de incidentes, registros, métricas o dependencias de servicios— para ayudar a diagnosticar, resolver e incluso prevenir problemas antes de que escalen.
Este sistema demanda un estándar común para que los agentes de IA puedan intercambiar información y ejecutar acciones coordinadas. En este sentido, el Model Context Protocol (MCP) ha surgido como el estándar predominante. No obstante, simplemente contar con conectores MCP no garantiza eficacia: se requiere que los agentes tengan acceso a los datos adecuados, se adapten a los flujos de trabajo y sobre todo, integren memoria tanto a corto como a largo plazo.
Para que un agente de IA sea efectivo en la gestión de incidentes, debe discernir qué información es relevante, cómo están interrelacionados los sistemas, y qué acciones puede tomar de forma segura. El desafío consiste en diseñar una «arnés» o estructura que facilite este acceso y control, proporcionando al agente contexto detallado sobre cambios en código, alertas, métricas, topologías de servicios, equipos de guardia y mucho más.
Este contexto capacita al agente para realizar tareas críticas como la clasificación, diagnóstico y mitigación rápida, disminuyendo el tiempo de resolución. Más allá, al analizar patrones repetitivos en el ciclo de desarrollo, los agentes podrán anticipar potenciales incidentes y evitar su aparición.
Un ejemplo práctico es la integración con asistentes de código como Claude Code o GitHub Copilot. Estos asistentes, mediante habilidades específicas y protocolos MCP, pueden evaluar el riesgo de una modificación antes de que llegue a producción. Aprovechando bases históricas de incidentes y la topología del servicio, generan puntuaciones de riesgo y recomendaciones que guían a los desarrolladores sobre si se requiere revisar o aplazar una actualización.
Asimismo, la capa de memoria del agente es fundamental. Esta debe recopilar y organizar datos relevantes sin saturar el contexto con información no pertinente. Además, debe poder adaptarse dinámicamente, agregando nuevas relaciones semánticas y descartando hechos obsoletos a medida que avanza la investigación del incidente, integrando inputs de herramientas de monitoreo y expertos.
Potenciando el rendimiento con confianza y control
Es cierto que no siempre se pueden evitar los incidentes, pero con un arnés bien establecido, los agentes de IA pueden ser los primeros en explorar un problema, realizar un triage inicial y escalar a humanos solo cuando sea necesario, dependiendo de la gravedad y confianza en el agente.
Como mínimo, ofrecen a los equipos de respuesta un contexto enriquecido y diagnósticos preliminares para acelerar la intervención. En servicios menos críticos, incluso podrían actuar de forma autónoma, limitando las notificaciones humanas solo en casos de baja confianza o gravedad, evitando alertar fuera del horario laboral.
Para que esta confianza se consolide, la estructura del agente debe ofrecer transparencia y control. Los usuarios deben poder establecer qué acciones están permitidas, cuáles están restringidas y cuándo es obligatorio solicitar la aprobación humana. En entornos empresariales complejos, el agente debe respetar los permisos y roles de cada equipo para evitar accesos indebidos a datos sensibles.
Hacia una mejora continua e inteligente
La verdadera oportunidad reside en desarrollar un arnés de IA que no solo acelere la gestión de incidentes, sino que aprenda y evolucione constantemente. Combinando memorias compartidas, documentación operativa, antecedentes de incidentes y análisis post-mortem, los equipos pueden crear agentes con capacidad creciente para prevenir y resolver problemas.
Aquellas organizaciones que empiecen a invertir en este enfoque integrado hoy tendrán una ventaja competitiva significativa en el futuro, transformando sus operaciones digitales hacia una mayor resiliencia y eficiencia.