Agent in the Loop
56 skills, quality gates y un learning loop — cómo los agentes autónomos trabajan sin mí
Claude Code · Multi-Agent · MCP · Hooks · Skills
Son las 23:47. Mi laptop reporta: 3 nuevos tickets DevProcess. Echo un vistazo: Severidad Baja, errores de UI. Escribo: 'Trabaja autónomamente en los tickets abiertos.' Luego me voy a dormir.
El sueño del desarrollo autónomo
Human in the Loop
- El agente espera cada 'sí'
- 38% overhead de frustración
- 31% mensajes automatizables
- Solo 6% decisiones reales
- 4 horas time-to-ship
Agent in the Loop
- El agente decide por nivel de riesgo
- Cero overhead en nivel 1-3
- Cadenas de skills sin interrupción
- Humano solo en nivel 7-8
- Menos de 1 hora time-to-ship
El equipo de desarrollo autónomo
Nivel 1-3
Estilo de código, commits, tests. El agente decide solo.
Nivel 4-6
Arquitectura, diseño de API. Consulta Knowledge Backbone.
Nivel 7-8
Breaking changes, seguridad, producción. Pregunta al humano.
Skill Chains: Ticket entra, PR sale
'Implementa PROJ-456 completamente.' El orquestador detecta el tipo de workflow. Lee el ticket JIRA vía MCP. Consulta al KB agent por contexto. Crea un feature branch. Implementa. Self-review. Test en browser. PR. 'PR ready for review.'
En medio: 5 skills encadenados, 2 consultas MCP, 4 quality gates y cero preguntas a mí. Esa es la cadena sin fin: ticket entra, PR sale.
El Knowledge Backbone
El corazón: un almacén de conocimiento semántico con gestión temporal. Cada decisión, cada corrección fluye de vuelta. Confidence decay deja desvanecer el conocimiento obsoleto. Conflict detection detecta contradicciones.
“Cuando corrijo al agente, el learning loop reconoce la corrección y la almacena. La próxima vez no cometerá el mismo error.”
Reliability: Circuit Breaker para la autonomía
State Machine
Estados de workflow rastreados persistentemente. Ningún paso se pierde.
Circuit Breaker
¿JIRA caído? El cache entra. ¿Skill falló? Enfoque alternativo.
Task Persistence
Cada tarea sobrevive crashes y cambios de sesión.
Confidence Tracking
Decisiones con score de confianza. Bajo umbral: escalación.
Tres intentos. Leer código fuente antes de arreglar. Solo entonces escalación a mí. Autonomía sin confiabilidad es peligrosa.
Los números
Antes
- 10 triggers manuales por feature
- 5 correcciones
- 3 rebuilds de contexto
- 4 horas time-to-ship
Después
- 2-3 triggers
- 1-2 correcciones
- 0 rebuilds de contexto
- < 1 hora time-to-ship
No son números de marketing. Son métricas reales de mi trabajo diario en 5 proyectos en paralelo. El punto no es perfección — es dirección.
Lo que viene después
La cadena sin fin nunca termina. Automatización retro: después de cada sprint, el sistema analiza su propio rendimiento. ¿Qué skills fueron lentos? ¿Qué correcciones se acumularon?
“El objetivo: yo no optimizo el sistema. El sistema se optimiza a sí mismo. Y yo sigo siendo el director que escribe la partitura.”
— Philipp
¿Equipos de desarrollo autónomos para tu organización? Hablemos de agent-in-the-loop.
Reservar consulta