Agent in the Loop
56 Skills, Quality Gates und ein Learning Loop — wie autonome Agenten ohne mich arbeiten
Claude Code · Multi-Agent · MCP · Hooks · Skills
Es ist 23:47 Uhr. Mein Laptop meldet: 3 neue DevProcess-Tickets. Ich schaue kurz hin: Severity Low, UI-Fehler. Ich tippe: „Arbeite autonom an den offenen Tickets.“ Dann gehe ich schlafen.
Der Traum von autonomer Entwicklung
Human in the Loop
- Agent wartet auf jedes „Ja“
- 38% Frustrations-Overhead
- 31% automatisierbare Nachrichten
- Nur 6% echte Entscheidungen
- 4 Stunden Time-to-Ship
Agent in the Loop
- Agent entscheidet nach Risiko
- Null Overhead bei Level 1-3
- Skill Chains ohne Unterbrechung
- Mensch nur bei Level 7-8
- Unter 1 Stunde Time-to-Ship
Das autonome Dev Team
Level 1-3
Code-Style, Commits, Tests. Agent entscheidet allein.
Level 4-6
Architektur, API-Design. Konsultiert Knowledge Backbone.
Level 7-8
Breaking Changes, Security, Production. Fragt den Menschen.
Skill Chains: Ticket rein, PR raus
„Implementiere PROJ-456 komplett.“ Der Orchestrator erkennt den Workflow-Typ. Liest das JIRA-Ticket via MCP. Fragt den KB-Agent nach Kontext. Erstellt einen Feature-Branch. Implementiert. Self-Review. Browser-Test. PR. „PR ready for review.“
Dazwischen: 5 verkettete Skills, 2 MCP-Abfragen, 4 Quality Gates und null Fragen an mich. Das ist die Endlosschleife: Ticket rein, PR raus.
Der Knowledge Backbone
Das Herzstück: ein semantischer Wissensspeicher mit Temporal Knowledge Management. Jede Entscheidung, jede Korrektur fließt zurück. Confidence Decay lässt veraltetes Wissen verblassen. Conflict Detection erkennt Widersprüche.
“Wenn ich den Agent korrigiere, erkennt der Learning Loop die Korrektur und speichert sie. Nächstes Mal macht er denselben Fehler nicht mehr.”
Reliability: Circuit Breaker für Autonomie
State Machine
Workflow-Zustände persistent getrackt. Kein Step geht verloren.
Circuit Breaker
JIRA down? Cache greift. Skill fehlgeschlagen? Alternativer Ansatz.
Task Persistence
Jeder Task überlebt Crashes und Session-Wechsel.
Confidence Tracking
Entscheidungen mit Confidence-Score. Unter Threshold: Eskalation.
Drei Versuche. Source Code lesen vor dem Fix. Dann erst Eskalation an mich. Autonomie ohne Zuverlässigkeit ist gefährlich.
Die Zahlen
Vorher
- 10 manuelle Triggers pro Feature
- 5 Korrekturen
- 3 Context Rebuilds
- 4 Stunden Time-to-Ship
Nachher
- 2-3 Triggers
- 1-2 Korrekturen
- 0 Context Rebuilds
- < 1 Stunde Time-to-Ship
Das sind keine Marketing-Zahlen. Das sind reale Metriken aus meiner täglichen Arbeit an 5 Projekten parallel. Der Punkt ist nicht Perfektion — es ist Richtung.
Was als Nächstes kommt
Die Endlosschleife ist nie fertig. Retro-Automatisierung: Nach jedem Sprint analysiert das System seine eigene Performance. Welche Skills waren langsam? Welche Korrekturen häuften sich?
“Das Ziel: Nicht ich optimiere das System. Das System optimiert sich selbst. Und ich bleibe der Dirigent, der die Partitur schreibt.”
— Philipp
Autonome Entwicklungsteams für dein Unternehmen? Lass uns über Agent-in-the-Loop sprechen.
Beratungsgespräch buchen