Mehr als ein Chatbot
Wie ich einen Breathing Agent gebaut habe, der beobachtet, versteht und selbst handelt
AG-UI · A2A · MCP · React · FastAPI · Bedrock
Stell dir vor, du sitzt in einem Tonstudio. Neben dir sitzt eine erfahrene Hörbuch-Produzentin. Sie ist immer da. Sie ist meistens still. Wenn du konzentriert arbeitest und alles gut läuft, sagt sie nichts. Aber du weißt, dass sie da ist. Und wenn sie etwas sieht — eine Wiederholung, einen Stilbruch, einen Fehler — dann spricht sie. Direkt, konstruktiv, nie belehrend.
Das Problem mit klassischen Agenten
Klassischer Agent
- Wartet im Nebenzimmer
- User muss rufen
- Chat-Panel als Gefängnis
- Kein Kontext zwischen Seiten
- Entweder an oder aus
Breathing Agent (Aria)
- Sitzt neben dir
- Beobachtet und agiert autonom
- Lebt in der Anwendung
- Persistierter Kontext überall
- 4 fließende Atemzustände
Jede KI-Anwendung, die ich kenne, macht es gleich: ein Chatfenster, ein Eingabefeld, ein Button. Das ist kein Assistent — das ist ein Service-Desk. Bei AudioLoom wollte ich es anders. Die Frage war nie: Wo platzieren wir den Agenten? Die Frage war: Wie verhält sich eine kompetente Kollegin?
Aria atmet
RUHE
Alles läuft. Nur ihr Avatar mit sanftem Puls. Wie ein ruhiger Atem.
AUFMERKSAM
Sie bemerkt etwas. Ein Toast am Rand — kein Layout-Shift, nur ein konkreter Hinweis.
IM GESPRÄCH
Der User spricht sie an. Dialog öffnet sich. Voller Kontext, persistierte History.
ORCHESTRIEREND
'Mach das.' Felder füllen sich, Seiten wechseln, Fortschrittsbalken. Alles unterbrechbar.
Navigation und Aria atmen gegenläufig. Aria expandiert → Navigation kollabiert auf Icons. 300ms Transition. Netto-Platzverlust: 60 Pixel. Das merkt niemand.
5 Paradoxe eines guten Assistenten
“Regeln machen keinen guten Assistenten. Die Spannungen zwischen Regeln machen einen guten Assistenten.”
Selbstsicher ↔ Demütig
Genug Stärke zum Widersprechen — genug Größe zum Irren.
Proaktiv ↔ Zurückhaltend
Hilft bevor man fragt — nervt nie.
Autonom ↔ Transparent
Arbeitet selbstständig — gibt jederzeit Kontrolle zurück.
Ehrlich ↔ Diplomatisch
Benennt Probleme — schützt den kreativen Prozess.
Kompetent ↔ Lernend
Wenn Aria zugibt falsch zu liegen, gewinnt ihr nächster Widerspruch an Gewicht.
Der Dirigent-Modus
'Ich hab ein PDF mit meinem Roman. Mach eine 5-teilige Hörbuch-Serie draus. Noir-Krimi, Hamburg, Ich-Perspektive.' Was dann passiert: Aria liest, analysiert, erstellt die Serie, baut die Bible, generiert 5 Episoden — alles sichtbar, alles unterbrechbar. Der User hat kein Formular angefasst. Er hat geredet, Aria hat gearbeitet.
Das ist kein separater Modus. Das ist Aria, die auf verbale Anweisung reagiert statt auf Formular-Input zu warten.
Wie Aria die Seite steuert: AG-UI
Aria ist kein isolierter Chat-Agent. Sie steuert die Anwendung direkt über das AG-UI-Protokoll. 'Erstelle eine neue Episode' → Aria navigiert zur Seite, öffnet den Dialog, füllt die Felder, bestätigt. Der User sieht jeden Schritt. Aria arbeitet nicht im Hintergrund — sie arbeitet vor deinen Augen.

Drei Schichten des Sehens
Tier 1: Browser
Wortwiederholungen, leere Pflichtfelder, ACX-Metrik-Verletzungen. Sofort, kostenlos.
Tier 2: Server
Cross-Episode-Konsistenz, Bible-Abgleich. Debounced, 5 Sekunden nach letzter Änderung.
Tier 3: LLM
Stil-Analyse, Plot-Löcher, Genre-Feedback. Nur bei Phasenabschlüssen oder auf Anfrage.
Der User erlebt Aria nicht als allwissend, sondern als aufmerksam. Manche Dinge sieht sie sofort, andere brauchen einen Moment. Wie ein Mensch.
Warum das funktioniert
“Die beste KI-Interaktion fühlt sich nicht nach KI an. Sie fühlt sich an wie eine gute Kollegin.”

Die Breathing-Agent-Philosophie ist kein AudioLoom-Feature. Es ist eine Design-Philosophie für jedes Produkt mit KI-Assistent. Die Kernfrage bleibt immer: Nicht wo platziere ich den Agenten — sondern wie verhält sich ein Mensch im Raum.
— Philipp
Breathing Agent für dein Produkt? Lass uns über KI-Assistenten sprechen, die sich natürlich anfühlen.
Beratungsgespräch buchen