Blog
19. April 2026Protocol Design7 min

H2A — Human to Agent: The Missing Piece

A2A verbindet Agenten. MCP verbindet Tools. Aber wer verbindet den Menschen?

H2A · A2A · MCP · AG-UI · Modality Negotiation · NIST 800-63

Ein Kunde ruft von seinem Smartphone an. Der KI-Agent liest den Termin vor und schickt gleichzeitig einen Buchungslink per SMS. Derselbe Agent, derselbe Kunde — jetzt vom Festnetz. Kein SMS möglich. Also bucht der Agent komplett per Sprache. Und dann im Fahrzeug: Zwei kurze Sätze, Ja-oder-Nein-Frage, eine Karte auf dem Bildschirm. Der Agent weiß, was sein Gegenüber kann. Das ist H2A — Human to Agent.

Drei Protokolle, ein Vakuum

1
A2AAgent ↔ Agent
2
MCPAgent ↔ Tool
3
AG-UIFrontend ↔ Agent
4
H2AHuman ↔ Agent

Google baute A2A für Agent-zu-Agent: Cards, Tasks, Delegation. Anthropic entwickelte MCP für Agent-zu-Tool: Discovery, Schemas, Backend. CopilotKit füllte mit AG-UI die Frontend-Lücke: SSE Events, Shared State. Aber was passiert, wenn der Agent nicht weiß ob SMS möglich ist? Ob der Fahrer abgelenkt ist? Ob das Display drei Buttons rendern kann — oder nur Sprache?

Das Capability Envelope

json
{
  "channel": "headunit",
  "static": {
    "maxButtons": 3,
    "markdown": false,
    "driverDistraction": true
  },
  "situational": {
    "driving": true,
    "maxSentences": 2,
    "yesNoOnly": true
  }
}

Die Lösung: ein strukturiertes JSON, das jeder Kanal beim Verbindungsaufbau mitschickt. Was bin ich? Was kann ich? Was ist gerade los? Zwei Ebenen — statisch und situativ. Statisch ändert sich nie innerhalb einer Session. Situativ wird per Event live aktualisiert. Der Agent adaptiert in Echtzeit.

Statisch

  • Headunit: 3 Buttons, kein Markdown
  • Webchat: Rich Content, Bilder
  • Festnetz: nur Sprache, keine SMS
  • Ändert sich nie pro Session

Situativ

  • Fahrzeug fährt → 2 Sätze, Ja/Nein
  • Fahrzeug hält → längere Antworten
  • Kartenansicht möglich wenn stehend
  • Live-Updates per Event

Ein Agent, jeder Touchpoint

0Änderungen an den Agents bei neuem KanalNur ein neuer Channel Adapter + Capability Envelope

Das Revolutionäre: Der Agent selbst ändert sich nicht. Derselbe Orchestrator, dieselben Specialist Agents, dieselbe Logik. Nur die Response-Formatierung passt sich dem Envelope an. WhatsApp? Neuer Adapter, neues Envelope. Fertig.

Orchestrator

Koordiniert alle Specialist Agents über A2A. Entdeckt sie automatisch im Agent Garden.

Identity Agent

Authentifizierung und Verifikation über AI Confidence Scoring.

Booking Agent

Terminbuchung adaptiert an Kanal-Capabilities.

Vehicle Agent

Fahrzeugdaten und -steuerung über das One MCP Gateway.

Service Agent

Serviceanfragen mit vollständigem CRM-Kontext.

One MCP Gateway

Zentraler Backend-Zugriff: CRM, Kalender, Fahrzeug-APIs, KB.

AI Confidence Scoring

1
HIGHmTLS / Connected Car
2
MEDIUMBekannte Nummer
3
LOWUnbekannt → Mensch

Statt starrer Authentifizierung: parallele Signal-Fusion. Elf Methoden, priorisiert nach NIST 800-63, regulatorisch abgesichert nach DSGVO Art. 22. Voice Biometrics ist kein eigenständiger Faktor — NIST verbietet das explizit. FIDO2 und Passkeys haben Priorität.

Das System ist auf sieben regulatorische Rahmenwerke gleichzeitig gebaut: DSGVO, eIDAS 2.0, PSD2, EU AI Act, NIST 800-63, ISO 21434, UNECE R155.

Der vollständige Protokoll-Stack

AG-UI

Frontend ↔ Agent: Events, State, Rendering. CopilotKit Standard.

A2A

Agent ↔ Agent: Tasks, Delegation, Federation. Google Standard.

MCP

Agent ↔ Tools: Discovery, Schemas, Backend. Anthropic Standard.

SIP/WebSocket

Voice-Welt: Audio, das kein anderes Protokoll nativ beherrscht.

Das Capability Envelope ist die Brücke, die AG-UI fehlt. Es erweitert Frontend-to-Agent um Modality Negotiation, Situational Constraints und Auth Context.

Warum das niemand baut

Status Quo

  • Ein Bot pro Kanal
  • Jeder kennt nur seinen Kontext
  • Kunde erklärt sich bei jedem neu
  • Kein Cross-Channel Auth Transfer
  • Isolierte Inseln

H2A-Architektur

  • Ein Agent, alle Kanäle
  • Envelope liefert Kontext
  • Nahtlose Customer Journey
  • AI Confidence über Kanäle hinweg
  • Verbundenes System
55regulatorische Referenzen kreuzvalidiert7 Deep-Research-Domänen · PRD + TAD mit 2.500 Zeilen

Wer bei den Protokollen zwischen Mensch und Agent spart, baut isolierte Inseln statt ein verbundenes System.

Eine EUDI-Wallet-Ready Architektur kombiniert mit AI Confidence Scoring und regulatorischem First-Principles-Design existiert bisher nicht als integriertes System. Das erfordert ein architektonisches Umdenken, das über einzelne Teams hinausgeht.

— Philipp

H2A für dein Unternehmen? Lass uns über Omnichannel-KI-Architektur sprechen.

Beratungsgespräch buchen