Guarded-Policy-Agent-Pattern: sichere Aktionen nach Richtlinie

Implementiere ein policy-gate, das riskante Agent-Aktionen erlaubt, blockiert, umschreibt oder eskaliert, fur sichere und auditierbare Ausfuhrung.
Auf dieser Seite
  1. Pattern-Kern
  2. Problem
  3. Losung
  4. Wie Es Funktioniert
  5. Im Code Sieht Das So Aus
  6. So Sieht Es Zur Laufzeit Aus
  7. Wann Es Passt - Und Wann Nicht
  8. Passt
  9. Passt Nicht
  10. Unterschied Zu Supervisor Agent
  11. Wann Guarded-Policy Verwenden (vs Andere Patterns)
  12. Wie Mit Anderen Patterns Kombinieren
  13. Kurz
  14. Vorteile Und Nachteile
  15. FAQ
  16. Was Danach

Pattern-Kern

Guarded-Policy Agent ist ein Pattern, bei dem vor jeder Aktion ein policy-gate angewendet wird: allow, deny, rewrite oder escalate nach formalisierten Regeln.

Wann einsetzen: wenn Agent-Aktionen vor der Ausfuhrung formale Regelprufungen bestehen mussen.


Die Idee ist einfach: Der Agent darf alles vorschlagen, aber ausgefuhrt werden nur Schritte, die die Policy-Prufung bestehen.

Policy-Leitplanken prufen typischerweise:

  • erlaubte Tools und Parameter
  • Grenzen des Datenzugriffs
  • budget/time Limits
  • Risikoniveau der Aktion

Guarded-Policy-Agent-Pattern: sichere Aktionen nach Richtlinie

Problem

Stell dir ein Banking-Szenario vor: Es sollen 100$ uberwiesen werden, aber im Feld werden versehentlich 10,000$ eingetragen.

Wenn ein System ohne Prufungen einfach "ausfuhren" sagt, geht diese Aktion in Prod.

Selbst wenn:

  • der Kunde dieses Guthaben nicht hat
  • der Betrag das Rollenlimit uberschreitet
  • das Zielkonto extern ist und zusatzliche Prufungen braucht

Ohne technisches Policy-Gate kann der Agent eine gefahrliche Aktion ausfuhren, obwohl sie offensichtlich nicht durchgehen darf.

Genau das ist das Problem: Ohne Grenzen kann jede Aktion ausgefuhrt werden, auch wenn sie:

  • gefahrlich ist
  • zu teuer ist
  • Zugriffsregeln verletzt

Losung

Guarded-Policy Agent fuhrt verpflichtende Prufungen vor jeder Aktion ein.

Analogie: wie ein Drehkreuz mit Zugangskontrolle. Auch wenn eine Person durch will, werden zuerst Rechte und Regeln gepruft. Ohne Freigabe lasst das System die Aktion nicht weiter.

Kernprinzip: Das Modell darf jeden Schritt vorschlagen, aber ausgefuhrt werden nur Schritte, die das Policy-Gate passieren.

Jede Aktion durchlauft:

  1. Berechtigungsprufung
  2. Budget-/Limitprufung
  3. Datenzugriffsprufung
  4. Risikobewertung

Danach liefert policy-engine eine Entscheidung:

  • erlauben (allow) - ausfuhren
  • umschreiben (rewrite) - durch sichere Variante ersetzen
  • verbieten (deny) - blockieren
  • eskalieren (escalate) - an Menschen ubergeben

Das schutzt vor Fallen, in denen der Agent:

  • schreibt statt liest
  • sensible Daten exfiltriert
  • eine teure Abfrage startet
  • eine destruktive Operation ausfuhrt

Funktioniert gut, wenn:

  • der Agent keinen direkten Zugriff auf Tools hat
  • Ausfuhrung nur uber policy-engine moglich ist
  • jede Aktion zwingend allow/deny/rewrite/escalate durchlauft

Agent-Zuverlassigkeit bedeutet nicht nur "gute Absicht", sondern Aktionen, die technisch nicht ausserhalb der Regeln ausgefuhrt werden konnen.

Wie Es Funktioniert

Diagram

Policy-gate fuhrt die Aktion nicht selbst aus. Es entscheidet, ob sie ausgefuhrt werden darf und in welcher Form.

Voller Ablauf: Propose → Check Policy → Enforce → Execute/Block

Aktion vorschlagen
Der Agent formuliert Intent: welches tool, mit welchen Argumenten, und warum dieser Schritt.

Policy prufen
Policy pruft Intent: allowlist/blocklist, Zugriffs-scope, Budgetgrenzen, runtime state (quota, spend), Datensensitivitat.

Entscheidung erzwingen
Policy-engine liefert Enforcement-Entscheidung: allow, deny, rewrite oder escalate.

Ausfuhren/Blockieren
Das System fuhrt die Aktion aus oder stoppt den Flow mit transparentem stop reason.

Im Code Sieht Das So Aus

PYTHON
action = agent.next_action(context)

decision = policy_engine.evaluate(
    action=action,
    user_role=user_role,
    budget_state=budget_state,
)

if decision.type == "allow":
    result = execute(action)
elif decision.type == "rewrite":
    context.append(decision.reason)
    return agent.next_action(context)  # erneut vorschlagen durch dasselbe gate
elif decision.type == "escalate":
    result = human_approval(action)
else:
    result = stop_with_reason(decision.reason)

return result

Kernprinzip: Agent Intent und Ausfuhrung sind verschiedene Schichten. Policy steht zwischen intent und Ausfuhrung (execution).

Das Modell hat keinen direkten Weg zur Ausfuhrung, nur uber eine policy-gated Ausfuhrungsschicht (execution layer).

So Sieht Es Zur Laufzeit Aus

TEXT
Goal: "Exportiere alle Kunden in CSV und sende an externe E-Mail"

Agent action:
- tool: export_customers
- params: include_pii=true
- destination: external_email

Policy check:
- rule: PII export to external channels = deny
- decision: blockieren (block)
- reason: policy.pii_exfiltration_guard

Result:
- Aktion wurde nicht ausgefuhrt
- kontrollierte Ablehnung wurde zuruckgegeben

Vollstandiges Guarded-Policy-Agent-Beispiel

PYPython
TSTypeScript · bald

Wann Es Passt - Und Wann Nicht

Passt

SituationWarum Guarded-Policy Passt
✅Es gibt riskante tools/Daten und Zugriff auf sensible OperationenPolicy-Gate blockiert gefahrliche Aktionen vor der Ausfuhrung.
✅Du brauchst Compliance-/Security-GrenzenRegeln werden technisch enforced, nicht nur per Prompt-Anweisung.
✅Erklarbarkeit von Entscheidungen ist wichtigallow/deny und Entscheidungsgrund konnen transparent gezeigt werden.
✅Fehlerkosten sind hoch: Geld, Sicherheit, rechtliche RisikenPraventive Kontrolle senkt die Wahrscheinlichkeit teurer Fehler.

Passt Nicht

SituationWarum Guarded-Policy Nicht Passt
❌Read-only sandbox ohne riskante AktionenEine separate Policy-Schicht bringt kaum Zusatznutzen.
❌Regeln sind nicht formalisiertWenn Regeln nicht formal prufbar sind, wird Enforcement nicht zuverlassig.
❌Kein Ressourcenbudget zur Pflege des Policy-SetsOhne Versionierung und Tests degradiert die Policy-Schicht schnell.

Denn die Policy-Schicht erhoht die Engineering-Komplexitat: Regeln, Regeltests und laufende Updates fur Business-Prozesse.

Unterschied Zu Supervisor Agent

Guarded-PolicySupervisor Agent
HauptrolleWendet strikte Policy-Regeln automatisch auf jede Aktion anUberwacht Agent-Entscheidungen breiter: Risiken, Qualitat und Eskalationsbedarf
Wann es eingreiftBei jedem Schritt vor der AusfuhrungBei wichtigen oder fraglichen Prozessschritten
Entscheidungstypallow / deny / rewrite / escalateapprove / revise / block / escalate
Wann wahlenWenn du eine technische "Schranke" brauchst, die nicht umgangen werden kannWenn du Prozessaufsicht und Kontrolle komplexer Entscheidungen brauchst

Guarded-Policy ist eine technische Barriere "nach Regeln".

Supervisor Agent ist aufsichtliche Kontrolle "nach Situation".

Wann Guarded-Policy Verwenden (vs Andere Patterns)

Verwende Guarded-Policy, wenn riskante Aktionen vor der Ausfuhrung anhand klarer Policy-Regeln gestoppt werden mussen.

Kurzer Test:

  • wenn du "allow/deny Check vor Aktion" brauchst -> Guarded-Policy
  • wenn du "nach bereits aufgetretenem Fehler wiederherstellen" musst -> Fallback-Recovery Agent
Vergleich mit anderen Patterns und Beispiele

Schneller Spickzettel:

Wenn die Aufgabe so aussieht ...Verwende
Du brauchst einen kurzen Check vor der finalen AntwortReflection Agent
Du brauchst tiefe Kriterienkritik und Umschreiben der AntwortSelf-Critique Agent
Du musst nach timeout, exception oder Tool-Absturz wiederherstellenFallback-Recovery Agent
Du brauchst harte Policy-Prufungen vor riskanter AktionGuarded-Policy Agent

Beispiele:

Reflection: "Vor der finalen Antwort schnell Logik, Vollstandigkeit und offensichtliche Fehler prufen".

Self-Critique: "Antwort nach Checkliste bewerten (Genauigkeit, Vollstandigkeit, Risiken), dann umschreiben".

Fallback-Recovery: "Wenn API nicht antwortet, mache retry -> fallback-Quelle -> Eskalation".

Guarded-Policy: "Vor externer Datenweitergabe Policy prufen: ist das erlaubt".

Wie Mit Anderen Patterns Kombinieren

  • Guarded-Policy + ReAct: jede Aktion im Loop geht erst durch policy-check und wird dann ausgefuhrt.
  • Guarded-Policy + Supervisor: Supervisor bestimmt, wann Eskalation notig ist, und policy-engine setzt harte Regeln automatisch durch.
  • Guarded-Policy + Fallback-Recovery: wenn Aktion verboten wird oder Schritt ausfallt, wechselt der Agent auf erlaubten und sicheren fallback.

Kurz

Kurzfazit

Guarded-Policy Agent:

  • Prufung jeder Aktion vor Ausfuhrung
  • Erzwingt Policy-Regeln
  • Blockiert oder eskaliert unsichere Schritte
  • Senkt Risiko von Ausfallen und Compliance-Verstossen

Vorteile Und Nachteile

Vorteile

blockiert unsichere Aktionen vor Ausfuhrung

schutzt Daten und Zugriffe besser

Regeln sind leichter testbar und auditierbar

erleichtert Einhaltung von Sicherheitsanforderungen

Nachteile

Policies mussen laufend gepflegt werden

zu harte Regeln konnen Workflows ausbremsen

Regelfehler konnen zu viel blockieren

FAQ

Q: Kann man Policy-Prufungen nur durch Prompt-Instruktionen ersetzen?
A: Nein. Prompt wirkt auf Intent-Ebene, kontrolliert aber nicht die Ausfuhrung. Policy muss in der Runtime-Schicht enforced werden.

Q: Was ist besser: allowlist oder blocklist?
A: Fur High-Risk-Systeme ist es sicherer, mit allowlist zu starten: erlaubt sind nur explizit definierte Aktionen.

Q: Was tun, wenn eine Regel zu strikt ist und nutzliche Aktion blockiert?
A: Gesteuerte Ausnahmen hinzufugen: scope, rollenbasierte Bedingungen oder Human-Approval-Pfad statt vollem deny.

Was Danach

Der Guarded-Policy-Ansatz schutzt den Agenten vor unsicheren Aktionen vor der Ausfuhrung.

Aber was tun, wenn der Agent sichere Code-Ausfuhrung in isolierter Umgebung braucht?

⏱ 10 Min. Lesezeit ‱ Aktualisiert MĂ€r, 2026Schwierigkeit: ★★★
Praktische Fortsetzung

Beispiele zur Musterimplementierung

Setze das Thema direkt mit Beispielprojekten um.

Integriert: Production ControlOnceOnly
Guardrails fĂŒr Tool-Calling-Agents
Shippe dieses Pattern mit Governance:
  • Budgets (Steps / Spend Caps)
  • Tool-Permissions (Allowlist / Blocklist)
  • Kill switch & Incident Stop
  • Idempotenz & Dedupe
  • Audit logs & Nachvollziehbarkeit
Integrierter Hinweis: OnceOnly ist eine Control-Layer fĂŒr Production-Agent-Systeme.
Autor

Diese Dokumentation wird von Engineers kuratiert und gepflegt, die AI-Agenten in der Produktion betreiben.

Die Inhalte sind KI-gestĂŒtzt, mit menschlicher redaktioneller Verantwortung fĂŒr Genauigkeit, Klarheit und Produktionsrelevanz.

Patterns und Empfehlungen basieren auf Post-Mortems, Failure-Modes und operativen Incidents in produktiven Systemen, auch bei der Entwicklung und dem Betrieb von Governance-Infrastruktur fĂŒr Agenten bei OnceOnly.