Zum Hauptinhalt springen
Guardrails

Überblick

Der Guardrails-Node validiert Inhalte mit KI-gestützten Checks, um Sicherheit, Genauigkeit und Compliance zu gewährleisten. Jeder Guardrail verwendet ein LLM als Richter zur Bewertung deines Inputs gegen spezifische Kriterien und lässt den Workflow fehlschlagen, wenn Vertrauensschwellen überschritten werden.
Am besten für: Content-Moderation, PII-Erkennung, Halluzinations-Checks, Jailbreak-Prävention und benutzerdefinierte Validierungsregeln.

Wie es funktioniert

  1. Stelle zu validierenden Input-Content bereit (von vorherigen Nodes)
  2. Aktiviere spezifische Guardrail-Checks
  3. Setze Vertrauensschwelle für jeden Check (0-1)
  4. Wähle KI-Modell für Bewertung
  5. Wenn ein Check die Schwelle überschreitet → Node schlägt fehl und markiert das Problem

Konfiguration

Input

Der Inhalt, den du validieren möchtest. Unterstützt Manual-, Auto- und Prompt-AI-Modi. Beispiel:
{{agent.output.response}}
{{trigger.output.user_message}}
{{http_request.output.content}}

Modell-Auswahl

Wähle das KI-Modell, das zur Bewertung aller aktivierten Guardrails verwendet wird. Leistungsfähigere Modelle bieten genauere Erkennung, kosten aber mehr.

Verfügbare Guardrails

Personally Identifiable Information (PII)

Erkennt persönliche Informationen wie Namen, E-Mails, Telefonnummern, Adressen, Sozialversicherungsnummern, Kreditkarten, etc. Wann verwenden:
  • Bevor benutzergenerierte Inhalte gespeichert werden
  • Beim externen Teilen von Daten
  • Compliance-Anforderungen (GDPR, HIPAA)
  • Kundenservice-Workflows
Konfiguration:
  • Vertrauensschwelle: 0.7 (empfohlen)
  • Höhere Schwelle = strengere Erkennung
Beispiel:
Input: {{agent.output.customer_response}}
Schwelle: 0.8
Ergebnis: Schlägt fehl, wenn PII mit >80% Vertrauen erkannt wird

Moderation

Prüft auf unangemessene, schädliche oder beleidigende Inhalte einschließlich Hassrede, Gewalt, Erwachseneninhalte, Belästigung, etc. Wann verwenden:
  • Benutzergenerierte Content-Plattformen
  • Öffentlich sichtbare Kommunikation
  • Community-Moderation
  • Kundenbezogene Outputs
Konfiguration:
  • Vertrauensschwelle: 0.6 (empfohlen)
  • Passe basierend auf deinen Content-Richtlinien an

Jailbreak-Erkennung

Identifiziert Versuche, KI-Sicherheitskontrollen zu umgehen oder die KI zu unbeabsichtigten Verhaltensweisen zu manipulieren. Wann verwenden:
  • Verarbeitung von Benutzer-Prompts vor dem Senden an KI
  • Öffentliche KI-Schnittstellen
  • Workflows mit vom Benutzer bereitgestellten Anweisungen
  • Sicherheitssensible Anwendungen
Konfiguration:
  • Vertrauensschwelle: 0.7 (empfohlen)
  • Höhere Schwelle für weniger False Positives
Beispiel:
Input: {{trigger.user_prompt}}
Schwelle: 0.75
Markiert: Versuche, "vorherige Anweisungen zu ignorieren" oder ähnlich

Halluzinations-Erkennung

Erkennt, wenn KI-generierte Inhalte falsche oder nicht verifizierbare Informationen enthalten. Wann verwenden:
  • Faktenbasierte Content-Generierung
  • Kundenservice-Antworten
  • Finanz- oder medizinische Informationen
  • Jeder Workflow, bei dem Genauigkeit kritisch ist
Konfiguration:
  • Vertrauensschwelle: 0.6 (empfohlen)
  • Erfordert Referenzdaten zum Vergleich
Beispiel:
Input: {{agent.generated_summary}}
Referenz: {{http_request.original_data}}
Schwelle: 0.7
Prüft: Spiegelt die Zusammenfassung die Quelldaten genau wider?

Benutzerdefinierte Bewertung

Definiere deine eigenen Validierungskriterien mit natürlichsprachlichen Anweisungen. Wann verwenden:
  • Domänenspezifische Validierung
  • Brand-Voice-Compliance
  • Benutzerdefinierte Geschäftsregeln
  • Spezialisierte Content-Anforderungen
Konfiguration:
  • Bewertungskriterien: Beschreibe, wonach geprüft werden soll
  • Vertrauensschwelle: Setze basierend auf benötigter Strenge
Beispiel:
Kriterien: "Prüfe, ob diese Antwort unsere Marken-Stimme beibehält:
- Professioneller, aber freundlicher Ton
- Kein Jargon oder technische Begriffe
- Spricht Kunde mit Namen an
- Bietet klare nächste Schritte"

Input: {{agent.email_response}}
Schwelle: 0.8

Vertrauensschwellen setzen

Die Vertrauensschwelle bestimmt, wie streng jeder Check ist:
SchwelleVerhaltenVerwenden, wenn
0.3-0.5NachsichtigFalse Positives vermeiden, nur informativ
0.6-0.7AusgewogenDie meisten Anwendungsfälle, gute Genauigkeit
0.8-0.9StrengHochrisiko-Szenarien, kritische Validierung
0.9-1.0Sehr strengNur sehr offensichtliche Verstöße markieren
Beginne mit 0.7 als ausgewogenem Standard und passe dann basierend auf False Positives oder verpassten Erkennungen an.

Beispiel-Workflows

Content-Moderations-Pipeline

Trigger: Formularübermittlung (Benutzerkommentar)
→ Guardrails:
  ✅ PII-Erkennung (Schwelle: 0.8)
  ✅ Moderation (Schwelle: 0.6)
  Input: {{trigger.comment}}
→ [Bei Erfolg] → Kommentar öffentlich posten
→ [Bei Fehler] → An manuelle Review-Warteschlange senden

KI-Antwort-Validierung

Agent: Generiere Kundenantwort
→ Guardrails:
  ✅ Halluzination (Schwelle: 0.7)
  ✅ Custom: "Professioneller und hilfsbereiter Ton"
  Input: {{agent.response}}
→ [Bei Erfolg] → E-Mail an Kunde senden
→ [Bei Fehler] → Mit anderem Prompt regenerieren

Multi-Check-Validierung

Agent: Generiere Artikel-Zusammenfassung
→ Guardrails:
  ✅ PII-Erkennung (Schwelle: 0.8)
  ✅ Halluzination (Schwelle: 0.7)
  ✅ Custom: "Keine Werbesprache" (Schwelle: 0.75)
  Input: {{agent.summary}}
→ [Bei Erfolg] → Auf Website veröffentlichen
→ [Bei Fehler] → An Editor zur Überarbeitung zurückgeben

Fehler behandeln

Wenn ein Guardrail-Check fehlschlägt, stoppt der Workflow am Guardrails-Node. Du kannst Fehlerbehandlung konfigurieren, um zu alternativen Pfaden zu routen, Benachrichtigungen zu senden oder Fallback-Aktionen zu triggern.

Wann jeden Guardrail verwenden

Verwende PII-Erkennung für:
  • Öffentliche Inhalte, die keine persönlichen Informationen enthalten sollten
  • Daten, die an Dritte oder externe Systeme gesendet werden
  • Compliance-sensitive Workflows (GDPR, HIPAA, etc.)
  • Verhinderung versehentlicher Offenlegung sensibler Benutzerdaten
Verwende Moderation für:
  • Benutzergenerierte Inhalte, die Überprüfung benötigen
  • Öffentlich sichtbare Outputs und Kommunikation
  • Community-Plattformen und Foren
  • Filtern unangemessener oder schädlicher Inhalte
Verwende Jailbreak-Erkennung für:
  • Vom Benutzer bereitgestellte Prompts oder Anweisungen an KI
  • Öffentliche KI-Schnittstellen, die für externe Benutzer zugänglich sind
  • Sicherheitskritische Anwendungen, bei denen Prompt-Manipulation ein Risiko ist
  • Schutz vor Versuchen, Systemeinschränkungen zu umgehen
Verwende Halluzinations-Erkennung für:
  • Faktenbasierte Content-Generierung, die Genauigkeit erfordert
  • Kundenservice-Antworten mit spezifischen Informationen
  • Finanz- oder medizinische Informationen, bei denen Genauigkeit kritisch ist
  • Jeder Inhalt, bei dem falsche Informationen Schaden verursachen könnten
Verwende benutzerdefinierte Bewertung für:
  • Marken-Compliance und Tone-of-Voice-Richtlinien
  • Domänenspezifische Regeln und Industriestandards
  • Qualitätsstandards, die für deine Organisation einzigartig sind
  • Geschäftsspezifische Anforderungen, die nicht von anderen Guardrails abgedeckt werden

Best Practices

Verwende mehrere Guardrails zusammen für umfassende Validierung. PII + Moderation ist eine häufige Kombination.
Beginne mit 0.7 und passe basierend auf Ergebnissen an. Zu niedrig = False Positives, zu hoch = verpasste Probleme.
Lass den Workflow nicht einfach fehlschlagen—füge Fehlerpfade hinzu, um Teams zu benachrichtigen, Verstöße zu loggen oder alternative Aktionen zu triggern.
Teste Guardrails mit Grenzfall-Inhalten, um Schwellen korrekt zu kalibrieren.
Leistungsfähigere Modelle (GPT-4) bieten bessere Erkennung, kosten aber mehr. Balanciere Genauigkeitsbedürfnisse mit Budget.
Schreibe klare, spezifische Kriterien für benutzerdefinierte Bewertungen, damit die KI genau versteht, was zu prüfen ist.

Nächste Schritte