Guardrails

Überblick

Der Guardrails-Node validiert Inhalte mit KI-gestützten Checks, um Sicherheit, Genauigkeit und Compliance zu gewährleisten. Jeder Guardrail verwendet ein LLM als Richter zur Bewertung deines Inputs gegen spezifische Kriterien und lässt den Workflow fehlschlagen, wenn Vertrauensschwellen überschritten werden.

Am besten für: Content-Moderation, PII-Erkennung, Halluzinations-Checks, Jailbreak-Prävention und benutzerdefinierte Validierungsregeln.

Wie es funktioniert

Stelle zu validierenden Input-Content bereit (von vorherigen Nodes)
Aktiviere spezifische Guardrail-Checks
Setze Vertrauensschwelle für jeden Check (0-1)
Wähle KI-Modell für Bewertung
Wenn ein Check die Schwelle überschreitet → Node schlägt fehl und markiert das Problem

Konfiguration

Input

Der Inhalt, den du validieren möchtest. Unterstützt Manual-, Auto- und Prompt-AI-Modi. Beispiel:

{{agent.output.response}}
{{trigger.output.user_message}}
{{http_request.output.content}}

Modell-Auswahl

Wähle das KI-Modell, das zur Bewertung aller aktivierten Guardrails verwendet wird. Leistungsfähigere Modelle bieten genauere Erkennung, kosten aber mehr.

Verfügbare Guardrails

Personally Identifiable Information (PII)

Erkennt persönliche Informationen wie Namen, E-Mails, Telefonnummern, Adressen, Sozialversicherungsnummern, Kreditkarten, etc. Wann verwenden:

Bevor benutzergenerierte Inhalte gespeichert werden
Beim externen Teilen von Daten
Compliance-Anforderungen (GDPR, HIPAA)
Kundenservice-Workflows

Konfiguration:

Vertrauensschwelle: 0.7 (empfohlen)
Höhere Schwelle = strengere Erkennung

Beispiel:

Input: {{agent.output.customer_response}}
Schwelle: 0.8
Ergebnis: Schlägt fehl, wenn PII mit >80% Vertrauen erkannt wird

Moderation

Prüft auf unangemessene, schädliche oder beleidigende Inhalte einschließlich Hassrede, Gewalt, Erwachseneninhalte, Belästigung, etc. Wann verwenden:

Benutzergenerierte Content-Plattformen
Öffentlich sichtbare Kommunikation
Community-Moderation
Kundenbezogene Outputs

Konfiguration:

Vertrauensschwelle: 0.6 (empfohlen)
Passe basierend auf deinen Content-Richtlinien an

Jailbreak-Erkennung

Identifiziert Versuche, KI-Sicherheitskontrollen zu umgehen oder die KI zu unbeabsichtigten Verhaltensweisen zu manipulieren. Wann verwenden:

Verarbeitung von Benutzer-Prompts vor dem Senden an KI
Öffentliche KI-Schnittstellen
Workflows mit vom Benutzer bereitgestellten Anweisungen
Sicherheitssensible Anwendungen

Konfiguration:

Vertrauensschwelle: 0.7 (empfohlen)
Höhere Schwelle für weniger False Positives

Beispiel:

Input: {{trigger.user_prompt}}
Schwelle: 0.75
Markiert: Versuche, "vorherige Anweisungen zu ignorieren" oder ähnlich

Halluzinations-Erkennung

Erkennt, wenn KI-generierte Inhalte falsche oder nicht verifizierbare Informationen enthalten. Wann verwenden:

Faktenbasierte Content-Generierung
Kundenservice-Antworten
Finanz- oder medizinische Informationen
Jeder Workflow, bei dem Genauigkeit kritisch ist

Konfiguration:

Vertrauensschwelle: 0.6 (empfohlen)
Erfordert Referenzdaten zum Vergleich

Beispiel:

Input: {{agent.generated_summary}}
Referenz: {{http_request.original_data}}
Schwelle: 0.7
Prüft: Spiegelt die Zusammenfassung die Quelldaten genau wider?

Benutzerdefinierte Bewertung

Definiere deine eigenen Validierungskriterien mit natürlichsprachlichen Anweisungen. Wann verwenden:

Domänenspezifische Validierung
Brand-Voice-Compliance
Benutzerdefinierte Geschäftsregeln
Spezialisierte Content-Anforderungen

Konfiguration:

Bewertungskriterien: Beschreibe, wonach geprüft werden soll
Vertrauensschwelle: Setze basierend auf benötigter Strenge

Beispiel:

Kriterien: "Prüfe, ob diese Antwort unsere Marken-Stimme beibehält:
- Professioneller, aber freundlicher Ton
- Kein Jargon oder technische Begriffe
- Spricht Kunde mit Namen an
- Bietet klare nächste Schritte"

Input: {{agent.email_response}}
Schwelle: 0.8

Vertrauensschwellen setzen

Die Vertrauensschwelle bestimmt, wie streng jeder Check ist:

Schwelle	Verhalten	Verwenden, wenn
0.3-0.5	Nachsichtig	False Positives vermeiden, nur informativ
0.6-0.7	Ausgewogen	Die meisten Anwendungsfälle, gute Genauigkeit
0.8-0.9	Streng	Hochrisiko-Szenarien, kritische Validierung
0.9-1.0	Sehr streng	Nur sehr offensichtliche Verstöße markieren

Beginne mit 0.7 als ausgewogenem Standard und passe dann basierend auf False Positives oder verpassten Erkennungen an.

Beispiel-Workflows

Content-Moderations-Pipeline

Trigger: Formularübermittlung (Benutzerkommentar)
→ Guardrails:
  ✅ PII-Erkennung (Schwelle: 0.8)
  ✅ Moderation (Schwelle: 0.6)
  Input: {{trigger.comment}}
→ [Bei Erfolg] → Kommentar öffentlich posten
→ [Bei Fehler] → An manuelle Review-Warteschlange senden

KI-Antwort-Validierung

Agent: Generiere Kundenantwort
→ Guardrails:
  ✅ Halluzination (Schwelle: 0.7)
  ✅ Custom: "Professioneller und hilfsbereiter Ton"
  Input: {{agent.response}}
→ [Bei Erfolg] → E-Mail an Kunde senden
→ [Bei Fehler] → Mit anderem Prompt regenerieren

Multi-Check-Validierung

Agent: Generiere Artikel-Zusammenfassung
→ Guardrails:
  ✅ PII-Erkennung (Schwelle: 0.8)
  ✅ Halluzination (Schwelle: 0.7)
  ✅ Custom: "Keine Werbesprache" (Schwelle: 0.75)
  Input: {{agent.summary}}
→ [Bei Erfolg] → Auf Website veröffentlichen
→ [Bei Fehler] → An Editor zur Überarbeitung zurückgeben

Fehler behandeln

Wenn ein Guardrail-Check fehlschlägt, stoppt der Workflow am Guardrails-Node. Du kannst Fehlerbehandlung konfigurieren, um zu alternativen Pfaden zu routen, Benachrichtigungen zu senden oder Fallback-Aktionen zu triggern.

Wann jeden Guardrail verwenden

PII-Erkennung

Verwende PII-Erkennung für:

Öffentliche Inhalte, die keine persönlichen Informationen enthalten sollten
Daten, die an Dritte oder externe Systeme gesendet werden
Compliance-sensitive Workflows (GDPR, HIPAA, etc.)
Verhinderung versehentlicher Offenlegung sensibler Benutzerdaten

Moderation

Verwende Moderation für:

Benutzergenerierte Inhalte, die Überprüfung benötigen
Öffentlich sichtbare Outputs und Kommunikation
Community-Plattformen und Foren
Filtern unangemessener oder schädlicher Inhalte

Jailbreak-Erkennung

Verwende Jailbreak-Erkennung für:

Vom Benutzer bereitgestellte Prompts oder Anweisungen an KI
Öffentliche KI-Schnittstellen, die für externe Benutzer zugänglich sind
Sicherheitskritische Anwendungen, bei denen Prompt-Manipulation ein Risiko ist
Schutz vor Versuchen, Systemeinschränkungen zu umgehen

Halluzinations-Erkennung

Verwende Halluzinations-Erkennung für:

Faktenbasierte Content-Generierung, die Genauigkeit erfordert
Kundenservice-Antworten mit spezifischen Informationen
Finanz- oder medizinische Informationen, bei denen Genauigkeit kritisch ist
Jeder Inhalt, bei dem falsche Informationen Schaden verursachen könnten

Benutzerdefinierte Bewertung

Verwende benutzerdefinierte Bewertung für:

Marken-Compliance und Tone-of-Voice-Richtlinien
Domänenspezifische Regeln und Industriestandards
Qualitätsstandards, die für deine Organisation einzigartig sind
Geschäftsspezifische Anforderungen, die nicht von anderen Guardrails abgedeckt werden

Best Practices

Aktiviere mehrere Checks

Verwende mehrere Guardrails zusammen für umfassende Validierung. PII + Moderation ist eine häufige Kombination.

Beginne mit ausgewogenen Schwellen

Beginne mit 0.7 und passe basierend auf Ergebnissen an. Zu niedrig = False Positives, zu hoch = verpasste Probleme.

Handle Fehler immer

Lass den Workflow nicht einfach fehlschlagen—füge Fehlerpfade hinzu, um Teams zu benachrichtigen, Verstöße zu loggen oder alternative Aktionen zu triggern.

Teste mit Edge-Cases

Teste Guardrails mit Grenzfall-Inhalten, um Schwellen korrekt zu kalibrieren.

Verwende geeignete Modelle

Leistungsfähigere Modelle (GPT-4) bieten bessere Erkennung, kosten aber mehr. Balanciere Genauigkeitsbedürfnisse mit Budget.

Dokumentiere benutzerdefinierte Bewertungen

Schreibe klare, spezifische Kriterien für benutzerdefinierte Bewertungen, damit die KI genau versteht, was zu prüfen ist.

Nächste Schritte

Agent-Node

Validiere KI-generierte Inhalte

Condition-Node

Route basierend auf Validierungsergebnissen

Human in the Loop

Füge manuelle Überprüfung für sensible Inhalte hinzu

Erste Schritte

Erstelle deinen ersten Workflow mit Validierung

Erste Schritte

Chat

Assistenten

Workflows

Integrationen

Chatbots

Modelle

Einstellungen & Konfiguration

Sicherheit

Admin Einstellungen

Fehlerbehebung

Überblick

Wie es funktioniert

Konfiguration

Input

Modell-Auswahl

Verfügbare Guardrails

Personally Identifiable Information (PII)

Moderation

Jailbreak-Erkennung

Halluzinations-Erkennung

Benutzerdefinierte Bewertung

Vertrauensschwellen setzen

Beispiel-Workflows

Content-Moderations-Pipeline

KI-Antwort-Validierung

Multi-Check-Validierung

Fehler behandeln

Wann jeden Guardrail verwenden

Best Practices

Nächste Schritte

Agent-Node

Condition-Node

Human in the Loop

Erste Schritte

Erste Schritte

Chat

Assistenten

Workflows

Integrationen

Chatbots

Modelle

Einstellungen & Konfiguration

Sicherheit

Admin Einstellungen

Fehlerbehebung

​Überblick

​Wie es funktioniert

​Konfiguration

​Input

​Modell-Auswahl

​Verfügbare Guardrails

​Personally Identifiable Information (PII)

​Moderation

​Jailbreak-Erkennung

​Halluzinations-Erkennung

​Benutzerdefinierte Bewertung

​Vertrauensschwellen setzen

​Beispiel-Workflows

​Content-Moderations-Pipeline

​KI-Antwort-Validierung

​Multi-Check-Validierung

​Fehler behandeln

​Wann jeden Guardrail verwenden

​Best Practices

​Nächste Schritte

Agent-Node

Condition-Node

Human in the Loop

Erste Schritte

Überblick

Wie es funktioniert

Konfiguration

Input

Modell-Auswahl

Verfügbare Guardrails

Personally Identifiable Information (PII)

Moderation

Jailbreak-Erkennung

Halluzinations-Erkennung

Benutzerdefinierte Bewertung

Vertrauensschwellen setzen

Beispiel-Workflows

Content-Moderations-Pipeline

KI-Antwort-Validierung

Multi-Check-Validierung

Fehler behandeln

Wann jeden Guardrail verwenden

Best Practices

Nächste Schritte