Agent Evals

Agent Evals ist ein Test-Tool, das in den Agenten-Editor integriert ist. Es ermöglicht dir, strukturierte Evaluierungen deines Agenten durchzuführen, um zu überprüfen, ob er sich nach Änderungen noch korrekt verhält. Anstatt Prompts einzeln manuell zu testen, definierst du Testfälle, wählst aus, wie sie bewertet werden sollen, und führst sie alle auf einmal aus. Öffne deinen Agenten und klicke oben im Agenten-Editor auf den Tab Evals. Der Tab enthält zwei Bereiche: Test-Sets und Durchläufe.

Test-Sets

Ein Test-Set ist eine Sammlung von Testfällen mit gemeinsamer Konfiguration. Jedes Test-Set definiert die Konversationsform, welche Checks angewendet werden und wie sich Tools während der Evaluierung verhalten sollen.

Ein Test-Set erstellen

Klicke im Tab Evals auf Neues Test-Set.

Agent Evals Willkommensbildschirm mit Button zum Erstellen des ersten Test-Sets und Link zur Dokumentation

Gib einen Namen für das Test-Set ein und wähle eine Konversationsform. Derzeit ist nur Einzelner Turn verfügbar.

Test-Set erstellen Dialog mit Namensfeld und Konversationsform-Auswahl, Einzelner Turn ist ausgewählt

Wähle optional einen oder mehrere Checks zur Bewertung deiner Testfälle: KI-Prüfer, Tool-Check oder Keyword-Prüfung.

Check-Auswahl mit KI-Prüfer und Modellauswahl, Tool-Check und Keyword-Prüfung Optionen

Wenn du KI-Prüfer ausgewählt hast, wähle das Modell, das als Prüfer dienen soll.

Modellauswahl-Dropdown mit verfügbaren Modellen für den KI-Prüfer

Klicke auf Test-Set erstellen.

Klappe den Bereich Erweitert im Erstellungsdialog aus, um den Tool-Ausführungsmodus zu konfigurieren. Standardmäßig laufen Evals im Test-Modus, in dem keine Tools tatsächlich ausgeführt werden. Siehe Tool-Ausführungsmodi für Details.

Check-Typen

Checks definieren, wie jeder Testfall bewertet wird. Du wählst sie beim Erstellen eines Test-Sets aus, und sie gelten für jeden Fall in diesem Set.

KI-Prüfer

Der KI-Prüfer vergleicht die tatsächliche Antwort deines Agenten mit einer erwarteten Antwort, die du für jeden Testfall definierst. Er verwendet ein Sprachmodell, um zu bewerten, ob die Antwort die Absicht und den Inhalt der erwarteten Antwort erfüllt, auch wenn die Formulierung abweicht. Du wählst beim Erstellen des Test-Sets, welches Modell als Prüfer dient.

Tool-Check

Der Tool-Check überprüft, ob dein Agent die erwarteten Tools für einen bestimmten Prompt aufgerufen hat. Definiere die Tools, die du erwartest, und der Check bestätigt, ob der Agent sie während der Evaluierung verwendet hat. Dies ist nützlich für Agenten mit Integrations-Aktionen, bei denen der Aufruf des richtigen Tools genauso wichtig ist wie die Antwort selbst.

Keyword-Prüfung

Die Keyword-Prüfung überprüft, ob die Antwort des Agenten Pflichtwörter enthält oder verbotene Wörter vermeidet. Im Gegensatz zum KI-Prüfer verwendet sie kein Modell und liefert ein deterministisches Ergebnis: bestanden oder nicht bestanden. Jeder Testfall hat zwei Felder für diesen Check: Muss enthalten und Darf nicht enthalten. Verwende sie für Compliance-Anforderungen, Markenrichtlinien oder alle Fälle, in denen bestimmte Begriffe in der Antwort vorkommen oder vermieden werden müssen.

Testfälle

Nach dem Erstellen eines Test-Sets fügst du die einzelnen Testfälle hinzu, die evaluiert werden.

Testfälle manuell hinzufügen

Klicke auf der Test-Set-Seite auf Fall hinzufügen, um einen einzelnen Testfall zu erstellen. Jeder Fall enthält einen Prompt und die erwarteten Outputs, anhand derer deine ausgewählten Checks bewerten.

Leere Test-Set-Seite mit Fall hinzufügen und CSV importieren Buttons

Import per CSV

Für größere Test-Sets klicke auf CSV importieren, um mehrere Fälle auf einmal zu laden. Die CSV benötigt die Spalte prompt. Sie kann außerdem die Spalten must_contain, must_not_contain, reference_answer und expected_tools enthalten.

Der CSV-Import ist der schnellste Weg, umfassende Test-Sets aufzubauen, besonders wenn du bereits eine Tabelle mit Prompts pflegst, die du für manuelle Tests verwendest.

Evals ausführen

Klicke oben rechts auf der Test-Set-Seite auf Ausführen, um die Evaluierung zu starten. Ergebnisse erscheinen live, sobald jeder Fall abgeschlossen ist, und zeigen Status, Prompt, Output, Grader-Ergebnisse und Dauer pro Fall.

Test-Set mit geladenen Testfällen, Prompts, erwarteten Antworten und erwarteten Tools Spalten mit CSV exportieren, Bearbeiten und Ausführen Buttons

Ein Test-Set kann bis zu 50 Fälle enthalten.

Jeder Testfall verbraucht Nutzung auf die gleiche Weise wie eine reguläre Agenten-Konversation. Pro Test-Set kann nur ein Durchlauf gleichzeitig aktiv sein, und jeder Workspace kann bis zu drei aktive Durchläufe haben.

Ergebnisse überprüfen

Sobald ein Fall abgeschlossen ist, klicke darauf, um die Detailansicht zu öffnen. Du kannst Folgendes überprüfen:

Abgeschlossener Durchlauf mit bestanden und nicht bestanden Status, Prompts, erwarteten Antworten, Outputs, Grader-Ergebnissen und Dauer pro Fall

Die vollständige Konversation zwischen Prompt und Agent
Die Antwort des Agenten
Token-Nutzung und Dauer
Das Ergebnis jeder Bewertung, zum Beispiel bestanden, nicht bestanden oder unsicher

Um Ergebnisse außerhalb von Langdock zu analysieren, klicke auf CSV herunterladen, um den gesamten Durchlauf als Tabelle zu exportieren.

Tool-Ausführungsmodi

Der Tool-Ausführungsmodus bestimmt, ob die Tools deines Agenten während einer Evaluierung tatsächlich ausgeführt werden. Du konfigurierst dies im Bereich Erweitert beim Erstellen eines Test-Sets.

Modus	Verhalten	Einsatzzweck
Test-Modus (Standard)	Zeichnet Aktionen und MCP-Aufrufe auf, ohne sie auszuführen. Es werden keine realen Aktionen durchgeführt.	Die meisten Evaluierungen. Sicheres Testen ohne Nebenwirkungen.
Live-Modus	Führt Aktionen und MCP-Aufrufe aus, die keine Freigabe benötigen. Aktionen, die eine Freigabe benötigen, stoppen den Durchlauf, statt ausgeführt zu werden.	Wenn du den vollständigen Ausführungsfluss überprüfen musst, einschließlich Tool-Verhalten und Antworten externer Systeme.

Der Live-Modus kann externe Systeme verändern, z. B. E-Mails senden, Tickets erstellen oder Datensätze aktualisieren. Nutze ihn nur, wenn du bewusst einen vollständigen Integrationstest durchführen möchtest.

Erste Schritte

Chat

Skills

Dateien

Agenten

Workflows

Integrationen

Microsoft Plugins

Modelle & Limits

Anleitungen

Account

Ressourcen

Fehlerbehebung

Agent Evals

Test-Sets

Ein Test-Set erstellen

Check-Typen

KI-Prüfer

Tool-Check

Keyword-Prüfung

Testfälle

Testfälle manuell hinzufügen

Import per CSV

Evals ausführen

Ergebnisse überprüfen

Tool-Ausführungsmodi

​Test-Sets

​Ein Test-Set erstellen

​Check-Typen

​KI-Prüfer

​Tool-Check

​Keyword-Prüfung

​Testfälle

​Testfälle manuell hinzufügen

​Import per CSV

​Evals ausführen

​Ergebnisse überprüfen

​Tool-Ausführungsmodi

Test-Sets

Ein Test-Set erstellen

Check-Typen

KI-Prüfer

Tool-Check

Keyword-Prüfung

Testfälle

Testfälle manuell hinzufügen

Import per CSV

Evals ausführen

Ergebnisse überprüfen

Tool-Ausführungsmodi