- Tabellarische Daten zu lesen (CSVs, Excel-Tabellen und Google Sheets)
- Mathematische Operationen durchzuführen, z.B. Korrelationen zu finden, Verteilungen oder Abweichungen zu definieren usw.
- Grafiken und Diagramme zu erstellen, die Daten darstellen
- Neue Dateien zu generieren (Excel, CSV, PowerPoint, Word usw.)
Wie es funktioniert
-
Der Datenanalyst ist ein Tool, das die Modelle auswählen können. Es wird ausgelöst, wenn du die Modelle aufforderst, es zu verwenden (“verwende den Datenanalysten”) oder wenn die entsprechende Datei hochgeladen wird (GSheets, CSVs, Excel-Dateien). Hier ist ein Beispiel für eine Datei, die wir in Langdock verwenden werden:
Um die besten Ergebnisse zu erzielen, verwende bitte GPT-4.1 und stelle sicher, dass die Spaltentitel in der ersten Zeile stehen.
-
Das Modell generiert dann Python-Code. Python ist eine Programmiersprache, die verwendet werden kann, um Datensätze zu analysieren und Informationen zu extrahieren. Im dunklen Code-Block oben kannst du den generierten Python-Code zur Analyse unserer Beispieldatei sehen:
- Nachdem der Code generiert wurde, führt eine separate Instanz den Python-Code aus und gibt das Ergebnis an das Modell zurück. Es wird unter dem Codeblock im Screenshot oben angezeigt.
-
Das Modell nutzt den Prompt und das Ergebnis, um die Frage des Nutzers zu beantworten. In unserem Beispiel sieht das so aus:
-
Wenn du eine Datei oder ein Diagramm anforderst, generiert das Modell erneut Code, um die Datei zu erstellen, und führt ihn anschließend aus. Die generierte Datei oder das Diagramm wird dann im Chat angezeigt und kann heruntergeladen werden.
Unterschiede zu anderen Dokumenten
Die normale Dokumentensuche und der Datenanalyst sind unterschiedliche Tools für verschiedene Aufgaben mit jeweiligen Vor- und Nachteilen. Die Dokumentensuche ist gut darin, den gesamten Dokumentinhalt zu verstehen. Sie ist jedoch nicht gut bei der Verarbeitung von Tabellendaten. Der Datenanalyst kann nicht die gesamte Datei verstehen, sondern nur den Teil, der mit Python extrahiert wird. Alles andere in der Datei wurde für die Antwort nicht berücksichtigt. Das macht ihn aber stark bei der Arbeit mit großen Datensätzen und Tabellendaten sowie bei mathematischen Operationen.Best Practices und Fehlerbehebung
- Damit die Datei korrekt verarbeitet wird, sollten alle Spaltentitel beschreibende Namen haben. Verwende beim Verweis auf Spaltennamen idealerweise den vollständigen Spaltentitel und nicht “Spalte K”. Das ist wichtig, da das KI-Modell Python-Code erstellt, der nur dann auf die richtige Spalte verweisen kann, wenn der Name übereinstimmt. Die Verwendung des gleichen Spaltennamens reduziert das Risiko, dass das Modell Code generiert, der auf eine falsche Spalte verweist.
- Stelle sicher, dass du den Datenanalyst in deinen Einstellungen aktivierst und (falls du Arbeitsblätter in einem Assistenten verwendest) auch im Bereich “Fähigkeiten” unten im Assistenten-Editor.
- Versuche so präzise wie möglich zu beschreiben, was du erwartest. Du kannst die Prompt-Elemente aus unserem Prompt Engineering Guide verwenden (besonders die Aufgabe, den Kontext, das Antwortformat)
- Vermeide nach Möglichkeit leere Zellen in einem Arbeitsblatt.
- Wenn du komplexe Aufgaben erwartest und kein Ergebnis oder falsche Ergebnisse erhältst, versuche die Anweisung in verschiedene Prompts aufzuteilen.