KI-Modelle sind noch nicht gut darin, ein ganzes Repository zu verarbeiten. Dafür gibt es einige Gründe:
  • Erstens verfügen sie über ein Kontextfenster (= die maximale Textmenge, die sie gleichzeitig verarbeiten können), das oft kleiner ist als das Repository. Der Chat und der Assistent haben eine Begrenzung auf 20 Dateien, um die Wahrscheinlichkeit zu erhöhen, dass die Dateien in das Kontextfenster passen. Oftmals enthält ein Repository jedoch mehr als 20 Dateien.
  • Um Dokumente oder Dokumentenstapel zu verarbeiten, die größer als das Kontextfenster sind, haben wir den Wissensordner entwickelt. Da das Kontextfenster eine technische Einschränkung des Modells darstellt, kann nicht alles an das Modell gesendet werden. Eine Einbettungssuche, also eine semantische Vorauswahl, identifiziert relevante Abschnitte der Dokumente, und nur diese Abschnitte werden an das Modell gesendet. Für die Kodierung ist es wichtig, das gesamte Dokument zu berücksichtigen, nicht nur ausgewählte Abschnitte. Daher schränkt das Kontextfenster auch dieses Verhalten ein.
  • Selbst wenn das Repository in das Kontextfenster passt, kann es für das Modell dennoch schwierig sein, es zu verstehen, wenn es sich um ein großes Repository handelt, da die Qualität der Antworten mit einem volleren Kontextfenster abnimmt.
Unserer Erfahrung nach ist es am besten, nur mit einzelnen Dateien, kleineren Abschnitten oder Screenshots zu arbeiten.