Der Lebenszyklus eines KI-Modells

Ein Large Language Model (LLM) durchläuft zwei Hauptphasen:
  1. Die Trainingsphase
    • Das Modell wird auf großen Datensätzen trainiert
  2. Die Nutzungsphase
    • Das Modell kann verwendet werden, um eine Antwort zu generieren
    • Das Modell kann nicht mehr lernen
The life cycle of an AI model

Training eines LLM

Während des Trainings verarbeitet das Modell große Mengen an Textdaten mit einer Technik namens “Next Token Prediction”. Das Modell lernt statistische Beziehungen zwischen Wörtern und Konzepten, indem es wiederholt vorhersagt, welches Wort als nächstes in einer Sequenz kommen sollte. Zum Beispiel wird es getestet, um Lücken in einem Text zu füllen. Damit lernt es Wahrscheinlichkeiten von Wörtern in verschiedenen Situationen (mehr dazu unten). Nachdem das Modell vollständig trainiert ist, kann es nicht mehr lernen. Das Datum, an dem das Training des Modells beendet wird, wird als “Knowledge Cutoff Date” bezeichnet, da das Modell nur Fakten bis zu diesem Datum gelernt hat und nichts weiß, was danach passiert.

Verwendung eines LLM

Während der Nutzungsphase (auch als Inferenz bekannt) generiert das Modell Antworten, indem es aus den Wahrscheinlichkeitsverteilungen sampelt, die es während des Trainings gelernt hat. Wenn du nach Künstlicher Intelligenz fragst, weist das Modell verwandten Begriffen wie Machine Learning eine viel höhere Wahrscheinlichkeit zu als unverwandten Begriffen wie Bananenkuchen. Wenn ein Nutzer eine Anfrage an das Modell sendet, wählt das Modell das nächste Wort oder Wortteil (Token) basierend auf diesen Wahrscheinlichkeiten aus. Zum Beispiel lässt das Wort Hi vom Nutzer das Modell wahrscheinlich mit einem Gruß antworten. Es antwortet mit Hallo. Dann generiert es das nächste wahrscheinlichste Wort basierend auf Hiund Hallo. Dieser Prozess wird wiederholt, bis das Modell entscheidet, dass die Anfrage ausreichend beantwortet wurde.

Beeinflussung der Ausgabe einer Antwort

Wie bereits erwähnt, können die Modelle nach der Bereitstellung und nach Abschluss des Trainings nicht mehr lernen. Wie erinnern sie sich an vorherige Nachrichten oder integrieren neue Informationen? Die Antwort liegt im Context Window. Anatomy of a Message sent to the model Jede Anfrage an das Modell enthält alles, was für diese spezifische Antwort benötigt wird: deine aktuelle Nachricht, die gesamte Chat-Historie, angehängte Dokumente, Systemanweisungen und alle relevanten Inhalte aus der Wissensdatenbank. Dieser vollständige Kontext wird in das Context Window des Modells gepackt (die maximale Textmenge, die es in einer einzigen Anfrage verarbeiten kann). Das Modell behandelt jede Anfrage als völlig unabhängig, aber durch die Einbeziehung des gesamten relevanten Kontexts kann es kohärente Gespräche führen und auf vorherige Informationen verweisen.