Die Modelle können im Hintergrund ein anderes Modell aufrufen, um Bilder zu generieren. Das aktuelle Bildmodell in Langdock ist Dall-E3 von OpenAI. Die Bildgenerierung verwendet die folgenden Schritte:
  1. Das von dir ausgewählte Modell wählt das Bildgenerierungstool und schreibt einen Prompt an das Bildmodell im Hintergrund.
  2. Das Bildmodell generiert das Bild basierend auf dem Prompt und gibt es an das Hauptmodell und dich als Nutzer zurück.
Du kannst jedes LLM für die Bildgenerierung auswählen. Jedes Modell sendet Prompts unterschiedlich an das zugrundeliegende Bildgenerierungsmodell weiter, also probiere gerne verschiedene Modelle aus und beobachte, wie sich die generierten Bilder unterscheiden. Hier ist eine bekannte Einschränkung, an der wir arbeiten:
  • Text in Bildern enthält Fehler / ist in nicht existierenden Buchstaben geschrieben:
    Das passiert, weil Dall-E3 mit echten Bildern trainiert wurde, die Text enthielten. Das Modell generiert Objekte, die dem ähneln, was es gelernt hat, kann aber noch keine vollständigen, korrekten Sätze schreiben. Stattdessen versucht es, Buchstaben aus dem Alphabet nachzuahmen, was zu falscher Rechtschreibung oder nicht existierenden Buchstaben führt. Das ist eine aktuelle Einschränkung von Bildgenerierungsmodellen, die OpenAI in kommenden Versionen aktiv verbessert.