Zum Hauptinhalt springen
Das OpenAI-kompatible SDK ermöglicht dir, Langdock mit jeder API zu verbinden, die der OpenAI-API-Spezifikation folgt. Das umfasst beliebte Inference-Server wie vLLM, LiteLLM, Ollama und viele andere selbst gehostete oder benutzerdefinierte LLM-Deployments.

Was bedeutet OpenAI-kompatibel?

Viele LLM-Inference-Lösungen implementieren die OpenAI-API-Spezifikation als Standardschnittstelle. Das bedeutet, sie akzeptieren Anfragen und geben Antworten im selben Format wie die OpenAI-API zurück, was sie aus Integrationsperspektive austauschbar macht. Gängige OpenAI-kompatible Lösungen sind:
  • vLLM - Hochdurchsatz-Inference-Server für Large Language Models
  • LiteLLM - Proxy-Server, der eine einheitliche Schnittstelle zu über 100 LLM-Anbietern bietet
  • Ollama - Large Language Models lokal ausführen
  • Text Generation Inference (TGI) - Hugging Faces Inference-Server
  • LocalAI - Selbst gehostete, OpenAI-kompatible API
  • Benutzerdefinierte Deployments - Jeder Dienst, der die OpenAI Chat Completions API implementiert

Voraussetzungen

Bevor du ein OpenAI-kompatibles Modell einrichtest, benötigst du:
  1. Einen laufenden OpenAI-kompatiblen Inference-Endpunkt, der über HTTPS erreichbar ist
  2. Die Base URL deines Endpunkts
  3. Die Modell-ID/den Modellnamen, wie in deinem Inference-Server konfiguriert
  4. Einen API-Schlüssel (falls dein Endpunkt Authentifizierung erfordert)
  5. Admin-Zugriff auf deinen Langdock-Workspace

Einrichtungsschritte

  1. Gehe zu den Modelleinstellungen und klicke auf Modell hinzufügen
  2. Konfiguriere die Anzeigeeinstellungen:
    • Anbieter: Wähle die Organisation, die das Modell entwickelt hat (z.B. Meta für Llama, Mistral für Mistral-Modelle)
    • Modellname: Der Name, den Nutzer in der Modellauswahl sehen werden
    • Hosting-Anbieter: Deine Hosting-Lösung (z.B. “Selbst gehostet”, “vLLM”, “Intern”)
    • Region: Wähle basierend auf dem Standort deines Endpunkts
    • Bildanalyse: Nur aktivieren, wenn dein Modell Vision-Fähigkeiten unterstützt
  3. Konfiguriere die Modellkonfiguration:
    • SDK: Wähle OpenAI Compatible
    • Base URL: Deine Endpunkt-URL (z.B. https://dein-server.com/v1). Dieses Feld ist erforderlich.
    • Modell-ID: Die exakte Modellkennung, wie in deinem Inference-Server konfiguriert
    • API-Schlüssel: Dein Authentifizierungsschlüssel (leer lassen, wenn nicht erforderlich)
    • Kontextgröße: Die Context-Window-Größe deines Modells in Tokens
  4. Klicke auf Speichern und teste das Modell mit einem Prompt, bevor du es für alle Nutzer sichtbar machst
Dein Endpunkt muss öffentlich über HTTPS erreichbar sein. Langdock blockiert Anfragen an private IPs (z.B. 10.x.x.x, 192.168.x.x), localhost und andere interne Hostnamen aus Sicherheitsgründen. Wenn du dich mit einem internen Endpunkt verbinden musst, kontaktiere support@langdock.com.

Beispielkonfigurationen

vLLM

EinstellungWert
SDKOpenAI Compatible
Base URLhttps://dein-vllm-server.com/v1
Modell-IDDer Modellname, den du beim Start von vLLM angegeben hast (z.B. meta-llama/Llama-3.1-70B-Instruct)
API-SchlüsselDein konfigurierter API-Schlüssel oder leer lassen

LiteLLM Proxy

EinstellungWert
SDKOpenAI Compatible
Base URLhttps://dein-litellm-proxy.com
Modell-IDDer Modell-Alias, der in deiner LiteLLM-Konfiguration festgelegt ist
API-SchlüsselDein LiteLLM Proxy API-Schlüssel

Ollama (über öffentlichen Endpunkt)

EinstellungWert
SDKOpenAI Compatible
Base URLhttps://dein-ollama-server.com/v1 (muss öffentlich über HTTPS erreichbar sein)
Modell-IDDer Modellname wie in ollama list angezeigt (z.B. llama3.1, mistral)
API-SchlüsselLeer lassen (Ollama erfordert normalerweise keine Authentifizierung)
Für Azure OpenAI verwende das dedizierte Azure-SDK anstelle von OpenAI Compatible — es bietet bessere Unterstützung einschließlich automatischer API-Versionsverwaltung und Deployment-basiertem URL-Routing.

Häufige Anwendungsfälle

Selbst gehostete LLMs für Datenschutz

Organisationen mit strengen Anforderungen an den Datenspeicherort können Modelle auf ihrer eigenen Infrastruktur betreiben. Alle Prompts und Antworten bleiben innerhalb deines Netzwerks.

Kostenoptimierung

Das Ausführen von Open-Source-Modellen auf eigener Hardware kann die Kosten für Anwendungsfälle mit hohem Volumen im Vergleich zu kommerziellen API-Preisen erheblich reduzieren.

Benutzerdefinierte Fine-Tuned Modelle

Verbinde Modelle, die du für spezifische Aufgaben oder Domänen feinabgestimmt hast. Deploye sie mit vLLM oder ähnlichen Servern und integriere sie direkt in Langdock.

Multi-Provider-Abstraktion

Verwende LiteLLM als Proxy, um Anfragen an verschiedene Anbieter zu routen und gleichzeitig eine konsistente Schnittstelle in Langdock beizubehalten.

Fehlerbehebung

Verbindung abgelehnt oder Timeout:
  • Überprüfe, ob deine Endpunkt-URL von externen Servern über HTTPS erreichbar ist
  • Stelle sicher, dass deine Firewall eingehende Verbindungen zulässt
  • Vergewissere dich, dass dein Inference-Server läuft und funktioniert
  • Der Endpunkt muss öffentlich erreichbar sein — localhost und private IPs werden blockiert
Authentifizierungsfehler:
  • Überprüfe, ob dein API-Schlüssel korrekt ist
  • Prüfe, ob dein Endpunkt ein bestimmtes Authentifizierungs-Header-Format erfordert
  • Einige Server erwarten den Schlüssel im Bearer-Token-Format
Modell nicht gefunden:
  • Stelle sicher, dass die Modell-ID genau dem entspricht, was dein Inference-Server erwartet
  • Beachte die Groß-/Kleinschreibung im Modellnamen
  • Überprüfe, ob das Modell auf deinem Server geladen und verfügbar ist
Antworten werden abgeschnitten:
  • Überprüfe die Einstellung für maximale Output-Tokens in Langdock
  • Prüfe die Limits für die Generierungslänge deines Inference-Servers
Langsame Antworten:
  • Überprüfe den verfügbaren GPU-Speicher und die Rechenressourcen deines Servers
  • Erwäge die Verwendung von quantisierten Modellversionen für schnellere Inference
  • Überwache die Warteschlangenlänge und Skalierungskonfiguration deines Servers
Inkompatibles API-Format:
  • Nicht alle “OpenAI-kompatiblen” Server implementieren die vollständige API-Spezifikation
  • Überprüfe, ob dein Server den /v1/chat/completions-Endpunkt unterstützt
  • Prüfe, ob dein Server spezifische API-Versions-Header benötigt
Bei Problemen kontaktiere support@langdock.com.