OpenAI-kompatible Endpunkte

Das OpenAI-kompatible SDK ermöglicht dir, Langdock mit jeder API zu verbinden, die der OpenAI-API-Spezifikation folgt. Das umfasst beliebte Inference-Server wie vLLM, LiteLLM, Ollama und viele andere selbst gehostete oder benutzerdefinierte LLM-Deployments.

Was bedeutet OpenAI-kompatibel?

Viele LLM-Inference-Lösungen implementieren die OpenAI-API-Spezifikation als Standardschnittstelle. Das bedeutet, sie akzeptieren Anfragen und geben Antworten im selben Format wie die OpenAI-API zurück, was sie aus Integrationsperspektive austauschbar macht. Gängige OpenAI-kompatible Lösungen sind:

vLLM - Hochdurchsatz-Inference-Server für Large Language Models
LiteLLM - Proxy-Server, der eine einheitliche Schnittstelle zu über 100 LLM-Anbietern bietet
Ollama - Large Language Models lokal ausführen
Text Generation Inference (TGI) - Hugging Faces Inference-Server
LocalAI - Selbst gehostete, OpenAI-kompatible API
Benutzerdefinierte Deployments - Jeder Dienst, der die OpenAI Chat Completions API implementiert

Voraussetzungen

Bevor du ein OpenAI-kompatibles Modell einrichtest, benötigst du:

Einen laufenden OpenAI-kompatiblen Inference-Endpunkt, der über HTTPS erreichbar ist
Die Base URL deines Endpunkts
Die Modell-ID/den Modellnamen, wie in deinem Inference-Server konfiguriert
Einen API-Schlüssel (falls dein Endpunkt Authentifizierung erfordert)
Admin-Zugriff auf deinen Langdock-Workspace

Einrichtungsschritte

Gehe zu den Modelleinstellungen und klicke auf Modell hinzufügen
Konfiguriere die Anzeigeeinstellungen:
- Anbieter: Wähle die Organisation, die das Modell entwickelt hat (z.B. Meta für Llama, Mistral für Mistral-Modelle)
- Modellname: Der Name, den Nutzer in der Modellauswahl sehen werden
- Hosting-Anbieter: Deine Hosting-Lösung (z.B. “Selbst gehostet”, “vLLM”, “Intern”)
- Region: Wähle basierend auf dem Standort deines Endpunkts
- Bildanalyse: Nur aktivieren, wenn dein Modell Vision-Fähigkeiten unterstützt
Konfiguriere die Modellkonfiguration:
- SDK: Wähle OpenAI Compatible
- Base URL: Deine Endpunkt-URL (z.B. https://dein-server.com/v1). Dieses Feld ist erforderlich.
- Modell-ID: Die exakte Modellkennung, wie in deinem Inference-Server konfiguriert
- API-Schlüssel: Dein Authentifizierungsschlüssel (leer lassen, wenn nicht erforderlich)
- Kontextgröße: Die Context-Window-Größe deines Modells in Tokens
Klicke auf Speichern und teste das Modell mit einem Prompt, bevor du es für alle Nutzer sichtbar machst

Dein Endpunkt muss öffentlich über HTTPS erreichbar sein. Langdock blockiert Anfragen an private IPs (z.B. 10.x.x.x, 192.168.x.x), localhost und andere interne Hostnamen aus Sicherheitsgründen. Wenn du dich mit einem internen Endpunkt verbinden musst, kontaktiere support@langdock.com.

Beispielkonfigurationen

vLLM

Einstellung	Wert
SDK	OpenAI Compatible
Base URL	`https://dein-vllm-server.com/v1`
Modell-ID	Der Modellname, den du beim Start von vLLM angegeben hast (z.B. `meta-llama/Llama-3.1-70B-Instruct`)
API-Schlüssel	Dein konfigurierter API-Schlüssel oder leer lassen

LiteLLM Proxy

Einstellung	Wert
SDK	OpenAI Compatible
Base URL	`https://dein-litellm-proxy.com`
Modell-ID	Der Modell-Alias, der in deiner LiteLLM-Konfiguration festgelegt ist
API-Schlüssel	Dein LiteLLM Proxy API-Schlüssel

Ollama (über öffentlichen Endpunkt)

Einstellung	Wert
SDK	OpenAI Compatible
Base URL	`https://dein-ollama-server.com/v1` (muss öffentlich über HTTPS erreichbar sein)
Modell-ID	Der Modellname wie in `ollama list` angezeigt (z.B. `llama3.1`, `mistral`)
API-Schlüssel	Leer lassen (Ollama erfordert normalerweise keine Authentifizierung)

Für Azure OpenAI verwende das dedizierte Azure-SDK anstelle von OpenAI Compatible — es bietet bessere Unterstützung einschließlich automatischer API-Versionsverwaltung und Deployment-basiertem URL-Routing.

Häufige Anwendungsfälle

Selbst gehostete LLMs für Datenschutz

Organisationen mit strengen Anforderungen an den Datenspeicherort können Modelle auf ihrer eigenen Infrastruktur betreiben. Alle Prompts und Antworten bleiben innerhalb deines Netzwerks.

Kostenoptimierung

Das Ausführen von Open-Source-Modellen auf eigener Hardware kann die Kosten für Anwendungsfälle mit hohem Volumen im Vergleich zu kommerziellen API-Preisen erheblich reduzieren.

Benutzerdefinierte Fine-Tuned Modelle

Verbinde Modelle, die du für spezifische Aufgaben oder Domänen feinabgestimmt hast. Deploye sie mit vLLM oder ähnlichen Servern und integriere sie direkt in Langdock.

Multi-Provider-Abstraktion

Verwende LiteLLM als Proxy, um Anfragen an verschiedene Anbieter zu routen und gleichzeitig eine konsistente Schnittstelle in Langdock beizubehalten.

Fehlerbehebung

Verbindung abgelehnt oder Timeout:

Überprüfe, ob deine Endpunkt-URL von externen Servern über HTTPS erreichbar ist
Stelle sicher, dass deine Firewall eingehende Verbindungen zulässt
Vergewissere dich, dass dein Inference-Server läuft und funktioniert
Der Endpunkt muss öffentlich erreichbar sein — localhost und private IPs werden blockiert

Authentifizierungsfehler:

Überprüfe, ob dein API-Schlüssel korrekt ist
Prüfe, ob dein Endpunkt ein bestimmtes Authentifizierungs-Header-Format erfordert
Einige Server erwarten den Schlüssel im Bearer-Token-Format

Modell nicht gefunden:

Stelle sicher, dass die Modell-ID genau dem entspricht, was dein Inference-Server erwartet
Beachte die Groß-/Kleinschreibung im Modellnamen
Überprüfe, ob das Modell auf deinem Server geladen und verfügbar ist

Antworten werden abgeschnitten:

Überprüfe die Einstellung für maximale Output-Tokens in Langdock
Prüfe die Limits für die Generierungslänge deines Inference-Servers

Langsame Antworten:

Überprüfe den verfügbaren GPU-Speicher und die Rechenressourcen deines Servers
Erwäge die Verwendung von quantisierten Modellversionen für schnellere Inference
Überwache die Warteschlangenlänge und Skalierungskonfiguration deines Servers

Inkompatibles API-Format:

Nicht alle “OpenAI-kompatiblen” Server implementieren die vollständige API-Spezifikation
Überprüfe, ob dein Server den /v1/chat/completions-Endpunkt unterstützt
Prüfe, ob dein Server spezifische API-Versions-Header benötigt

Bei Problemen kontaktiere support@langdock.com.

Erste Schritte

Chat

Skills

Dateien

Agenten

Integrationen

Workflows

Integrationen

Chatbots

Modelle

Einstellungen & Konfiguration

Sicherheit

Admin Einstellungen

Fehlerbehebung

OpenAI-kompatible Endpunkte

Was bedeutet OpenAI-kompatibel?

Voraussetzungen

Einrichtungsschritte

Beispielkonfigurationen

vLLM

LiteLLM Proxy

Ollama (über öffentlichen Endpunkt)

Häufige Anwendungsfälle

Selbst gehostete LLMs für Datenschutz

Kostenoptimierung

Benutzerdefinierte Fine-Tuned Modelle

Multi-Provider-Abstraktion

Fehlerbehebung

Erste Schritte

Chat

Skills

Dateien

Agenten

Integrationen

Workflows

Integrationen

Chatbots

Modelle

Einstellungen & Konfiguration

Sicherheit

Admin Einstellungen

Fehlerbehebung

​Was bedeutet OpenAI-kompatibel?

​Voraussetzungen

​Einrichtungsschritte

​Beispielkonfigurationen

​vLLM

​LiteLLM Proxy

​Ollama (über öffentlichen Endpunkt)

​Häufige Anwendungsfälle

​Selbst gehostete LLMs für Datenschutz

​Kostenoptimierung

​Benutzerdefinierte Fine-Tuned Modelle

​Multi-Provider-Abstraktion

​Fehlerbehebung

Was bedeutet OpenAI-kompatibel?

Voraussetzungen

Einrichtungsschritte

Beispielkonfigurationen

vLLM

LiteLLM Proxy

Ollama (über öffentlichen Endpunkt)

Häufige Anwendungsfälle

Selbst gehostete LLMs für Datenschutz

Kostenoptimierung

Benutzerdefinierte Fine-Tuned Modelle

Multi-Provider-Abstraktion

Fehlerbehebung