VanteroVantero API
App

API Referenz

Vollständige technische Dokumentation der Vantero API.

Authentifizierung

Alle API-Anfragen erfordern einen gültigen API-Key im Authorization-Header.

Authorization: Bearer YOUR_API_KEY
Idempotency-Key: req_123 (optional, POST only)
X-End-User-Id: user_42 (optional)
X-Project-Id: adbase-main (optional)
X-Session-Id: sess_abc (optional)
X-Request-Id: 2fbd62fe-... (response header, always set)
Endpoints
GET
/v1/modelsReturns models available for the current API key.
POST
/v1/chat/completionsErstellt eine Chat-Completion. Unterstützt Streaming.
POST
/v1/filesUpload a file (multipart/form-data).
POST
/v1/audio/transcriptionsTranscribe audio files (multipart/form-data).
GET
/v1/files/{file_id}Read file metadata and processing status.
DELETE
/v1/files/{file_id}Delete file metadata and storage object.
POST
/v1/files/{file_id}/extract?async=true|falseStart or run extraction for one file.
GET
/v1/file-jobs/{job_id}Read extraction job status/result.
Request-Parameter
ParameterTypPflichtDefaultBeschreibung
modelstring
Pflicht
-Model-ID oder Alias (z.B. 'mistral-small', 'claude-sonnet')
messagesarray
Pflicht
-Array von Message-Objekten mit role und content
streambooleanfalseAktiviert Server-Sent Events für Echtzeit-Streaming
stream_optionsobjectnullOptionale Streaming-Einstellungen wie include_usage für einen finalen Usage-Chunk
temperaturenumber0.7Kreativität der Antworten (0.0-2.0)
top_pnumber1.0Nucleus Sampling (0.0-1.0)
max_tokensinteger4096Maximale Anzahl Output-Tokens
frequency_penaltynumber0Strafe für häufig verwendete Tokens (-2.0 bis 2.0)
presence_penaltynumber0Strafe für bereits verwendete Tokens (-2.0 bis 2.0)
stopstring | arraynullSequenz(en), bei denen die Generierung stoppt
response_formatobjectnullErzwingt JSON-Ausgabe (type: 'json_object')
toolsarraynullVerfügbare Funktionen/Tools für Function Calling
tool_choicestring | objectautoWie Tools verwendet werden sollen (auto, required, none)
functionsarraynullLegacy-Funktionsdefinitionen (OpenAI-Kompatibilitätsmodus)
function_callstring | objectautoLegacy-Verhalten für Funktionsaufrufe (auto, none oder benannte Funktion)
Message-Format

Jede Nachricht hat eine Rolle und einen Inhalt:

system
Definiert das Verhalten des Assistenten (optional, max. 1)
user
Nachrichten vom Benutzer
assistant
Vorherige Antworten des Modells (für Kontext)
messages.jsonjson
{
  "messages": [
    { "role": "system", "content": "You are a helpful assistant." },
    {
      "role": "user",
      "content": [
        { "type": "text", "text": "Summarize this file" },
        { "type": "file_ref", "file_id": "file_abc123" }
      ]
    },
    { "role": "assistant", "content": "I don't have access to real-time weather data." },
    { "role": "user", "content": "I understand, thank you!" }
  ]
}
Request-Beispiel
request.jsonjson
{
  "model": "gpt-4o",
  "messages": [
    { "role": "system", "content": "You are a helpful assistant." },
    { "role": "user", "content": "Hello!" }
  ],
  "temperature": 0.7,
  "max_tokens": 1000
}
Response-Format

Erfolgreiche Anfragen geben ein Chat-Completion-Objekt zurück:

response.jsonjson
{
  "id": "chatcmpl-abc123",
  "object": "chat.completion",
  "created": 1699000000,
  "model": "gpt-4o",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "Hello! How can I help you today?"
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 20,
    "completion_tokens": 10,
    "total_tokens": 30
  }
}

finish_reason kann sein:

  • stop - Natürliches Ende
  • length - max_tokens erreicht
  • content_filter - Inhalt gefiltert
  • tool_calls - Das Modell hat Tool-Aufrufe zurückgegeben
  • function_call - Das Modell hat einen Legacy-Funktionsaufruf zurückgegeben
Streaming

Mit stream: true erhalten Sie Antworten in Echtzeit als Server-Sent Events (SSE). Mit stream_options.include_usage kann der finale Chunk zusätzlich Usage-Daten enthalten.

stream.txttext
data: {"id":"chatcmpl-abc123","object":"chat.completion.chunk","created":1699000000,"model":"gpt-4o","choices":[{"index":0,"delta":{"role":"assistant"},"finish_reason":null}]}

data: {"id":"chatcmpl-abc123","object":"chat.completion.chunk","created":1699000000,"model":"gpt-4o","choices":[{"index":0,"delta":{"content":"Hello"},"finish_reason":null}]}

data: {"id":"chatcmpl-abc123","object":"chat.completion.chunk","created":1699000000,"model":"gpt-4o","choices":[{"index":0,"delta":{"content":"!"},"finish_reason":null}]}

data: {"id":"chatcmpl-abc123","object":"chat.completion.chunk","created":1699000000,"model":"gpt-4o","choices":[{"index":0,"delta":{},"finish_reason":"stop"}],"usage":{"prompt_tokens":20,"completion_tokens":10,"total_tokens":30}}

data: [DONE]
Verfügbare Modelle

Alle Modelle können über ihren Alias oder die vollständige ID angesprochen werden.

AliasModellZoneMax OutputFeatures
codellamaCodeLlama 13BDE4,096
Code
mistral-smallMistral Small 24BDE4,096
Bild
gemma-3-27bGemma 3 27BDE4,096
Bild
llama-3.3-70bLlama 3.3 70BDE4,096
gpt-ossGPT-OSS 120BDE4,096
ReasoningBild
llama-405bLlama 3.1 405BDE8,192
Reasoning
codestralCodestralFR4,096
Code
magistral-smallMagistral SmallFR4,096
ReasoningWebBild
mistral-mediumMistral Medium 3FR4,096
WebBild
magistral-mediumMagistral MediumFR4,096
ReasoningWebBild
mistral-largeMistral Large 2.1FR4,096
ReasoningWebBild
gpt-5-nanoChatGPT-5 NanoEU4,096
Bild
gpt-5-miniChatGPT-5 MiniEU4,096
Bild
gpt-4.1ChatGPT-4.1EU8,192
ReasoningBild
gpt-5ChatGPT-5EU8,192
ReasoningBild
gemini-flash-liteGemini 2.5 Flash-LiteEU8,192
WebBild
gemini-flashGemini 2.5 FlashEU8,192
WebBild
gemini-proGemini 2.5 ProEU8,192
ReasoningWebBild
claude-haikuClaude Haiku 4.5EU4,096
claude-sonnetClaude Sonnet 4.5EU8,192
Reasoning
claude-opusClaude Opus 4.5EU8,192
Reasoning
nova-microNova MicroEU4,096
nova-liteNova LiteEU4,096
Bild
nova-proNova ProEU4,096
ReasoningBild
deepseek-v3DeepSeek V3.1EU8,192
Reasoning
qwen3-nextQwen3 Next 80BEU8,192
qwen3-vlQwen3 VL 235BEU8,192
ReasoningBild
qwen3-coderQwen3 Coder 480BEU8,192
CodeReasoning
sonarSonarUS4,096
Web
sonar-reasoningSonar Reasoning ProUS4,096
WebReasoning
sonar-researchSonar Deep ResearchUS4,096
WebReasoning
sonar-proSonar ProUS4,096
WebReasoning

DE 100% Deutschland (IONOS)

FR Frankreich mit Zero Retention (Mistral)

EU EU Data Boundary (Azure/AWS/GCP)

US US mit GDPR-Konformität (Perplexity)

Rate Limits

Rate Limits werden pro API-Key angewendet und können in der Plattform konfiguriert werden.

Die folgenden Header werden in jeder Antwort mitgesendet:

  • X-RateLimit-Limit - Maximale Anfragen im aktuellen Zeitfenster
  • X-RateLimit-Remaining - Verbleibende Anfragen im aktuellen Zeitfenster
  • X-RateLimit-Reset - Unix-Timestamp, wann das Limit zurückgesetzt wird
Fehlercodes
HTTPCodeBeschreibungLösung
400invalid_request_errorUngültige Anfrage - Parameter fehlen oder sind falschÜberprüfen Sie die Request-Parameter
401invalid_api_keyAPI-Key ungültig oder fehltÜberprüfen Sie Ihren API-Key
404model_not_foundModell nicht gefundenPrüfen Sie den Modell-Alias
429rate_limit_exceededRate Limit überschrittenWarten Sie und versuchen Sie es erneut
429insufficient_quotaBudget/Quota aufgebrauchtBudget erhöhen oder warten
500server_errorInterner Server-FehlerVersuchen Sie es später erneut
503model_unavailableDas angeforderte Modell ist vorübergehend nicht verfügbar.Kurz warten und erneut versuchen oder auf ein anderes erlaubtes Modell wechseln.