Zum Inhalt springen

API-Schlüssel

Ein API-Schlüssel ist eine zufällig erzeugte Zeichenkette, die Ihre Anwendung bei jeder Anfrage an maKI mitsendet. Anhand des Schlüssels erkennt maKI, wer fragt und welche Modelle aufgerufen werden dürfen; die Nutzung wird pro Schlüssel protokolliert.

Sie benötigen einen Schlüssel, sobald Sie maKI aus eigenem Code, einem SDK, einem Notebook oder einem Werkzeug wie curl ansprechen — kurz: überall außerhalb der Admin-Oberfläche unter /ui/.

Behandeln Sie den Schlüssel wie ein Passwort:

  • Niemals im Quellcode oder in einem Git-Repository hinterlegen
  • In einer Umgebungsvariable, einem Secret-Manager oder 1Password speichern
  • Bei Verdacht auf Kompromittierung sofort widerrufen lassen
TypZuordnungPersonenbezugBeispiel
Persönlicher SchlüsselEinzelpersonJa (indirekt über Nutzungsdaten)Philipp Hematty
Service-SchlüsselAnwendung oder Team (≥3 Personen)NeinF13-Assistenzsystem
Batch-SchlüsselAd-hoc-MassenverarbeitungNeinembedding-migration-2026

Wenden Sie sich an den maKI-Administrator (philipp.hematty@uni-mannheim.de) mit:

  • Name des Dienstes oder Teams
  • Ansprechperson (technischer Kontakt)
  • Verwendungszweck (kurze Beschreibung)

Bei Verdacht auf Kompromittierung eines Schlüssels:

  1. Sofort melden an philipp.hematty@uni-mannheim.de
  2. Administrator deaktiviert den Schlüssel über die LiteLLM Admin-UI (/ui)
  3. Neuer Schlüssel wird ausgestellt und dem Ansprechpartner mitgeteilt
  4. Alter Schlüssel wird dauerhaft gelöscht

Widerrufene Schlüssel werden sofort ungültig — laufende Anfragen werden noch abgeschlossen, neue Anfragen abgelehnt.

API-Schlüssel werden bei GPU-Auslastung nach Typ priorisiert:

SchlüsseltypPrioritätVerhalten bei Auslastung
PersönlichHoch (1)Anfragen werden bevorzugt aus der Warteschlange bedient
ServiceNormal (64)Anfragen warten hinter persönlichen Anfragen
BatchNiedrig (128)Anfragen warten hinter persönlichen und Service-Anfragen

Wenn die GPU nicht ausgelastet ist, erhalten alle Typen den vollen Durchsatz — es gibt keine künstliche Drosselung. Die Priorisierung greift erst, wenn alle parallelen Slots eines Modells belegt sind.

Jedes Modell hat ein Limit für gleichzeitige Anfragen (max_parallel_requests). Überschüssige Anfragen werden in eine Warteschlange eingereiht und nach Priorität abgearbeitet. Bei langer Warteschlange erhalten Anfragen HTTP 429 und sollten mit exponentiellem Backoff wiederholt werden.

ModellMax. parallele Anfragen
Gemma 4 26B (MoE)8
Qwen3.64
Qwen3.5-27B4
Devstral-Small-28
Ministral-3-14B8
Jina Embeddings v2 base-de8
Parakeet V34
Parakeet V3 (Diarization)4

Es gibt derzeit kein hartes Token-Limit pro Anfrage. Die Kontextfenster der Modelle gelten:

ModellKontextfenster
Gemma 4 26B (MoE)128kToken
Qwen3.6256kToken
Qwen3.5-27B128kToken
Devstral-Small-2128kToken
Ministral-3-14B128kToken
Jina Embeddings v2 base-de8kToken

Im aktuellen Betrieb mit ausschließlich lokalen Modellen gibt es keine Kostenbudgets pro Schlüssel. Die Nutzung wird zu Planungszwecken erfasst (Zeitstempel, Modell, Token-Anzahl).

Die Nutzung wird pro Schlüssel erfasst:

  • Anfragen pro Modell und Zeitraum
  • Token-Verbrauch (Input/Output)
  • Fehlerraten

Diese Daten dienen der Kapazitätsplanung und Kostenverrechnung, nicht der Verhaltenskontrolle (siehe Datenschutz).