Zum Inhalt springen

Einführung

maKI ist ein OpenAI-kompatibler API-Dienst, der vollständig auf Infrastruktur der Uni Mannheim läuft. Keine Anfragen oder Daten verlassen die Universität.

Benutzernahe KI-Tools

Direkte Interaktion mit

Endanwendern (z. B. Chatbots,

Assistenten)

Aktuelles Beispiel: F13

Backend-Services

KI-Funktionen im Hintergrund für

Anwendungen (z. B. RAG,

Klassifikation, Verarbeitung)

Agenten und Automatisierung

Automatisierte Abläufe und

Entscheidungen mit KI (mehrstufige

Prozesse)

Eigene Applikationen per API

Individuelle Anwendungen mit

direkter LiteLLM-Anbindung

LiteLLM



Konfiguration und API-Keys

Authentifizierung und Zugriffskontrolle

Budgets und Limits

Monitoring

Load Balancing und Routing

...

Intern gehostete LLMs

(Verarbeitung personenbezogener Daten)



gemma4-26b

qwen3.6

qwen3.5-27b

devstral-small-2

ministral-3-14b

...

Extern gehostete LLMs

(Keine Verarbeitung

personenbezogener Daten)



OpenAI (GPT-5.4, ...)

Anthropic (Claude)

Google (Gemini)

AWS

...

  1. Sie senden einen Request an https://maki.uni-mannheim.de/v1/chat/completions — genau wie bei der OpenAI API.
  2. maKI validiert Ihren API-Key und leitet die Anfrage an das gewählte Modell weiter.
  3. Das Modell läuft lokal auf GPUs der Uni Mannheim und erzeugt die Antwort.
  4. Die Antwort wird zurückgestreamt — der Token-Verbrauch wird pro Schlüssel protokolliert.

Prompts und Antworten werden nicht gespeichert (siehe Datenschutz).

Eine aktuelle Liste mit Kontextfenstern und Einsatzempfehlungen finden Sie unter Verfügbare Modelle.

Jede Anfrage an maKI muss einen API-Schlüssel mitsenden — eine zufällig erzeugte Zeichenkette, die Ihre Anwendung gegenüber maKI ausweist. Schlüssel werden vom Administrator ausgestellt und können jederzeit widerrufen werden. Details zu Typen, Beantragung und Umgang mit Schlüsseln finden Sie unter API-Schlüssel.

  • OpenAI-kompatibel: Jedes SDK oder Tool, das die OpenAI API unterstützt, funktioniert ohne Anpassung.
  • Vollständig lokal: Alle Modelle laufen auf dedizierten GPUs der Uni Mannheim. Kein Drittanbieter ist beteiligt.
  • Streaming: Antworten werden Token für Token gestreamt (stream: true).
  • Structured Output: Modelle können JSON-Schema-konforme Ausgaben erzeugen (siehe Structured Output).
  • Embeddings: Neben Chat-Modellen stehen auch Embedding-Modelle für Vektorsuche und RAG zur Verfügung.