ML-Modelle schnell in LLM-Agenten integrieren: Das Predikit-Framework für LLM-abrufbare Modelle
von Denis Shokhirev, Enterprise AI Architect aus Erlangen. In den letzten sechs Monaten habe ich für DACH-B2B-Kunden 14 produktive LLM-Agenten mit einem Stack aus Claude, Supabase, n8n, Doppler und selbst gehostetem Postgres bereitgestellt. Die größte Hürde im Produktivbetrieb: Eigene ML-Modelle sicher, auditierbar und schnell in LLM-Agenten einzubinden – nicht als Demo, sondern für reale B2B-Prozesse. Das Problem: ML-Modelle in LLM-Agenten – Risiken und Reibungsverluste Gerade in regulierten
von Denis Shokhirev, Enterprise AI Architect aus Erlangen. In den letzten sechs Monaten habe ich für DACH-B2B-Kunden 14 produktive LLM-Agenten mit einem Stack aus Claude, Supabase, n8n, Doppler und selbst gehostetem Postgres bereitgestellt. Die größte Hürde im Produktivbetrieb: Eigene ML-Modelle sicher, auditierbar und schnell in LLM-Agenten einzubinden – nicht als Demo, sondern für reale B2B-Prozesse.
Das Problem: ML-Modelle in LLM-Agenten – Risiken und Reibungsverluste
Gerade in regulierten Branchen wie Fintech, Logistik oder industrieller Automatisierung sind maßgeschneiderte ML-Modelle unverzichtbar: Scoring, Ereignisklassifikation, Prognosen und Validierungen. LLMs können jedoch keinen fremden Python-Code direkt ausführen. Ohne standardisierte Schnittstelle werden Integrationen zum Flickenteppich: jeder Dienst anders, fehlende Auditierbarkeit, verschiedene Authentifizierungskonzepte – ein Risiko für Compliance und Wartbarkeit.
Das Muster: ML-Modelle als LLM-abrufbare Endpunkte kapseln
Predikit-Framework: Prinzip und Nutzen
Ich setze ein Muster ein, das ich Predikit nenne: Jedes ML-Modell wird über einen standardisierten HTTP/gRPC-Endpunkt verfügbar gemacht. Feste Input/Output-Schemata, Authentifizierung, Ratenbegrenzung und Logging sind obligatorisch. Der LLM-Agent ruft diesen Endpunkt als Tool oder Funktion auf, verarbeitet das strukturierte Ergebnis und bleibt so konform zu Compliance-Anforderungen (DSGVO, BSI Grundschutz, EU AI Act).
Ihre Vorteile
- Jedes ML-Modell (Python, Torch, ONNX, CatBoost) wird zum produktionsfähigen Dienst mit eindeutigem Vertrag.
- Zentrale Steuerung von Zugriff, Validierung, Audit und Skalierung.
- Backend-Wechsel oder Upgrade ohne Anpassung der LLM-Prompts oder Agenten-Logik möglich.
Technische Umsetzung: FastAPI & Function Calling
ML-Modell als FastAPI-Service
Schnellster Einstieg: Das Modell wird über FastAPI mit validierten Pydantic-Schemata bereitgestellt. Beispiel: Ein Fraud-Detection-Modell erhält eine Transaktion und gibt eine Betrugswahrscheinlichkeit zurück. Jeder Aufruf wird mit Authentifizierung und Logging versehen.
from fastapi import FastAPI, HTTPException, Request
from pydantic import BaseModel
import joblib
app = FastAPI()
model = joblib.load("fraud_model.pkl")
class Transaction(BaseModel):
amount: float
sender_id: str
receiver_id: str
class Prediction(BaseModel):
is_fraud: bool
score: float
@app.post("/predict", response_model=Prediction)
async def predict(tx: Transaction, request: Request):
api_key = request.headers.get("x-api-key")
if api_key != "ihr-geheimer-key": raise HTTPException(401, "Unauthorized")
features = [tx.amount, hash(tx.sender_id), hash(tx.receiver_id)]
score = float(model.predict_proba([features])[0][1])
# Logging in Postgres (Pseudocode)
# log_prediction(tx, score, request.client.host)
return {"is_fraud": score > 0.7, "score": score}
LLM-Function-Calling: Schema und Prompt
Moderne LLMs unterstützen Funktionsaufrufe mit Schema (OpenAI, Claude). Das Modell wird als Tool mit explizitem JSON-Schema definiert. Beispiel:
{
"name": "predict_transaction",
"description": "Klassifiziert eine Transaktion hinsichtlich Betrugsverdacht.",
"parameters": {
"type": "object",
"properties": {
"amount": {"type": "number"},
"sender_id": {"type": "string"},
"receiver_id": {"type": "string"}
},
"required": ["amount", "sender_id", "receiver_id"]
}
}
Der LLM-Agent ruft den Endpunkt exakt mit diesen Parametern auf – keine Inkonsistenzen, keine Copy-Paste-Fehler.
Sicherheit und Audit: Pflicht im DACH-Markt
Unverzichtbar sind Authentifizierung (API-Key, JWT) und umfassendes Logging der Aufrufe in einer dedizierten Audit-Tabelle (Postgres). Das ist nicht nur “Best Practice”, sondern regulatorisch gefordert (DSGVO, ISO 27001). Konkrete Patterns finden Sie in den FastAPI Security Docs.
Vergleich: Drei Ansätze zur Integration
| Ansatz | Integrationszeit | Zugriffskontrolle | Skalierbarkeit |
|---|---|---|---|
| Direkter Python-Import im LLM-Agent | 3–5 Tage | Manuell, fehleranfällig | Begrenzt |
| Predikit-Service-Endpunkt | 1 Tag | Zentral, auditierbar | Sehr gut |
| Externe ML-APIs (AWS SageMaker, Vertex AI) | 2–4 Tage | Anbieter-gemanaged | Gut, teuer |
Typische Fehlerquellen aus der Praxis
- Öffentliche Endpunkte ohne Authentifizierung – immer vermeiden.
- Fehlende Input-Validierung – LLMs erzeugen oft fehlerhafte Parameter.
- Ungeprüfte Speicherung sensibler Rohdaten – nur Hashes/IDs loggen.
- Unsichere Serialisierung (pickle) – joblib oder ONNX bevorzugen (siehe scikit-learn.org).
FAQ
Können Sie dieses Muster auch für Modelle in Java oder C++ anwenden?
Ja. Entscheidend ist die Bereitstellung einer stabilen HTTP/gRPC-API mit klaren Schemata – die Programmiersprache ist nachrangig.
Wie testen Sie die Integration zwischen LLM-Agent und ML-Endpunkt?
Unit-Tests für den FastAPI-Endpunkt (pytest) plus End-to-End-Tests mit echten LLM-Calls via n8n-Workflow.
Was tun, wenn das Modell GPU benötigt?
Predikit-Endpunkt auf GPU-fähigem Server bereitstellen oder Queue/Worker (Celery, Redis) verwenden.
Wie funktioniert das Audit-Logging?
Eigene Audit-Tabelle in Postgres: Zeitstempel, gehashte Parameter, User-ID, Ergebnis, Endpunkt-Name.
Ist das auch mit selbst gehosteten LLMs einsetzbar?
Ja – entscheidend ist die Unterstützung von Tool/Funktionsaufrufen auf Seiten des LLM-Frameworks. Die API bleibt gleich.
In Ihrer Systemarchitektur: Binden Sie ML-Modelle direkt per Code ein oder über dedizierte Services? An welcher Stelle im Prozess treten die meisten Fehler im Produktivbetrieb auf – Input-Validierung, Zugriffskontrolle oder Logging? Ich biete einen kostenlosen 30-minütigen Stack-Audit für DACH-Unternehmen mit KI-Projekten im regulierten Umfeld an. Kontaktieren Sie mich auf LinkedIn oder schreiben Sie an @ger_dennis_ai.
Turn your process into an AI system
Fixed price. Production quality. DACH B2B focus.