AI-Agentenplattform aus 300.000 Zeilen Code: Architektur und Praxis im regulierten DACH-Markt
von Denis Shokhirev, Enterprise AI Architect aus Erlangen. Bei DennisCraft AI Studio entwickle und betreibe ich AI-Systeme für DACH-B2B-Kunden – Logistik, Fintech, industrielle Automatisierung – mit einem Stack aus Claude, Supabase, n8n, Doppler und selbst gehostetem Postgres. Nach 14 produktiven AI-Agenten in sechs Monaten zeigt die Realität: DSGVO, Latenz, Race Conditions und LLM-Schwächen sind keine Folienprobleme. In diesem Beitrag analysiere ich die Architektur meiner 300.000-Zeilen-Code-Pl
von Denis Shokhirev, Enterprise AI Architect aus Erlangen. Bei DennisCraft AI Studio entwickle und betreibe ich AI-Systeme für DACH-B2B-Kunden – Logistik, Fintech, industrielle Automatisierung – mit einem Stack aus Claude, Supabase, n8n, Doppler und selbst gehostetem Postgres. Nach 14 produktiven AI-Agenten in sechs Monaten zeigt die Realität: DSGVO, Latenz, Race Conditions und LLM-Schwächen sind keine Folienprobleme. In diesem Beitrag analysiere ich die Architektur meiner 300.000-Zeilen-Code-Plattform – praxiserprobt, auditierbar und stabil im europäischen Produktivbetrieb.
Kernarchitektur: Isolierte, kontrollierte Agenten
Architekturprinzipien
Jeder AI-Agent läuft als separater Prozess, orchestriert über asynchrone Queues (Supabase Realtime, Redis pub/sub). Ziel: Maximale Stabilität, Nachvollziehbarkeit und Compliance. Microservices? Hier kontraproduktiv – Prozesspools vereinfachen API-Limits und Zustandsverwaltung erheblich.
Stack-Vergleich: Was hält dem Produktivbetrieb stand?
| Komponente | Warum gewählt | Praxisprobleme |
|---|---|---|
| Claude Code / Anthropic SDK | Vernünftiges Preis-Leistungs-Verhältnis, stabile Reasoning-Qualität | Strikte Rate-Limits, gelegentliche Latenzspitzen |
| Supabase | Schnelles pub/sub, Metadatenhaltung | Realtime verliert manchmal Events, Fallback notwendig |
| n8n | Workflow-Orchestrierung, visuelles Editing | Tiefer Debugging-Aufwand bei langen Chains, Retry-Bugs |
| Doppler | Zentrale Geheimnisverwaltung, einfacher CI-Support | Audit-Trails für große Teams zu grob |
| Selbst gehosteter Postgres | DSGVO-konform, volle Datenkontrolle | Lastspitzen: Bottleneck, Query-Optimierung nötig |
Datenfluss: Vom Eingang bis zum Audit-Log
Anfrageverarbeitung im Muster
Jede eingehende Anfrage (API/UI) wird per pydantic-Schema validiert und landet in einer Supabase-Queue. Der Agent-Prozess zieht asynchron Tasks, durchläuft Preprocessing, LLM-Aufruf (Claude/Anthropic), Postprocessing und persistiert das Ergebnis in Postgres.
from supabase import create_client
import asyncio
async def process_task(supabase_url, supabase_key):
supabase = create_client(supabase_url, supabase_key)
while True:
task = supabase.table('tasks').select('*').eq('status', 'pending').limit(1).execute()
if task.data:
result = run_agent_logic(task.data[0])
supabase.table('tasks').update({'status': 'done', 'result': result}).eq('id', task.data[0]['id']).execute()
await asyncio.sleep(1)
Audit-Trail & Nachvollziehbarkeit
Jeder LLM-Call wird in einer separaten Postgres-Tabelle protokolliert: Prompt, Output, Latenz, User-ID. Für DSGVO/BSI-Grundschutz führe ich einen vollständigen Audit-Trail: Wer, wann, welcher Prompt, welcher Output. Nach einem Zwischenfall bei einem Fintech-Kunden (LLM generierte riskanten Output) wurde ein manueller Review-Prozess für 2% der Aufgaben via n8n und Notion etabliert.
Sicherheit: LLM-Code ist kein Vertrauensanker
Produktionsrisiko LLM-Output
Die meisten Schwachstellen entstehen nicht durch eingehende Requests, sondern durch von LLM generierten Code. In drei aktuellen Deployments habe ich SQL-Injection und unsichere Shell-Aufrufe im von Claude generierten Python-Code gefunden. Für statische Analysen setze ich semgrep, bandit und gelegentlich gitleaks ein – ein Pattern, das auch in der Anthropic-Studie 2023 (Quelle) bestätigt wurde.
semgrep --config=python security/ --error
bandit -r ./agents/
gitleaks detect --source=./
Sandboxing: LLM-Ausgaben isolieren
LLM-generierter Code läuft ausschließlich in Sandbox-Containern (firejail + Docker), mit harten Limits für CPU, Speicher und Netzwerk. Nach einem Prompt-Injection-Vorfall 2024 (böswilliges SQL DELETE in einem RAG-Agenten) setze ich Regex-Filter für Prompts und enforced Runtime-Sandboxing ein. Kein LLM-Code erhält Datenbankzugriff mit Produktiv-Credentials.
Monitoring & Alarmierung: Was im Alltag funktioniert
Metriken, Alarme, Reaktionsmuster
Metriken laufen in ein selbst gehostetes Prometheus + Grafana: Latenz je Agent, Fehlerraten, Queue-Status. Kritische Alarme werden automatisiert an einen Telegram-Bot gesendet. Beispiel: Latenz > 5 Sekunden oder Fehlerrate > 2% in 10 Minuten — sofortige Benachrichtigung.
groups:
- name: ai-agent-alerts
rules:
- alert: HighLatency
expr: avg_over_time(agent_latency[5m]) > 5
for: 2m
annotations:
summary: "Hohe Latenz bei AI-Agent festgestellt"
FAQ
Warum keine No-Code-AI-Plattform?
Am Markt verfügbare Systeme sind entweder nicht DSGVO-konform (Datenverarbeitung bei Dritten) oder unterstützen keine komplexen Pipelines. Selbst gehostete Kontrolle ist im regulierten Umfeld Pflicht.
Wie testen Sie die Zuverlässigkeit der Agenten-Pipelines?
Unit-Tests auf jedem Schritt, wöchentliche End-to-End-Tests via n8n. LLM-Outputs werden gegen Golden Datasets verglichen.
Wie gehen Sie mit API-Limits um?
Queueing und Retry-Logik: Supabase Queue plus dedizierter Prozesspool pro LLM-Endpunkt, um 429-Fehler zu vermeiden.
Wie verwalten Sie Geheimnisse und Tokens?
Doppler für zentrale Geheimnisverwaltung, rollenbasierter Zugriff. Kritische Schlüssel bleiben ausschließlich auf dem Server.
Wie skalieren Sie das System?
Bisher reicht horizontale Skalierung: zusätzliche Agenten-Prozesse, eigene Queues, Postgres-Replikate. Bei >100 Agenten evaluiere ich Kubernetes.
Wo entstehen bei Ihren AI-Agenten im Produktivbetrieb die meisten Vorfälle: bei der Queue-Verarbeitung, der LLM-Logik oder in der Anbindung externer Dienste? Ihre Erfahrungswerte interessieren mich. Ich biete einen kostenfreien 30-Minuten-Stack-Audit für DACH-Unternehmen im regulierten AI-Bereich. Kontaktieren Sie mich über LinkedIn oder @ger_dennis_ai.
Turn your process into an AI system
Fixed price. Production quality. DACH B2B focus.