AI-Agentenplattform aus 300.000 Zeilen Code: Architektur und Praxis im regulierten DACH-Markt

von Denis Shokhirev, Enterprise AI Architect aus Erlangen. Bei DennisCraft AI Studio entwickle und betreibe ich AI-Systeme für DACH-B2B-Kunden – Logistik, Fintech, industrielle Automatisierung – mit einem Stack aus Claude, Supabase, n8n, Doppler und selbst gehostetem Postgres. Nach 14 produktiven AI-Agenten in sechs Monaten zeigt die Realität: DSGVO, Latenz, Race Conditions und LLM-Schwächen sind keine Folienprobleme. In diesem Beitrag analysiere ich die Architektur meiner 300.000-Zeilen-Code-Plattform – praxiserprobt, auditierbar und stabil im europäischen Produktivbetrieb.

Kernarchitektur: Isolierte, kontrollierte Agenten

Architekturprinzipien

Jeder AI-Agent läuft als separater Prozess, orchestriert über asynchrone Queues (Supabase Realtime, Redis pub/sub). Ziel: Maximale Stabilität, Nachvollziehbarkeit und Compliance. Microservices? Hier kontraproduktiv – Prozesspools vereinfachen API-Limits und Zustandsverwaltung erheblich.

Stack-Vergleich: Was hält dem Produktivbetrieb stand?

Komponente	Warum gewählt	Praxisprobleme
Claude Code / Anthropic SDK	Vernünftiges Preis-Leistungs-Verhältnis, stabile Reasoning-Qualität	Strikte Rate-Limits, gelegentliche Latenzspitzen
Supabase	Schnelles pub/sub, Metadatenhaltung	Realtime verliert manchmal Events, Fallback notwendig
n8n	Workflow-Orchestrierung, visuelles Editing	Tiefer Debugging-Aufwand bei langen Chains, Retry-Bugs
Doppler	Zentrale Geheimnisverwaltung, einfacher CI-Support	Audit-Trails für große Teams zu grob
Selbst gehosteter Postgres	DSGVO-konform, volle Datenkontrolle	Lastspitzen: Bottleneck, Query-Optimierung nötig

Datenfluss: Vom Eingang bis zum Audit-Log

Anfrageverarbeitung im Muster

Jede eingehende Anfrage (API/UI) wird per pydantic-Schema validiert und landet in einer Supabase-Queue. Der Agent-Prozess zieht asynchron Tasks, durchläuft Preprocessing, LLM-Aufruf (Claude/Anthropic), Postprocessing und persistiert das Ergebnis in Postgres.


from supabase import create_client
import asyncio

async def process_task(supabase_url, supabase_key):
    supabase = create_client(supabase_url, supabase_key)
    while True:
        task = supabase.table('tasks').select('*').eq('status', 'pending').limit(1).execute()
        if task.data:
            result = run_agent_logic(task.data[0])
            supabase.table('tasks').update({'status': 'done', 'result': result}).eq('id', task.data[0]['id']).execute()
        await asyncio.sleep(1)

Audit-Trail & Nachvollziehbarkeit

Jeder LLM-Call wird in einer separaten Postgres-Tabelle protokolliert: Prompt, Output, Latenz, User-ID. Für DSGVO/BSI-Grundschutz führe ich einen vollständigen Audit-Trail: Wer, wann, welcher Prompt, welcher Output. Nach einem Zwischenfall bei einem Fintech-Kunden (LLM generierte riskanten Output) wurde ein manueller Review-Prozess für 2% der Aufgaben via n8n und Notion etabliert.

Sicherheit: LLM-Code ist kein Vertrauensanker

Produktionsrisiko LLM-Output

Die meisten Schwachstellen entstehen nicht durch eingehende Requests, sondern durch von LLM generierten Code. In drei aktuellen Deployments habe ich SQL-Injection und unsichere Shell-Aufrufe im von Claude generierten Python-Code gefunden. Für statische Analysen setze ich semgrep, bandit und gelegentlich gitleaks ein – ein Pattern, das auch in der Anthropic-Studie 2023 (Quelle) bestätigt wurde.


semgrep --config=python security/ --error
bandit -r ./agents/
gitleaks detect --source=./

Sandboxing: LLM-Ausgaben isolieren

LLM-generierter Code läuft ausschließlich in Sandbox-Containern (firejail + Docker), mit harten Limits für CPU, Speicher und Netzwerk. Nach einem Prompt-Injection-Vorfall 2024 (böswilliges SQL DELETE in einem RAG-Agenten) setze ich Regex-Filter für Prompts und enforced Runtime-Sandboxing ein. Kein LLM-Code erhält Datenbankzugriff mit Produktiv-Credentials.

Monitoring & Alarmierung: Was im Alltag funktioniert

Metriken, Alarme, Reaktionsmuster

Metriken laufen in ein selbst gehostetes Prometheus + Grafana: Latenz je Agent, Fehlerraten, Queue-Status. Kritische Alarme werden automatisiert an einen Telegram-Bot gesendet. Beispiel: Latenz > 5 Sekunden oder Fehlerrate > 2% in 10 Minuten — sofortige Benachrichtigung.


groups:
- name: ai-agent-alerts
  rules:
  - alert: HighLatency
    expr: avg_over_time(agent_latency[5m]) > 5
    for: 2m
    annotations:
      summary: "Hohe Latenz bei AI-Agent festgestellt"

FAQ

Warum keine No-Code-AI-Plattform?

Am Markt verfügbare Systeme sind entweder nicht DSGVO-konform (Datenverarbeitung bei Dritten) oder unterstützen keine komplexen Pipelines. Selbst gehostete Kontrolle ist im regulierten Umfeld Pflicht.

Wie testen Sie die Zuverlässigkeit der Agenten-Pipelines?

Unit-Tests auf jedem Schritt, wöchentliche End-to-End-Tests via n8n. LLM-Outputs werden gegen Golden Datasets verglichen.

Wie gehen Sie mit API-Limits um?

Queueing und Retry-Logik: Supabase Queue plus dedizierter Prozesspool pro LLM-Endpunkt, um 429-Fehler zu vermeiden.

Wie verwalten Sie Geheimnisse und Tokens?

Doppler für zentrale Geheimnisverwaltung, rollenbasierter Zugriff. Kritische Schlüssel bleiben ausschließlich auf dem Server.

Wie skalieren Sie das System?

Bisher reicht horizontale Skalierung: zusätzliche Agenten-Prozesse, eigene Queues, Postgres-Replikate. Bei >100 Agenten evaluiere ich Kubernetes.

Wo entstehen bei Ihren AI-Agenten im Produktivbetrieb die meisten Vorfälle: bei der Queue-Verarbeitung, der LLM-Logik oder in der Anbindung externer Dienste? Ihre Erfahrungswerte interessieren mich. Ich biete einen kostenfreien 30-Minuten-Stack-Audit für DACH-Unternehmen im regulierten AI-Bereich. Kontaktieren Sie mich über LinkedIn oder @ger_dennis_ai.