Recursive Self-Improvement Agents: Architektur und Herausforderungen der Implementierung
von Denis Shokhirev, Enterprise AI Architect aus Erlangen. Bei DennisCraft AI Studio habe ich in den letzten sechs Monaten 14 produktive AI-Agenten für DACH-B2B-Kunden auf Basis von Claude, Supabase, n8n, Doppler und selbstgehostetem Postgres entwickelt. Recursive Self-Improvement Agents sind im Produktivbetrieb kein Hype: Sie bringen konkrete Herausforderungen wie Endlosschleifen, unerwartete Pipeline-Degradationen und komplexe Audit-Anforderungen, insbesondere unter DSGVO und BaFin-Regulierung
von Denis Shokhirev, Enterprise AI Architect aus Erlangen. Bei DennisCraft AI Studio habe ich in den letzten sechs Monaten 14 produktive AI-Agenten für DACH-B2B-Kunden auf Basis von Claude, Supabase, n8n, Doppler und selbstgehostetem Postgres entwickelt. Recursive Self-Improvement Agents sind im Produktivbetrieb kein Hype: Sie bringen konkrete Herausforderungen wie Endlosschleifen, unerwartete Pipeline-Degradationen und komplexe Audit-Anforderungen, insbesondere unter DSGVO und BaFin-Regulierung.
Architektur eines Recursive Self-Improvement Agents
Struktur und Komponenten
Recursive Self-Improvement beschreibt Agenten, die ihre eigenen Entscheidungs- und Datenpipelines iterativ analysieren und verbessern. In der Praxis gliedert sich die Architektur meist in folgende Komponenten:
| Komponente | Zweck | Erprobtes Tool |
|---|---|---|
| Executor | Pipeline ausführen | Claude Code, OpenAI SDK |
| Evaluator | Ergebnisse prüfen, Fehler erkennen | semgrep, bandit, gitleaks |
| Refiner | Verbesserungen vorschlagen | LLM mit Prompt-Engineering |
| Applier | Pipeline-Änderungen umsetzen | n8n, Supabase API |
Praxisbeispiel: Automatisiertes Code-Review
Für einen Fintech-Kunden entwickelte ich einen Agenten, der Backend-Skripte zur Performance-Optimierung automatisiert prüft und anpasst. Nach jedem Änderungsschritt erfolgten bandit- und semgrep-Scans auf CWE-89 (SQL-Injection) und weitere Schwachstellen. Der Kreislauf lief, bis alle SLA- und Sicherheitsmetriken stabil erfüllt waren.
import semgrep
from anthropic import Anthropic
from n8n_sdk import WorkflowApi
def analyze_code(code):
findings = semgrep.run(code)
return findings
def propose_improvements(code, findings):
client = Anthropic()
prompt = f"Code: {code}\nFindings: {findings}\nSuggest improvement:"
resp = client.completions.create(prompt=prompt)
return resp.completion
def apply_patch(workflow_id, patch):
api = WorkflowApi()
api.update_workflow(workflow_id, patch)
Typische Stolpersteine bei der Umsetzung
1. Endlosschleifen und Pipeline-Degradation
Recursive Agents können in unkontrollierte Verbesserungsschleifen geraten: Fehlerhafte Änderungen erzeugen neue Fehler und führen zu weiteren "Optimierungen". In einem Projekt modifizierte sich eine Pipeline 17 Mal über Nacht, bevor in n8n die Iterationsbegrenzung und ein Rollback griffen.
2. Stabilität und Rollback-Strategien
Rollback und Versionierung sind für den Produktivbetrieb unverzichtbar. Ich setze Supabase ein, um jede Pipeline-Änderung mit Checksum und Metadaten zu speichern. Bei Problemen erfolgt ein automatischer Rücksprung auf die letzte stabile Revision.
3. Sicherheit von selbstgenerierten Änderungen
LLM-Agenten erzeugen häufig unsichere Muster: In meinen letzten drei Projekten traten SQL-Injection-Pattern und nicht autorisierte API-Aufrufe auf – trotz Prompt-Guardrails. Nur statische Werkzeuge wie bandit und semgrep erkennen solche Probleme vor Produktivsetzung zuverlässig. Laut einer Stanford-Studie (Zhu et al., 2023, arxiv.org/abs/2307.03711) enthalten 38% des LLM-generierten Python-Codes mindestens einen Security-Bug.
Compliance-Anforderungen: Audit und Nachvollziehbarkeit
Audit Trail und Rückverfolgbarkeit
Im DACH-Raum – speziell in Logistik und Fintech – ist eine lückenlose Dokumentation jeder Agenten-Aktion Pflicht (DSGVO, BaFin). Ich implementiere vollständige Audit Trails in selbstgehostetem Postgres und SIEM-Integration, um jeden Pipeline-Schritt für Prüfungen rekonstruierbar zu machen.
Beispiel: Audit-Trail-Tabellenschema
CREATE TABLE audit_trail (
id SERIAL PRIMARY KEY,
agent_id UUID,
action VARCHAR(255),
before_state JSONB,
after_state JSONB,
timestamp TIMESTAMPTZ DEFAULT now()
);
Pragmatische Kontrollmuster für Self-Improvement
Mehrstufige Guardrails
Im Produktivbetrieb setze ich auf mehrere Schutzmechanismen:
- Maximale Iterationszahl (meist 5 Verbesserungsschritte)
- Timeouts pro Schritt
- Sofortiger Rollback bei Monitoring-Alarm
In n8n sind dazu eigene Workflow-Nodes integriert, die Fortschritt und Notfall-Stopps steuern.
Manuelle Freigabestufen
Für kritische Pipeline-Änderungen ist immer eine manuelle Freigabe über Web-Interface Pflicht. Erst danach setzt der Agent Self-Improvement fort.
FAQ
Welcher Stack ist für recursive Self-Improvement Agents praxistauglich?
Claude Code für Code-Analyse, Supabase für Zustand/Versionierung, n8n für Orchestrierung, sowie bandit und semgrep für Security-Scans. Diese Kombination ist im regulierten Umfeld erprobt.
Wie lassen sich Endlosschleifen verhindern?
Setzen Sie Iterationslimits, Checkpoints und manuelle Freigaben an kritischen Stellen ein. Andernfalls riskieren Sie Korrumpierung und Instabilität der Pipeline.
Wie prüfen Sie die Sicherheit von Agent-Änderungen?
Durch statische Analysen mit semgrep und bandit bei jedem Schritt und durch vollständigen Audit Trail. Compliance ist ohne diese Maßnahmen nicht erreichbar.
Wie gelingt Rollback bei Pipeline-Fehlern?
Mit Versionierung in Supabase oder Postgres lassen sich alte Pipeline-Stände bei Fehlern sofort wiederherstellen.
Können LLM-Agenten ohne menschliche Kontrolle produktiv laufen?
Im regulierten Produktivbetrieb nein. Auch mit Guardrails und statischer Prüfung braucht es manuelle Kontrolle bei kritischen Änderungen.
In welcher Phase Ihres Self-Improvement-Pipelines entstehen die meisten Produktionsfehler – bei der Patch-Generierung, Validierung oder Anwendung? Schreiben Sie mir dazu. Ich biete für DACH-Architekten einen kostenfreien 30-Minuten Stack-Check für KI-Lösungen in regulierten Branchen. Kontaktieren Sie mich auf LinkedIn oder via @ger_dennis_ai.
Turn your process into an AI system
Fixed price. Production quality. DACH B2B focus.