Recursive Self-Improvement Agents: Architektur und Herausforderungen der Implementierung

von Denis Shokhirev, Enterprise AI Architect aus Erlangen. Bei DennisCraft AI Studio habe ich in den letzten sechs Monaten 14 produktive AI-Agenten für DACH-B2B-Kunden auf Basis von Claude, Supabase, n8n, Doppler und selbstgehostetem Postgres entwickelt. Recursive Self-Improvement Agents sind im Produktivbetrieb kein Hype: Sie bringen konkrete Herausforderungen wie Endlosschleifen, unerwartete Pipeline-Degradationen und komplexe Audit-Anforderungen, insbesondere unter DSGVO und BaFin-Regulierung.

Architektur eines Recursive Self-Improvement Agents

Struktur und Komponenten

Recursive Self-Improvement beschreibt Agenten, die ihre eigenen Entscheidungs- und Datenpipelines iterativ analysieren und verbessern. In der Praxis gliedert sich die Architektur meist in folgende Komponenten:

Komponente	Zweck	Erprobtes Tool
Executor	Pipeline ausführen	Claude Code, OpenAI SDK
Evaluator	Ergebnisse prüfen, Fehler erkennen	semgrep, bandit, gitleaks
Refiner	Verbesserungen vorschlagen	LLM mit Prompt-Engineering
Applier	Pipeline-Änderungen umsetzen	n8n, Supabase API

Praxisbeispiel: Automatisiertes Code-Review

Für einen Fintech-Kunden entwickelte ich einen Agenten, der Backend-Skripte zur Performance-Optimierung automatisiert prüft und anpasst. Nach jedem Änderungsschritt erfolgten bandit- und semgrep-Scans auf CWE-89 (SQL-Injection) und weitere Schwachstellen. Der Kreislauf lief, bis alle SLA- und Sicherheitsmetriken stabil erfüllt waren.


import semgrep
from anthropic import Anthropic
from n8n_sdk import WorkflowApi

def analyze_code(code):
    findings = semgrep.run(code)
    return findings

def propose_improvements(code, findings):
    client = Anthropic()
    prompt = f"Code: {code}\nFindings: {findings}\nSuggest improvement:"
    resp = client.completions.create(prompt=prompt)
    return resp.completion

def apply_patch(workflow_id, patch):
    api = WorkflowApi()
    api.update_workflow(workflow_id, patch)

Typische Stolpersteine bei der Umsetzung

1. Endlosschleifen und Pipeline-Degradation

Recursive Agents können in unkontrollierte Verbesserungsschleifen geraten: Fehlerhafte Änderungen erzeugen neue Fehler und führen zu weiteren "Optimierungen". In einem Projekt modifizierte sich eine Pipeline 17 Mal über Nacht, bevor in n8n die Iterationsbegrenzung und ein Rollback griffen.

2. Stabilität und Rollback-Strategien

Rollback und Versionierung sind für den Produktivbetrieb unverzichtbar. Ich setze Supabase ein, um jede Pipeline-Änderung mit Checksum und Metadaten zu speichern. Bei Problemen erfolgt ein automatischer Rücksprung auf die letzte stabile Revision.

3. Sicherheit von selbstgenerierten Änderungen

LLM-Agenten erzeugen häufig unsichere Muster: In meinen letzten drei Projekten traten SQL-Injection-Pattern und nicht autorisierte API-Aufrufe auf – trotz Prompt-Guardrails. Nur statische Werkzeuge wie bandit und semgrep erkennen solche Probleme vor Produktivsetzung zuverlässig. Laut einer Stanford-Studie (Zhu et al., 2023, arxiv.org/abs/2307.03711) enthalten 38% des LLM-generierten Python-Codes mindestens einen Security-Bug.

Compliance-Anforderungen: Audit und Nachvollziehbarkeit

Audit Trail und Rückverfolgbarkeit

Im DACH-Raum – speziell in Logistik und Fintech – ist eine lückenlose Dokumentation jeder Agenten-Aktion Pflicht (DSGVO, BaFin). Ich implementiere vollständige Audit Trails in selbstgehostetem Postgres und SIEM-Integration, um jeden Pipeline-Schritt für Prüfungen rekonstruierbar zu machen.

Beispiel: Audit-Trail-Tabellenschema


CREATE TABLE audit_trail (
  id SERIAL PRIMARY KEY,
  agent_id UUID,
  action VARCHAR(255),
  before_state JSONB,
  after_state JSONB,
  timestamp TIMESTAMPTZ DEFAULT now()
);

Pragmatische Kontrollmuster für Self-Improvement

Mehrstufige Guardrails

Im Produktivbetrieb setze ich auf mehrere Schutzmechanismen:

Maximale Iterationszahl (meist 5 Verbesserungsschritte)
Timeouts pro Schritt
Sofortiger Rollback bei Monitoring-Alarm

In n8n sind dazu eigene Workflow-Nodes integriert, die Fortschritt und Notfall-Stopps steuern.

Manuelle Freigabestufen

Für kritische Pipeline-Änderungen ist immer eine manuelle Freigabe über Web-Interface Pflicht. Erst danach setzt der Agent Self-Improvement fort.

FAQ

Welcher Stack ist für recursive Self-Improvement Agents praxistauglich?

Claude Code für Code-Analyse, Supabase für Zustand/Versionierung, n8n für Orchestrierung, sowie bandit und semgrep für Security-Scans. Diese Kombination ist im regulierten Umfeld erprobt.

Wie lassen sich Endlosschleifen verhindern?

Setzen Sie Iterationslimits, Checkpoints und manuelle Freigaben an kritischen Stellen ein. Andernfalls riskieren Sie Korrumpierung und Instabilität der Pipeline.

Wie prüfen Sie die Sicherheit von Agent-Änderungen?

Durch statische Analysen mit semgrep und bandit bei jedem Schritt und durch vollständigen Audit Trail. Compliance ist ohne diese Maßnahmen nicht erreichbar.

Wie gelingt Rollback bei Pipeline-Fehlern?

Mit Versionierung in Supabase oder Postgres lassen sich alte Pipeline-Stände bei Fehlern sofort wiederherstellen.

Können LLM-Agenten ohne menschliche Kontrolle produktiv laufen?

Im regulierten Produktivbetrieb nein. Auch mit Guardrails und statischer Prüfung braucht es manuelle Kontrolle bei kritischen Änderungen.

In welcher Phase Ihres Self-Improvement-Pipelines entstehen die meisten Produktionsfehler – bei der Patch-Generierung, Validierung oder Anwendung? Schreiben Sie mir dazu. Ich biete für DACH-Architekten einen kostenfreien 30-Minuten Stack-Check für KI-Lösungen in regulierten Branchen. Kontaktieren Sie mich auf LinkedIn oder via @ger_dennis_ai.