Alle Artikel
2026-04-0110 min

OpenClaw Orchestrator-Muster: Wie du mit Opus + Sonnet Sub-Agents 80% deiner Token sparst

OpenClawSub-AgentsToken OptimizationClaudeOrchestrationCost

Der Tweet, der das ausgelöst hat

Jemand postete das heute früh und erreichte in unter 10 Minuten 98 Impressionen — für einen OpenClaw-Thread quasi viral:

> *"Der größte Token-Sparer, über den niemand redet: Schwere Tasks an Sub-Agents auslagern statt alles in einem Gespräch zu halten. Ich betreibe OpenClaw mit Opus als Orchestrator und Sonnet Sub-Agents für Coding — Hauptkontext bleibt winzig, während Sub-Agents Token in isolierten Sessions verbrennen."*

Absolut richtig — und etwas, das die OpenClaw-Dokumentation zu wenig erklärt. Lass uns das ändern.

---

Das Problem: Kontext-Rot ist teuer

Wenn du OpenClaw schon eine Weile betreibst, kennst du wahrscheinlich dieses Muster:

1. Du bittest deinen Agent, etwas Komplexes zu tun

2. Der Agent arbeitet sich in deiner Hauptchat-Session durch

3. Das Gespräch wird länger und länger

4. Antworten werden langsamer und teurer

5. Irgendwann beginnt der Agent, Dinge aus 30 Nachrichten vorhin zu vergessen

Das ist Kontext-Rot — und es kostet dich bei jeder einzelnen Anfrage Geld, weil jede Nachricht im Thread bei jeder neuen Anfrage erneut an das Modell gesendet wird.

Ein 50-Nachrichten-Gespräch mit Code-Snippets kann leicht 100k Token *pro Antwort* erreichen. Beim Opus-Preis summiert sich das schnell.

---

Die Lösung: Orchestrator + Sub-Agent-Architektur

Die Lösung ist konzeptionell einfach:

  • Orchestrator (Opus oder dein Haupt-Agent): Hält den übergeordneten Plan, Benutzerpräferenzen, Entscheidungen. Kontext bleibt klein — nur Anweisungen und Ergebnisse.
  • Sub-Agents (Sonnet oder günstigere Modelle): Erledigen die eigentliche schwere Arbeit in isolierten Sessions. Sie verbrennen Token in einem frischen Kontext und geben dann eine Zusammenfassung zurück.
  • Dein Hauptkontext sammelt nie die unordentlichen Zwischenschritte an. Er sieht nur den sauberen Output.

    So sieht das in der Praxis aus:

    ```

    Haupt-Session (Opus):

    "Hey, refaktoriere das Auth-Modul auf JWT"

    → startet Sonnet Sub-Agent mit vollem Codebase-Kontext

    → Sub-Agent arbeitet isoliert (5000 Token Hin und Her)

    → gibt zurück: "Fertig. 3 Dateien geändert, hier eine Zusammenfassung."

    → Haupt-Session gewinnt 200 Token, nicht 5000

    ```

    ---

    Einrichtung in OpenClaw

    OpenClaw hat First-Class-Support dafür über `sessions_spawn`. Hier das grundlegende Muster für deine SOUL.md oder Agent-Anweisungen:

    ```

    Wenn ein Task komplex ist oder viele Schritte erfordert:

    1. Ziel klar zusammenfassen

    2. sessions_spawn verwenden, um einen isolierten Sub-Agent zu erstellen

    3. Ziel + notwendigen Kontext als Task übergeben

    4. Auf Ergebnis warten, dann sauber zusammenfassen

    ```

    Der entscheidende Punkt: Du kontrollierst, welchen Kontext der Sub-Agent bekommt. Du lädst nicht deinen gesamten Gesprächsverlauf hinein. Du schreibst ein sauberes, fokussiertes Briefing.

    Beispiel: Coding Sub-Agent

    In der AGENTS.md oder den Anweisungen deines Haupt-Agents:

    ```

    Für Coding-Tasks mit mehr als 3 Datei-Edits:

  • Sub-Agent mit runtime="acp" und Coding-Agent-ID starten
  • Übergeben: Repo-Pfad, Task-Beschreibung, Akzeptanzkriterien
  • NICHT übergeben: den gesamten Gesprächsverlauf
  • Empfangen: Zusammenfassung der Änderungen + eventuelle Blocker
  • ```

    Genau das beschrieb der Tweet — Opus bleibt das Gehirn, Sonnet erledigt die praktische Arbeit.

    ---

    Modellauswahl nach Task-Typ

    Nicht jeder Task braucht dasselbe Modell. OpenClaw erlaubt dir, das Modell pro Sub-Agent-Spawn anzugeben. Hier eine praktische Übersicht:

    | Task | Empfohlenes Modell | Warum |

    |------|-----------------|-----|

    | Planung / Entscheidungen | Opus 4.x | Braucht tiefes Reasoning |

    | Code schreiben | Sonnet 4.x | Schnell, günstig, leistungsfähig |

    | Einfache Abfragen | Haiku / mini | Fast kostenlos, schnell |

    | Lange Dokumentenanalyse | Sonnet 4.x | Gute Kontextverarbeitung |

    | Kreatives Schreiben | Sonnet 4.x | Solide Qualität, gutes Preis-Leistungs-Verhältnis |

    Der Tweet erwähnte ein $50/Monat-Setup: Codex mini als Haupt-Brain, MiniMax für tägliche Ausführung, Opus für Feature-Planung. Das ist das Orchestrator-Muster, angewendet auf Kostenoptimierung.

    ---

    Was dein Orchestrator speichert

    Die Haupt-Session sollte nur Entscheidungen und Ergebnisse speichern, nicht den Prozess:

    Im Hauptkontext speichern (oder MEMORY.md):

  • Endergebnisse ("Auth-Modul verwendet jetzt JWT, auf Staging deployed")
  • Getroffene Entscheidungen ("RS256 statt HS256 gewählt wegen Multi-Service-Setup")
  • Blocker und nächste Schritte
  • NICHT im Hauptkontext speichern:

  • Schritt-für-Schritt-Ausführungslogs
  • Zwischenentwürfe von Code
  • Debug-Output von Sub-Agents
  • Diese Disziplin hält deinen Orchestrator-Kontext langfristig schlank.

    ---

    Die Token-Mathematik

    Konkret: Angenommen, du hast einen Coding-Task mit:

  • 10 Dateien lesen (~8.000 Token)
  • 8 Runden Debugging (~12.000 Token)
  • Abschließende Zusammenfassung (~500 Token)
  • Ohne Sub-Agents:

    Alle 20.500 Token sammeln sich in deiner Haupt-Session an. Jede zukünftige Nachricht kostet diese 20.500 Token plus alles, was danach kommt.

    Mit Sub-Agents:

    Die 20.000 Token Arbeit passieren isoliert. Deine Haupt-Session gewinnt nur die 500-Token-Zusammenfassung.

    Bei 10 solchen Tasks ist der Unterschied:

  • Ohne Sub-Agents: **200.000+ Token** im Hauptkontext
  • Mit Sub-Agents: **5.000 Token** im Hauptkontext
  • Beim Opus-Preis (~$15/Million Input-Token) ist das ein Unterschied von etwa $2,93 pro Antwort nach 10 Tasks. Bei 50 Anfragen/Tag macht das $146/Tag vs. $7,50/Tag.

    Das Orchestrator-Muster fühlt sich nicht nur sauberer an — es ist dramatisch günstiger.

    ---

    Praktische SOUL.md-Ergänzungen

    Füge diese Richtlinien zu deiner SOUL.md oder deinen Agent-Anweisungen hinzu, damit das automatisch läuft:

    ```

    Task-Delegationsregeln

  • Jeder Coding-Task > 3 Dateien → Sub-Agent starten (runtime="acp")
  • Jeder Recherche-Task > 5 Webseiten → Sub-Agent starten
  • Jeder Task > 2 Minuten → Sub-Agent + Fortschrittsupdates senden
  • Immer ein SAUBERES Briefing an Sub-Agents übergeben, nicht den Gesprächsverlauf
  • Immer nur das ERGEBNIS im Hauptgedächtnis speichern, nicht den Prozess
  • ```

    ---

    Häufige Fehler

    Fehler 1: Das gesamte Gespräch an den Sub-Agent übergeben

    Du negierst alle Vorteile. Schreibe ein frisches Briefing. Der Sub-Agent muss nicht wissen, was du früher im Chat besprochen hast.

    Fehler 2: Opus für Sub-Agents verwenden

    Sonnet erledigt die große Mehrheit der Coding- und Ausführungsaufgaben problemlos. Behalte Opus für Planung, komplexes Reasoning und Entscheidungen, die tiefes Denken erfordern.

    Fehler 3: Sub-Agent-Output nicht zusammenfassen

    Wenn ein Sub-Agent 3.000 Token Output zurückgibt und du alles in den Hauptkontext lädst, hast du das Problem nur halb gelöst. Bitte den Sub-Agent zu zusammenfassen, oder fasse es selbst zusammen.

    Fehler 4: Sub-Agents für triviale Tasks starten

    Das Starten hat Overhead — Session-Erstellung, Kontext-Loading usw. Für eine schnelle Frage einfach in der Haupt-Session antworten. Sub-Agents sind für schwere Arbeit.

    ---

    Das $50/Monat-Setup, das funktioniert

    Zurück zum ursprünglichen Tweet — hier ist ein bewährtes $50/Monat-Setup:

  • Orchestrator: Codex 5.4/mini für $20/Monat als immer-aktives Haupt-Brain
  • Tägliche Ausführung: MiniMax M2.7 für $10/Monat für Routineaufgaben
  • Schwere Arbeit: Opus 4.6 für $20/Monat, bei Bedarf gestartet für komplexe Planung
  • Das Entscheidende: Opus ist nicht dein Always-On-Modell. Es wird nur bei echtem Bedarf gestartet, läuft isoliert und gibt ein sauberes Ergebnis zurück. Dein $20-Opus-Budget reicht viel weiter, wenn es nicht bei jedem Heartbeat Token verbrennt.

    ---

    Schnellstart-Checkliste

    1. ✅ Deine 3 teuersten wiederkehrenden Tasks identifizieren

    2. ✅ Ein Sub-Agent-Briefing-Template für jeden schreiben

    3. ✅ Delegationsregeln zur SOUL.md oder Agent-Anweisungen hinzufügen

    4. ✅ Sonnet (oder günstiger) als Standard für Sub-Agent-Spawns setzen

    5. ✅ Opus nur für Orchestrierung und komplexe Entscheidungen reservieren

    6. ✅ Nach jedem Sub-Agent-Lauf nur das Ergebnis im Hauptgedächtnis speichern

    Dein Hauptkontext sollte beim normalen Tagesbetrieb unter 20.000 Token bleiben. Wenn er regelmäßig 80.000+ erreicht, brauchst du Sub-Agents.

    Alles hier funktioniert mit einem Standard-OpenClaw-Setup — keine Plugins, keine extra Abhängigkeiten.

    Full setup documented in the OpenClaw Setup Playbook. 🇬🇧

    Mehr erfahren?

    Unser Playbook enthält 18 detaillierte Kapitel — komplett auf Deutsch.

    Zum Playbook