OpenClaw Orchestrator-Muster: Wie du mit Opus + Sonnet Sub-Agents 80% deiner Token sparst
Der Tweet, der das ausgelöst hat
Jemand postete das heute früh und erreichte in unter 10 Minuten 98 Impressionen — für einen OpenClaw-Thread quasi viral:
> *"Der größte Token-Sparer, über den niemand redet: Schwere Tasks an Sub-Agents auslagern statt alles in einem Gespräch zu halten. Ich betreibe OpenClaw mit Opus als Orchestrator und Sonnet Sub-Agents für Coding — Hauptkontext bleibt winzig, während Sub-Agents Token in isolierten Sessions verbrennen."*
Absolut richtig — und etwas, das die OpenClaw-Dokumentation zu wenig erklärt. Lass uns das ändern.
---
Das Problem: Kontext-Rot ist teuer
Wenn du OpenClaw schon eine Weile betreibst, kennst du wahrscheinlich dieses Muster:
1. Du bittest deinen Agent, etwas Komplexes zu tun
2. Der Agent arbeitet sich in deiner Hauptchat-Session durch
3. Das Gespräch wird länger und länger
4. Antworten werden langsamer und teurer
5. Irgendwann beginnt der Agent, Dinge aus 30 Nachrichten vorhin zu vergessen
Das ist Kontext-Rot — und es kostet dich bei jeder einzelnen Anfrage Geld, weil jede Nachricht im Thread bei jeder neuen Anfrage erneut an das Modell gesendet wird.
Ein 50-Nachrichten-Gespräch mit Code-Snippets kann leicht 100k Token *pro Antwort* erreichen. Beim Opus-Preis summiert sich das schnell.
---
Die Lösung: Orchestrator + Sub-Agent-Architektur
Die Lösung ist konzeptionell einfach:
Dein Hauptkontext sammelt nie die unordentlichen Zwischenschritte an. Er sieht nur den sauberen Output.
So sieht das in der Praxis aus:
```
Haupt-Session (Opus):
"Hey, refaktoriere das Auth-Modul auf JWT"
→ startet Sonnet Sub-Agent mit vollem Codebase-Kontext
→ Sub-Agent arbeitet isoliert (5000 Token Hin und Her)
→ gibt zurück: "Fertig. 3 Dateien geändert, hier eine Zusammenfassung."
→ Haupt-Session gewinnt 200 Token, nicht 5000
```
---
Einrichtung in OpenClaw
OpenClaw hat First-Class-Support dafür über `sessions_spawn`. Hier das grundlegende Muster für deine SOUL.md oder Agent-Anweisungen:
```
Wenn ein Task komplex ist oder viele Schritte erfordert:
1. Ziel klar zusammenfassen
2. sessions_spawn verwenden, um einen isolierten Sub-Agent zu erstellen
3. Ziel + notwendigen Kontext als Task übergeben
4. Auf Ergebnis warten, dann sauber zusammenfassen
```
Der entscheidende Punkt: Du kontrollierst, welchen Kontext der Sub-Agent bekommt. Du lädst nicht deinen gesamten Gesprächsverlauf hinein. Du schreibst ein sauberes, fokussiertes Briefing.
Beispiel: Coding Sub-Agent
In der AGENTS.md oder den Anweisungen deines Haupt-Agents:
```
Für Coding-Tasks mit mehr als 3 Datei-Edits:
```
Genau das beschrieb der Tweet — Opus bleibt das Gehirn, Sonnet erledigt die praktische Arbeit.
---
Modellauswahl nach Task-Typ
Nicht jeder Task braucht dasselbe Modell. OpenClaw erlaubt dir, das Modell pro Sub-Agent-Spawn anzugeben. Hier eine praktische Übersicht:
| Task | Empfohlenes Modell | Warum |
|------|-----------------|-----|
| Planung / Entscheidungen | Opus 4.x | Braucht tiefes Reasoning |
| Code schreiben | Sonnet 4.x | Schnell, günstig, leistungsfähig |
| Einfache Abfragen | Haiku / mini | Fast kostenlos, schnell |
| Lange Dokumentenanalyse | Sonnet 4.x | Gute Kontextverarbeitung |
| Kreatives Schreiben | Sonnet 4.x | Solide Qualität, gutes Preis-Leistungs-Verhältnis |
Der Tweet erwähnte ein $50/Monat-Setup: Codex mini als Haupt-Brain, MiniMax für tägliche Ausführung, Opus für Feature-Planung. Das ist das Orchestrator-Muster, angewendet auf Kostenoptimierung.
---
Was dein Orchestrator speichert
Die Haupt-Session sollte nur Entscheidungen und Ergebnisse speichern, nicht den Prozess:
Im Hauptkontext speichern (oder MEMORY.md):
NICHT im Hauptkontext speichern:
Diese Disziplin hält deinen Orchestrator-Kontext langfristig schlank.
---
Die Token-Mathematik
Konkret: Angenommen, du hast einen Coding-Task mit:
Ohne Sub-Agents:
Alle 20.500 Token sammeln sich in deiner Haupt-Session an. Jede zukünftige Nachricht kostet diese 20.500 Token plus alles, was danach kommt.
Mit Sub-Agents:
Die 20.000 Token Arbeit passieren isoliert. Deine Haupt-Session gewinnt nur die 500-Token-Zusammenfassung.
Bei 10 solchen Tasks ist der Unterschied:
Beim Opus-Preis (~$15/Million Input-Token) ist das ein Unterschied von etwa $2,93 pro Antwort nach 10 Tasks. Bei 50 Anfragen/Tag macht das $146/Tag vs. $7,50/Tag.
Das Orchestrator-Muster fühlt sich nicht nur sauberer an — es ist dramatisch günstiger.
---
Praktische SOUL.md-Ergänzungen
Füge diese Richtlinien zu deiner SOUL.md oder deinen Agent-Anweisungen hinzu, damit das automatisch läuft:
```
Task-Delegationsregeln
```
---
Häufige Fehler
Fehler 1: Das gesamte Gespräch an den Sub-Agent übergeben
Du negierst alle Vorteile. Schreibe ein frisches Briefing. Der Sub-Agent muss nicht wissen, was du früher im Chat besprochen hast.
Fehler 2: Opus für Sub-Agents verwenden
Sonnet erledigt die große Mehrheit der Coding- und Ausführungsaufgaben problemlos. Behalte Opus für Planung, komplexes Reasoning und Entscheidungen, die tiefes Denken erfordern.
Fehler 3: Sub-Agent-Output nicht zusammenfassen
Wenn ein Sub-Agent 3.000 Token Output zurückgibt und du alles in den Hauptkontext lädst, hast du das Problem nur halb gelöst. Bitte den Sub-Agent zu zusammenfassen, oder fasse es selbst zusammen.
Fehler 4: Sub-Agents für triviale Tasks starten
Das Starten hat Overhead — Session-Erstellung, Kontext-Loading usw. Für eine schnelle Frage einfach in der Haupt-Session antworten. Sub-Agents sind für schwere Arbeit.
---
Das $50/Monat-Setup, das funktioniert
Zurück zum ursprünglichen Tweet — hier ist ein bewährtes $50/Monat-Setup:
Das Entscheidende: Opus ist nicht dein Always-On-Modell. Es wird nur bei echtem Bedarf gestartet, läuft isoliert und gibt ein sauberes Ergebnis zurück. Dein $20-Opus-Budget reicht viel weiter, wenn es nicht bei jedem Heartbeat Token verbrennt.
---
Schnellstart-Checkliste
1. ✅ Deine 3 teuersten wiederkehrenden Tasks identifizieren
2. ✅ Ein Sub-Agent-Briefing-Template für jeden schreiben
3. ✅ Delegationsregeln zur SOUL.md oder Agent-Anweisungen hinzufügen
4. ✅ Sonnet (oder günstiger) als Standard für Sub-Agent-Spawns setzen
5. ✅ Opus nur für Orchestrierung und komplexe Entscheidungen reservieren
6. ✅ Nach jedem Sub-Agent-Lauf nur das Ergebnis im Hauptgedächtnis speichern
Dein Hauptkontext sollte beim normalen Tagesbetrieb unter 20.000 Token bleiben. Wenn er regelmäßig 80.000+ erreicht, brauchst du Sub-Agents.
Alles hier funktioniert mit einem Standard-OpenClaw-Setup — keine Plugins, keine extra Abhängigkeiten.
Full setup documented in the OpenClaw Setup Playbook. 🇬🇧