2026-04-0110 min

OpenClaw Orchestrator-Muster: Wie du mit Opus + Sonnet Sub-Agents 80% deiner Token sparst

OpenClawSub-AgentsToken OptimizationClaudeOrchestrationCost

Der Tweet, der das ausgelöst hat

Jemand postete das heute früh und erreichte in unter 10 Minuten 98 Impressionen — für einen OpenClaw-Thread quasi viral:

> *"Der größte Token-Sparer, über den niemand redet: Schwere Tasks an Sub-Agents auslagern statt alles in einem Gespräch zu halten. Ich betreibe OpenClaw mit Opus als Orchestrator und Sonnet Sub-Agents für Coding — Hauptkontext bleibt winzig, während Sub-Agents Token in isolierten Sessions verbrennen."*

Absolut richtig — und etwas, das die OpenClaw-Dokumentation zu wenig erklärt. Lass uns das ändern.

---

Das Problem: Kontext-Rot ist teuer

Wenn du OpenClaw schon eine Weile betreibst, kennst du wahrscheinlich dieses Muster:

1. Du bittest deinen Agent, etwas Komplexes zu tun

2. Der Agent arbeitet sich in deiner Hauptchat-Session durch

3. Das Gespräch wird länger und länger

4. Antworten werden langsamer und teurer

5. Irgendwann beginnt der Agent, Dinge aus 30 Nachrichten vorhin zu vergessen

Das ist Kontext-Rot — und es kostet dich bei jeder einzelnen Anfrage Geld, weil jede Nachricht im Thread bei jeder neuen Anfrage erneut an das Modell gesendet wird.

Ein 50-Nachrichten-Gespräch mit Code-Snippets kann leicht 100k Token *pro Antwort* erreichen. Beim Opus-Preis summiert sich das schnell.

---

Die Lösung: Orchestrator + Sub-Agent-Architektur

Die Lösung ist konzeptionell einfach:

Orchestrator (Opus oder dein Haupt-Agent): Hält den übergeordneten Plan, Benutzerpräferenzen, Entscheidungen. Kontext bleibt klein — nur Anweisungen und Ergebnisse.

Sub-Agents (Sonnet oder günstigere Modelle): Erledigen die eigentliche schwere Arbeit in isolierten Sessions. Sie verbrennen Token in einem frischen Kontext und geben dann eine Zusammenfassung zurück.

Dein Hauptkontext sammelt nie die unordentlichen Zwischenschritte an. Er sieht nur den sauberen Output.

So sieht das in der Praxis aus:

```

Haupt-Session (Opus):

"Hey, refaktoriere das Auth-Modul auf JWT"

→ startet Sonnet Sub-Agent mit vollem Codebase-Kontext

→ Sub-Agent arbeitet isoliert (5000 Token Hin und Her)

→ gibt zurück: "Fertig. 3 Dateien geändert, hier eine Zusammenfassung."

→ Haupt-Session gewinnt 200 Token, nicht 5000

```

---

Einrichtung in OpenClaw

OpenClaw hat First-Class-Support dafür über `sessions_spawn`. Hier das grundlegende Muster für deine SOUL.md oder Agent-Anweisungen:

```

Wenn ein Task komplex ist oder viele Schritte erfordert:

1. Ziel klar zusammenfassen

2. sessions_spawn verwenden, um einen isolierten Sub-Agent zu erstellen

3. Ziel + notwendigen Kontext als Task übergeben

4. Auf Ergebnis warten, dann sauber zusammenfassen

```

Der entscheidende Punkt: Du kontrollierst, welchen Kontext der Sub-Agent bekommt. Du lädst nicht deinen gesamten Gesprächsverlauf hinein. Du schreibst ein sauberes, fokussiertes Briefing.

Beispiel: Coding Sub-Agent

In der AGENTS.md oder den Anweisungen deines Haupt-Agents:

```

Für Coding-Tasks mit mehr als 3 Datei-Edits:

Sub-Agent mit runtime="acp" und Coding-Agent-ID starten

Übergeben: Repo-Pfad, Task-Beschreibung, Akzeptanzkriterien

NICHT übergeben: den gesamten Gesprächsverlauf

Empfangen: Zusammenfassung der Änderungen + eventuelle Blocker

```

Genau das beschrieb der Tweet — Opus bleibt das Gehirn, Sonnet erledigt die praktische Arbeit.

---

Modellauswahl nach Task-Typ

Nicht jeder Task braucht dasselbe Modell. OpenClaw erlaubt dir, das Modell pro Sub-Agent-Spawn anzugeben. Hier eine praktische Übersicht:

| Task | Empfohlenes Modell | Warum |

|------|-----------------|-----|

| Planung / Entscheidungen | Opus 4.x | Braucht tiefes Reasoning |

| Code schreiben | Sonnet 4.x | Schnell, günstig, leistungsfähig |

| Einfache Abfragen | Haiku / mini | Fast kostenlos, schnell |

| Lange Dokumentenanalyse | Sonnet 4.x | Gute Kontextverarbeitung |

| Kreatives Schreiben | Sonnet 4.x | Solide Qualität, gutes Preis-Leistungs-Verhältnis |

Der Tweet erwähnte ein $50/Monat-Setup: Codex mini als Haupt-Brain, MiniMax für tägliche Ausführung, Opus für Feature-Planung. Das ist das Orchestrator-Muster, angewendet auf Kostenoptimierung.

---

Was dein Orchestrator speichert

Die Haupt-Session sollte nur Entscheidungen und Ergebnisse speichern, nicht den Prozess:

Im Hauptkontext speichern (oder MEMORY.md):

Endergebnisse ("Auth-Modul verwendet jetzt JWT, auf Staging deployed")

Getroffene Entscheidungen ("RS256 statt HS256 gewählt wegen Multi-Service-Setup")

Blocker und nächste Schritte

NICHT im Hauptkontext speichern:

Schritt-für-Schritt-Ausführungslogs

Zwischenentwürfe von Code

Debug-Output von Sub-Agents

Diese Disziplin hält deinen Orchestrator-Kontext langfristig schlank.

---

Die Token-Mathematik

Konkret: Angenommen, du hast einen Coding-Task mit:

10 Dateien lesen (~8.000 Token)

8 Runden Debugging (~12.000 Token)

Abschließende Zusammenfassung (~500 Token)

Ohne Sub-Agents:

Alle 20.500 Token sammeln sich in deiner Haupt-Session an. Jede zukünftige Nachricht kostet diese 20.500 Token plus alles, was danach kommt.

Mit Sub-Agents:

Die 20.000 Token Arbeit passieren isoliert. Deine Haupt-Session gewinnt nur die 500-Token-Zusammenfassung.

Bei 10 solchen Tasks ist der Unterschied:

Ohne Sub-Agents: **200.000+ Token** im Hauptkontext

Mit Sub-Agents: **5.000 Token** im Hauptkontext

Beim Opus-Preis (~$15/Million Input-Token) ist das ein Unterschied von etwa $2,93 pro Antwort nach 10 Tasks. Bei 50 Anfragen/Tag macht das $146/Tag vs. $7,50/Tag.

Das Orchestrator-Muster fühlt sich nicht nur sauberer an — es ist dramatisch günstiger.

---

Praktische SOUL.md-Ergänzungen

Füge diese Richtlinien zu deiner SOUL.md oder deinen Agent-Anweisungen hinzu, damit das automatisch läuft:

```

Task-Delegationsregeln

Jeder Coding-Task > 3 Dateien → Sub-Agent starten (runtime="acp")

Jeder Recherche-Task > 5 Webseiten → Sub-Agent starten

Jeder Task > 2 Minuten → Sub-Agent + Fortschrittsupdates senden

Immer ein SAUBERES Briefing an Sub-Agents übergeben, nicht den Gesprächsverlauf

Immer nur das ERGEBNIS im Hauptgedächtnis speichern, nicht den Prozess

```

---

Häufige Fehler

Fehler 1: Das gesamte Gespräch an den Sub-Agent übergeben

Du negierst alle Vorteile. Schreibe ein frisches Briefing. Der Sub-Agent muss nicht wissen, was du früher im Chat besprochen hast.

Fehler 2: Opus für Sub-Agents verwenden

Sonnet erledigt die große Mehrheit der Coding- und Ausführungsaufgaben problemlos. Behalte Opus für Planung, komplexes Reasoning und Entscheidungen, die tiefes Denken erfordern.

Fehler 3: Sub-Agent-Output nicht zusammenfassen

Wenn ein Sub-Agent 3.000 Token Output zurückgibt und du alles in den Hauptkontext lädst, hast du das Problem nur halb gelöst. Bitte den Sub-Agent zu zusammenfassen, oder fasse es selbst zusammen.

Fehler 4: Sub-Agents für triviale Tasks starten

Das Starten hat Overhead — Session-Erstellung, Kontext-Loading usw. Für eine schnelle Frage einfach in der Haupt-Session antworten. Sub-Agents sind für schwere Arbeit.

---

Das $50/Monat-Setup, das funktioniert

Zurück zum ursprünglichen Tweet — hier ist ein bewährtes $50/Monat-Setup:

Orchestrator: Codex 5.4/mini für $20/Monat als immer-aktives Haupt-Brain

Tägliche Ausführung: MiniMax M2.7 für $10/Monat für Routineaufgaben

Schwere Arbeit: Opus 4.6 für $20/Monat, bei Bedarf gestartet für komplexe Planung

Das Entscheidende: Opus ist nicht dein Always-On-Modell. Es wird nur bei echtem Bedarf gestartet, läuft isoliert und gibt ein sauberes Ergebnis zurück. Dein $20-Opus-Budget reicht viel weiter, wenn es nicht bei jedem Heartbeat Token verbrennt.

---

Schnellstart-Checkliste

1. ✅ Deine 3 teuersten wiederkehrenden Tasks identifizieren

2. ✅ Ein Sub-Agent-Briefing-Template für jeden schreiben

3. ✅ Delegationsregeln zur SOUL.md oder Agent-Anweisungen hinzufügen

4. ✅ Sonnet (oder günstiger) als Standard für Sub-Agent-Spawns setzen

5. ✅ Opus nur für Orchestrierung und komplexe Entscheidungen reservieren

6. ✅ Nach jedem Sub-Agent-Lauf nur das Ergebnis im Hauptgedächtnis speichern

Dein Hauptkontext sollte beim normalen Tagesbetrieb unter 20.000 Token bleiben. Wenn er regelmäßig 80.000+ erreicht, brauchst du Sub-Agents.

Alles hier funktioniert mit einem Standard-OpenClaw-Setup — keine Plugins, keine extra Abhängigkeiten.

Full setup documented in the OpenClaw Setup Playbook. 🇬🇧

Mehr erfahren?

Unser Playbook enthält 18 detaillierte Kapitel — komplett auf Deutsch.

Zum Playbook