Welches KI-Modell für welchen Agenten? So wählst du clever aus
Das Problem mit dem „besten Modell für alles"
Als wir unser erstes Multi-Agenten-Setup aufgebaut haben, war die Konfiguration einfach: alle Agenten auf Claude Opus. Das Stärkste, das Teuerste — sicher ist sicher.
Nach einer Woche kam die API-Rechnung. Für sechs Agenten, die rund um die Uhr arbeiten, war der Betrag... deutlich höher als erwartet.
Die Erkenntnis: Nicht jede Aufgabe braucht das leistungsstärkste Modell. Wenn Alex meinen Kalender durchsucht und mir sagt, ob ich morgen einen Termin habe — dafür braucht es keine 200-Token-pro-Sekunde-Intelligenz. Und Peter, unser Coding-Agent, der komplexe TypeScript-Architekturen reviewt — der braucht tatsächlich das Beste, was verfügbar ist.
Das Ergebnis unserer Überarbeitung: 60% weniger API-Kosten bei gleicher oder besserer Qualität.
---
Die Grundidee: Tasks klassifizieren
Bevor man Modelle zuweist, muss man verstehen, was jeder Agent tatsächlich tut. Wir haben unsere Agenten in drei Kategorien eingeteilt:
Kategorie 1: Reasoning-intensive Aufgaben
Diese Aufgaben brauchen tiefes Denken, mehrstufige Schlussfolgerungen, Code-Analyse oder kreative Qualitätsarbeit.
Beispiele:
Empfehlenswerte Modelle: Claude Opus 4.5+, GPT-4o, Gemini Ultra
Kategorie 2: Strukturierte, regelbasierte Aufgaben
Diese Aufgaben folgen klaren Mustern. Die Eingabe ist strukturiert, die Ausgabe ist vorhersehbar, Fehler sind gering.
Beispiele:
Empfehlenswerte Modelle: Claude Sonnet 4.5, GPT-4o Mini, Gemini Flash
Kategorie 3: Einfache Ausführung
Aufgaben, bei denen das Modell fast nur als Interface fungiert: Befehl empfangen, Tool aufrufen, Ergebnis zurückgeben.
Beispiele:
Empfehlenswerte Modelle: Claude Haiku, GPT-4o Mini, Gemini Flash 8B
---
Wie man Modelle in OpenClaw konfiguriert
OpenClaw erlaubt es, das Modell pro Agent in `~/.openclaw/openclaw.json` (oder `openclaw.json5`) zu setzen. Die Konfiguration sieht so aus:
```json
{
"agents": {
"sam": {
"model": "anthropic/claude-opus-4-5",
"workspace": "/home/sam/.openclaw/workspace"
},
"peter": {
"model": "anthropic/claude-opus-4-5",
"workspace": "/home/peter/.openclaw/workspace"
},
"maya": {
"model": "anthropic/claude-sonnet-4-5",
"workspace": "/home/maya/.openclaw/workspace"
},
"alex": {
"model": "anthropic/claude-haiku-3-5",
"workspace": "/home/alex/.openclaw/workspace"
},
"iris": {
"model": "anthropic/claude-sonnet-4-5",
"workspace": "/home/iris/.openclaw/workspace"
},
"atlas": {
"model": "anthropic/claude-opus-4-5",
"workspace": "/home/atlas/.openclaw/workspace"
}
}
}
```
Alternativ lässt sich das Modell pro Agent auch über eine Umgebungsvariable in der Docker-Compose-Datei setzen:
```yaml
services:
alex:
image: openclaw/agent:latest
environment:
- OPENCLAW_MODEL=anthropic/claude-haiku-3-5
- OPENCLAW_AGENT_NAME=alex
volumes:
- /home/alex/.openclaw/workspace:/workspace
```
Beide Methoden funktionieren. Wir bevorzugen die JSON-Konfiguration, weil sie alle Agenten zentral dokumentiert.
---
Unser echtes Setup: Die 6-Agenten-Modell-Matrix
Hier ist genau, was wir verwenden — keine Theorie, das echte Setup:
| Agent | Aufgabe | Modell | Begründung |
|-------|---------|--------|------------|
| Sam (Teamlead) | Delegation, Planung, Blog | Claude Opus 4.5 | Komplexe Koordination, kreatives Schreiben |
| Peter (Coding) | PR-Reviews, Tests, Bugs | Claude Opus 4.5 | Architekturverständnis, Reasoning |
| Maya (Marketing) | Texte, Kampagnen, SEO | Claude Sonnet 4.5 | Gute Qualität, 3× günstiger als Opus |
| Alex (Admin) | Kalender, Reminders, Tasks | Claude Haiku 3.5 | Strukturierte Tasks, keine Tiefe nötig |
| Iris (Research) | Recherche, Synthese, Reports | Claude Sonnet 4.5 | Reasoning + Cost-Balance |
| Atlas (CEO-Support) | Strategie, Reports, Briefe | Claude Opus 4.5 | CEO-Output muss makellos sein |
Kostenvergleich (geschätzt, bei moderater Nutzung):
---
Woran man merkt, dass ein Agent das falsche Modell hat
Anzeichen für „Modell zu schwach":
Anzeichen für „Modell überdimensioniert":
Die Lösung: Jede Woche einen kurzen Blick auf das Verhältnis aus Token-Verbrauch und Output-Qualität. Bei Alex haben wir nach zwei Wochen gemerkt, dass Haiku für 95% seiner Aufgaben ausreicht.
---
Dynamisches Modell-Switching: Das nächste Level
Fortgeschrittene Setups können das Modell innerhalb eines Agenten situationsabhängig wechseln. OpenClaw unterstützt das über den Session-Status-Override:
```
# Im Chat mit dem Agenten:
/model anthropic/claude-opus-4-5
# Oder programmatisch in einer Cron-Job-Anweisung:
"Für diese Aufgabe nutze /model anthropic/claude-opus-4-5 — komplexe Analyse nötig."
```
Wir verwenden das selten — hauptsächlich wenn Iris einen besonders komplexen Recherche-Auftrag bekommt und kurzzeitig auf Opus hochschalten soll. Die Standardkonfiguration bleibt Sonnet.
---
Anbieter mischen: OpenAI + Anthropic + Gemini
OpenClaw unterstützt mehrere Provider gleichzeitig. Das bedeutet: Man muss sich nicht auf einen Anbieter festlegen.
```json
{
"agents": {
"maya": {
"model": "openai/gpt-4o-mini"
},
"alex": {
"model": "google/gemini-flash-1.5"
}
}
}
```
Wichtig: Jeder Provider braucht seinen eigenen API-Key in der `.env`:
```bash
ANTHROPIC_API_KEY=sk-ant-...
OPENAI_API_KEY=sk-...
GOOGLE_API_KEY=...
```
Wir haben mit gemischten Providern experimentiert, aber letztlich bei Anthropic für alle Agenten geblieben — konsistente Qualität und ein einziger Invoice ist operativ einfacher.
---
Praxis-Tipp: Modell-Entscheidung in drei Fragen
Wenn du dir nicht sicher bist, welches Modell für einen Agenten richtig ist, stelle dir diese drei Fragen:
1. Muss der Agent zwischen widersprüchlichen Informationen abwägen?
→ Ja → Mindestens Sonnet, besser Opus
2. Sind die Aufgaben des Agenten größtenteils vorhersehbar und strukturiert?
→ Ja → Haiku oder Flash reicht
3. Sieht ein Mensch den Output direkt (CEO, Kunde, öffentlich)?
→ Ja → Kein Kompromiss: Opus
Diese drei Fragen haben uns geholfen, unser Setup von „alle Opus" zu einem durchdachten Mix zu entwickeln.
---
Das vollständige Setup
Die exakte Konfiguration — openclaw.json, Docker Compose mit Modell-Variablen, und die Kriterien, nach denen wir jedes Modell ausgewählt haben — ist im OpenClaw Setup Playbook dokumentiert.
Inklusive dem Monitoring-Setup, mit dem wir Token-Verbrauch pro Agent tracken und erkennen, wenn ein Modell zu viel oder zu wenig leistet.
18 Kapitel, basierend auf echter Produktionserfahrung.
Komplett auf Deutsch verfügbar. 🇩🇪