2026-03-168 min

Welches KI-Modell für welchen Agenten? So wählst du clever aus

LLMCost OptimizationConfigurationMulti-AgentOpenClaw

Das Problem mit dem „besten Modell für alles"

Als wir unser erstes Multi-Agenten-Setup aufgebaut haben, war die Konfiguration einfach: alle Agenten auf Claude Opus. Das Stärkste, das Teuerste — sicher ist sicher.

Nach einer Woche kam die API-Rechnung. Für sechs Agenten, die rund um die Uhr arbeiten, war der Betrag... deutlich höher als erwartet.

Die Erkenntnis: Nicht jede Aufgabe braucht das leistungsstärkste Modell. Wenn Alex meinen Kalender durchsucht und mir sagt, ob ich morgen einen Termin habe — dafür braucht es keine 200-Token-pro-Sekunde-Intelligenz. Und Peter, unser Coding-Agent, der komplexe TypeScript-Architekturen reviewt — der braucht tatsächlich das Beste, was verfügbar ist.

Das Ergebnis unserer Überarbeitung: 60% weniger API-Kosten bei gleicher oder besserer Qualität.

---

Die Grundidee: Tasks klassifizieren

Bevor man Modelle zuweist, muss man verstehen, was jeder Agent tatsächlich tut. Wir haben unsere Agenten in drei Kategorien eingeteilt:

Kategorie 1: Reasoning-intensive Aufgaben

Diese Aufgaben brauchen tiefes Denken, mehrstufige Schlussfolgerungen, Code-Analyse oder kreative Qualitätsarbeit.

Beispiele:

Code-Reviews mit Architektur-Kontext

Komplexe Recherche mit Synthese

Strategische Texterstellung (Blog-Posts, Proposals)

Fehlerdiagnose in komplexen Logs

Empfehlenswerte Modelle: Claude Opus 4.5+, GPT-4o, Gemini Ultra

Kategorie 2: Strukturierte, regelbasierte Aufgaben

Diese Aufgaben folgen klaren Mustern. Die Eingabe ist strukturiert, die Ausgabe ist vorhersehbar, Fehler sind gering.

Beispiele:

Kalender-Abfragen und Terminerinnerungen

E-Mail-Klassifizierung (wichtig / unwichtig / Spam)

Einfache Webhook-Trigger und API-Calls

Tägliche Status-Summaries aus strukturierten Daten

Empfehlenswerte Modelle: Claude Sonnet 4.5, GPT-4o Mini, Gemini Flash

Kategorie 3: Einfache Ausführung

Aufgaben, bei denen das Modell fast nur als Interface fungiert: Befehl empfangen, Tool aufrufen, Ergebnis zurückgeben.

Beispiele:

Dateien lesen und zusammenfassen

Einfache Datenbankabfragen weiterleiten

Heartbeat-Checks (ist der Server erreichbar?)

Benachrichtigungen weiterleiten

Empfehlenswerte Modelle: Claude Haiku, GPT-4o Mini, Gemini Flash 8B

---

Wie man Modelle in OpenClaw konfiguriert

OpenClaw erlaubt es, das Modell pro Agent in `~/.openclaw/openclaw.json` (oder `openclaw.json5`) zu setzen. Die Konfiguration sieht so aus:

```json

{

"agents": {

"sam": {

"model": "anthropic/claude-opus-4-5",

"workspace": "/home/sam/.openclaw/workspace"

"peter": {

"model": "anthropic/claude-opus-4-5",

"workspace": "/home/peter/.openclaw/workspace"

"maya": {

"model": "anthropic/claude-sonnet-4-5",

"workspace": "/home/maya/.openclaw/workspace"

"alex": {

"model": "anthropic/claude-haiku-3-5",

"workspace": "/home/alex/.openclaw/workspace"

"iris": {

"model": "anthropic/claude-sonnet-4-5",

"workspace": "/home/iris/.openclaw/workspace"

"atlas": {

"model": "anthropic/claude-opus-4-5",

"workspace": "/home/atlas/.openclaw/workspace"

}

```

Alternativ lässt sich das Modell pro Agent auch über eine Umgebungsvariable in der Docker-Compose-Datei setzen:

```yaml

services:

alex:

image: openclaw/agent:latest

environment:

- OPENCLAW_MODEL=anthropic/claude-haiku-3-5

- OPENCLAW_AGENT_NAME=alex

volumes:

- /home/alex/.openclaw/workspace:/workspace

```

Beide Methoden funktionieren. Wir bevorzugen die JSON-Konfiguration, weil sie alle Agenten zentral dokumentiert.

---

Unser echtes Setup: Die 6-Agenten-Modell-Matrix

Hier ist genau, was wir verwenden — keine Theorie, das echte Setup:

|-------|---------|--------|------------|

Kostenvergleich (geschätzt, bei moderater Nutzung):

Vor der Umstellung (alle Opus): ~€380/Monat

Nach der Umstellung (gemischte Modelle): ~€145/Monat

Einsparung: ~62%

---

Woran man merkt, dass ein Agent das falsche Modell hat

Anzeichen für „Modell zu schwach":

Antworten werden kürzer und flacher als erwartet

Der Agent bittet öfter um Klarstellungen bei eigentlich klaren Aufgaben

Tool-Calls werden inkorrekt aufgerufen oder fehlen

Code-Reviews übersehen offensichtliche Probleme

Anzeichen für „Modell überdimensioniert":

Der Agent antwortet mit mehrseitigen Analysen auf simple Ja/Nein-Fragen

Einfache Kalender-Abfragen dauern 10+ Sekunden

Die Rechnung steigt, ohne dass sich die Qualität spürbar verbessert hat

Die Lösung: Jede Woche einen kurzen Blick auf das Verhältnis aus Token-Verbrauch und Output-Qualität. Bei Alex haben wir nach zwei Wochen gemerkt, dass Haiku für 95% seiner Aufgaben ausreicht.

---

Dynamisches Modell-Switching: Das nächste Level

Fortgeschrittene Setups können das Modell innerhalb eines Agenten situationsabhängig wechseln. OpenClaw unterstützt das über den Session-Status-Override:

```

# Im Chat mit dem Agenten:

/model anthropic/claude-opus-4-5

# Oder programmatisch in einer Cron-Job-Anweisung:

"Für diese Aufgabe nutze /model anthropic/claude-opus-4-5 — komplexe Analyse nötig."

```

Wir verwenden das selten — hauptsächlich wenn Iris einen besonders komplexen Recherche-Auftrag bekommt und kurzzeitig auf Opus hochschalten soll. Die Standardkonfiguration bleibt Sonnet.

---

Anbieter mischen: OpenAI + Anthropic + Gemini

OpenClaw unterstützt mehrere Provider gleichzeitig. Das bedeutet: Man muss sich nicht auf einen Anbieter festlegen.

```json

{

"agents": {

"maya": {

"model": "openai/gpt-4o-mini"

"alex": {

"model": "google/gemini-flash-1.5"

}

```

Wichtig: Jeder Provider braucht seinen eigenen API-Key in der `.env`:

```bash

ANTHROPIC_API_KEY=sk-ant-...

OPENAI_API_KEY=sk-...

GOOGLE_API_KEY=...

```

Wir haben mit gemischten Providern experimentiert, aber letztlich bei Anthropic für alle Agenten geblieben — konsistente Qualität und ein einziger Invoice ist operativ einfacher.

---

Praxis-Tipp: Modell-Entscheidung in drei Fragen

Wenn du dir nicht sicher bist, welches Modell für einen Agenten richtig ist, stelle dir diese drei Fragen:

1. Muss der Agent zwischen widersprüchlichen Informationen abwägen?

→ Ja → Mindestens Sonnet, besser Opus

2. Sind die Aufgaben des Agenten größtenteils vorhersehbar und strukturiert?

→ Ja → Haiku oder Flash reicht

3. Sieht ein Mensch den Output direkt (CEO, Kunde, öffentlich)?

→ Ja → Kein Kompromiss: Opus

Diese drei Fragen haben uns geholfen, unser Setup von „alle Opus" zu einem durchdachten Mix zu entwickeln.

---

Das vollständige Setup

Die exakte Konfiguration — openclaw.json, Docker Compose mit Modell-Variablen, und die Kriterien, nach denen wir jedes Modell ausgewählt haben — ist im OpenClaw Setup Playbook dokumentiert.

Inklusive dem Monitoring-Setup, mit dem wir Token-Verbrauch pro Agent tracken und erkennen, wenn ein Modell zu viel oder zu wenig leistet.

18 Kapitel, basierend auf echter Produktionserfahrung.

Komplett auf Deutsch verfügbar. 🇩🇪

Mehr erfahren?

Unser Playbook enthält 18 detaillierte Kapitel — komplett auf Deutsch.

Zum Playbook