2026-03-038 min

OpenClaw mit lokalen Modellen: Qwen + Ollama, null API-Kosten

OllamaLocal LLMQwenNo API BillsSelf-Hosted

Die Erkenntnis, die gerade viral geht

Diese Woche macht ein Setup-Tweet die Runde: OpenClaw + Qwen 3.5 über Ollama — lokale KI-Agenten auf Claude-Niveau, ohne API-Rechnung, ohne Cloud, ohne dass ein einziges Zeichen deine Hardware verlässt.

166 Retweets in wenigen Stunden. Der Grund? Die Frage, die sich viele stellen: *"Muss ich für jeden Agenten-Aufruf wirklich Anthropic oder OpenAI bezahlen?"*

Die Antwort lautet: Nein.

Dieser Artikel zeigt genau, wie das funktioniert — und was du in einem Multi-Agenten-Setup beachten musst.

---

Warum überhaupt lokale Modelle?

Drei Gründe, die für die meisten Setups relevant sind:

1. Kosten. Bei einem 6-Agenten-Team mit Heartbeats alle 30 Minuten, täglichen Cron-Jobs und aktivem Betrieb summieren sich API-Kosten schnell auf 200–500 € im Monat. Ein lokales Modell kostet: einmalig Strom.

2. Datenschutz. Wenn deine Agenten Zugriff auf E-Mails, Geschäftsdaten und interne Dokumente haben — möchtest du nicht, dass diese Daten durch einen Cloud-Anbieter fließen. Bei sensiblen Setups ist das kein Nice-to-have, sondern Pflicht.

3. Latenz. Für einfache Aufgaben (Datei lesen, Task-Status prüfen, kurze Antwort formulieren) ist ein lokales 7B-Modell schneller als ein Cloud-API-Call mit Netzwerklatenz.

---

Was du brauchst

Hardware: Mindestens 16 GB RAM. Für Qwen 3.5 7B: passabel. Für das 14B-Modell: 32 GB empfohlen. GPU optional aber hilfreich (Apple Silicon M-Chips oder NVIDIA).

Ollama: Kostenlos, Open Source, läuft auf macOS / Linux / Windows.

OpenClaw: Bereits installiert (falls nicht: `npm install -g openclaw`).

Ein Qwen-Modell: Wir empfehlen `qwen2.5:7b` als Einstieg oder `qwen2.5:14b` für komplexere Agentenaufgaben.

---

Schritt 1: Ollama installieren und Modell laden

```bash

# Ollama installieren (macOS)

brew install ollama

# Ollama installieren (Linux)

curl -fsSL https://ollama.com/install.sh | sh

# Qwen 3.5 7B laden (~4.7 GB Download)

ollama pull qwen2.5:7b

# Für anspruchsvollere Aufgaben: 14B

ollama pull qwen2.5:14b

# Test: Modell direkt ansprechen

ollama run qwen2.5:7b "Hallo, was kannst du?"

```

Wenn du eine Antwort siehst: Ollama läuft. Das Modell ist bereit.

Ollama stellt lokal eine API bereit: `http://localhost:11434`. Das ist der Endpunkt, den OpenClaw später nutzt.

---

Schritt 2: OpenClaw für lokales Modell konfigurieren

OpenClaw unterstützt verschiedene Modell-Provider — darunter die OpenAI-kompatible API, die Ollama bereitstellt.

Öffne oder erstelle deine OpenClaw-Konfiguration:

```bash

openclaw config show

```

Um das Modell auf Ollama/Qwen umzustellen:

```bash

# Provider auf Ollama-kompatible API setzen

openclaw config set model.provider openai-compatible

openclaw config set model.baseUrl http://localhost:11434/v1

openclaw config set model.name qwen2.5:7b

openclaw config set model.apiKey ollama

```

Wichtig: Ollama erwartet keinen echten API-Key, aber das Feld darf nicht leer sein. Ein Platzhalter wie `ollama` reicht.

Danach Gateway neu starten:

```bash

openclaw gateway restart

```

---

Schritt 3: Testen, ob der Agent das Modell nutzt

```bash

# Prüfen ob der Agent antwortet

openclaw sessions list

# Direkte Test-Session

openclaw sessions test

```

Alternativ: Schick eine Nachricht an den konfigurierten Kanal (z.B. Telegram) und schau, ob der Agent antwortet. Wenn ja — läuft alles lokal.

Zur Kontrolle kannst du in Ollama's Logs schauen:

```bash

# Ollama-Logs (Linux)

journalctl -u ollama -f

# macOS: Ollama läuft im Hintergrund, Logs unter

tail -f ~/.ollama/logs/server.log

```

Wenn du dort Einträge siehst, wenn der Agent antwortet: bestätigt, alles lokal.

---

Welches Modell für welche Aufgabe?

Nicht jedes Modell ist für jeden Einsatz gleich gut. Das ist unsere Erfahrung aus dem 6-Agenten-Setup:

Qwen 2.5 7B — geeignet für:

Einfache Routing-Aufgaben (welcher Agent soll was tun?)

Kurze Antworten und Statusmeldungen

Heartbeat-Checks (E-Mails lesen, Task-Status prüfen)

Textformatierung und -zusammenfassungen

Schwach bei: langen, mehrstufigen Reasoning-Ketten; komplexem Code schreiben; ambigen Anweisungen.

Qwen 2.5 14B — geeignet für:

Code-Review und einfache Implementierungen

Längere Blog-Posts schreiben

Komplexere Aufgaben mit mehreren Schritten

Tool-Calling mit mehreren parallelen Aktionen

Schwach bei: sehr langen Kontext-Fenstern (>32k Token), subtilen Reasoning-Aufgaben, die GPT-4 oder Claude benötigen.

Qwen 2.5 Coder 32B — für Power-User:

Vollständige Codebase-Analyse

PR-Reviews

Debugging komplexer Bugs

Braucht jedoch mindestens 64 GB RAM. Für die meisten Setups überdimensioniert.

---

Multi-Agenten-Setup: Verschiedene Modelle pro Agent

Das ist das Killer-Feature lokaler Modelle in einem Multi-Agenten-System: jeder Agent kann ein anderes Modell nutzen.

In unserem Setup:

| Agent | Aufgabe | Modell |

|-------|---------|--------|

| Sam (Teamleitung) | Delegation, Koordination | Claude Sonnet (Cloud) |

| Peter (Coding) | Code-Review, Debugging | Qwen 2.5 Coder 7B (lokal) |

| Maya (Marketing) | Blog-Posts, Texte | Qwen 2.5 14B (lokal) |

| Alex (Alltagsaufgaben) | E-Mails, Kalender | Qwen 2.5 7B (lokal) |

| Iris (Research) | Web-Suche, Zusammenfassungen | Qwen 2.5 14B (lokal) |

| Atlas (CEO) | Direktassistenz | Claude Sonnet (Cloud) |

Das Ergebnis: Cloud-Kosten auf 2 Agenten reduziert, die wirklich komplexes Reasoning brauchen. Der Rest läuft lokal.

So konfigurierst du verschiedene Modelle pro Agent:

Jeder Agent hat seinen eigenen Workspace. In der OpenClaw-Konfiguration dieses Workspaces kannst du das Modell überschreiben:

```bash

# Im Workspace eines spezifischen Agenten

openclaw config set model.name qwen2.5:7b

openclaw config set model.baseUrl http://localhost:11434/v1

```

Alternativ: Modell direkt im System-Prompt referenzieren oder über Environment-Variablen pro Container setzen (wenn du Docker nutzt).

---

Praktische Limitierungen und wie wir damit umgehen

Kontext-Fenster

Ollama-Modelle haben standardmäßig ein kleineres Kontext-Fenster als Cloud-APIs. Bei langen Conversations oder großen Dateien kann das zum Problem werden.

Lösung: In Ollama das Kontext-Fenster explizit erhöhen:

```bash

# Modell mit größerem Kontext starten

OLLAMA_NUM_CTX=32768 ollama serve

```

Oder in der Modelfile definieren:

```

FROM qwen2.5:7b

PARAMETER num_ctx 32768

```

Tool-Calling

Nicht alle Ollama-Modelle unterstützen zuverlässiges Tool-Calling. Qwen 2.5 ist hier besser als die meisten, aber schlechter als Claude oder GPT-4.

Praktische Regel: Wenn ein Cron-Job mehrere Tools parallel aufrufen muss (z.B. E-Mail + Kalender + ClickUp gleichzeitig), nutze ein stärkeres Modell. Für sequentielle Single-Tool-Calls reicht Qwen.

Kaltstart-Latenz

Das erste Request nach dem Systemstart lädt das Modell in den RAM — kann 10–30 Sekunden dauern. Danach: schnell.

Lösung: Ollama beim Systemstart automatisch laden:

```bash

# Modell vorladen (einmalig beim Start)

ollama run qwen2.5:7b "" &

```

---

Docker + Ollama: Das produktive Setup

Wenn du mehrere Agenten in Docker-Containern betreibst (wie wir), läuft Ollama idealerweise auf dem Host — nicht in jedem Container.

```yaml

# docker-compose.yml (Ausschnitt)

services:

agent-maya:

image: openclaw/agent:latest

environment:

- OPENCLAW_MODEL_PROVIDER=openai-compatible

- OPENCLAW_MODEL_BASE_URL=http://host.docker.internal:11434/v1

- OPENCLAW_MODEL_NAME=qwen2.5:14b

- OPENCLAW_MODEL_API_KEY=ollama

volumes:

- ./workspaces/maya:/workspace

agent-alex:

image: openclaw/agent:latest

environment:

- OPENCLAW_MODEL_PROVIDER=openai-compatible

- OPENCLAW_MODEL_BASE_URL=http://host.docker.internal:11434/v1

- OPENCLAW_MODEL_NAME=qwen2.5:7b

- OPENCLAW_MODEL_API_KEY=ollama

volumes:

- ./workspaces/alex:/workspace

```

`host.docker.internal` ist der Hostname, über den Container den Host erreichen können. Auf Linux manchmal anders — prüfe mit `docker network inspect bridge`.

---

Wann Cloud-API doch sinnvoll ist

Ehrlichkeit: Lokale Modelle sind nicht in jedem Fall die bessere Wahl.

Bleib bei Cloud wenn:

Du einen Agenten betreibst, der komplexes mehrstufiges Reasoning braucht (Sam als Teamleitung, direkte CEO-Assistenz)

Du nicht mindestens 16 GB freien RAM hast

Der Agent häufig ambige, nuancierte Anweisungen bekommt

Latenz absolut kritisch ist und du keine Warmup-Zeit akzeptieren kannst

Wechsel zu lokal wenn:

Die Aufgaben klar definiert und repetitiv sind (E-Mail-Check, Task-Updates, einfache Texte)

Datenschutz wichtig ist

Du Kosten reduzieren willst ohne Qualitätseinbußen bei einfachen Tasks

Der pragmatische Ansatz: Hybrid. Cloud für die Denkarbeit, lokal für die Routinearbeit. Das ist genau, was unser 6-Agenten-Team macht.

---

Das vollständige Setup

Das gesamte Bild — Docker-Konfiguration, Multi-Modell-Setup, Tailscale-Sicherheit und die genauen System-Prompts für jeden Agenten — ist im OpenClaw Setup Playbook dokumentiert.

18 Kapitel, basierend auf echten Produktionserfahrungen. Kein theoretisches Framework, sondern das, was wir tatsächlich betreiben.

Komplett auf Deutsch verfügbar. 🇩🇪

Mehr erfahren?

Unser Playbook enthält 18 detaillierte Kapitel — komplett auf Deutsch.

Zum Playbook