Der schnelle Überblick
- Der Raspberry Pi 5 ist die empfohlene Hardware für den Betrieb von KI-Agenten, insbesondere in der 8GB-Version.
- Die Ausführung lokaler LLMs auf dem Raspberry Pi ist mit erheblichen Leistungseinschränkungen verbunden, insbesondere bei größeren Modellen.
- Ein hybrider Ansatz, der einen Raspberry Pi für die Orchestrierung und Cloud-APIs für die Inferenz nutzt, bietet ein optimales Gleichgewicht zwischen Leistung und Kosteneffizienz.
- Die Optimierung des Speichers, die Nutzung von Quantisierung und die Gewährleistung einer effektiven Kühlung sind entscheidend für die Leistung.
- Ollama und llama.cpp sind die primären Frameworks für die Bereitstellung von LLMs auf dem Pi, wobei Ollama einfacher einzurichten ist und llama.cpp mehr Kontrolle bietet.
- Anwendungen wie OpenClaw und MolluskAI ermöglichen die Erstellung von 24/7-KI-Agenten mit geringem Stromverbrauch.
Die Integration von Künstlicher Intelligenz (KI) in alltägliche Geräte und Edge-Computing-Plattformen nimmt stetig zu. Insbesondere der Raspberry Pi, ein kostengünstiger Einplatinencomputer, hat sich als vielversprechende Plattform für die lokale Ausführung von KI-Modellen und -Agenten etabliert. Dieser Artikel beleuchtet die Möglichkeiten, Herausforderungen und Best Practices bei der Nutzung eines Raspberry Pi als Basis für KI-Anwendungen, insbesondere im Kontext von Sprachmodellen (LLMs) und autonomen Agenten.
Der Raspberry Pi als KI-Plattform: Möglichkeiten und Grenzen
Der Raspberry Pi, insbesondere das Modell Pi 5, bietet durch seine kompakte Bauweise, seinen geringen Stromverbrauch und seine vergleichsweise hohe Rechenleistung eine attraktive Option für die lokale Bereitstellung von KI. Er ermöglicht die Entwicklung von "Always-on"-KI-Agenten, die ohne ständige Cloud-Verbindung oder hohe monatliche Kosten arbeiten können.
Hardware-Anforderungen und Empfehlungen
Für den Betrieb von KI-Modellen auf einem Raspberry Pi ist die Wahl der richtigen Hardware entscheidend:
- Raspberry Pi 5 (8GB RAM): Dies ist die am meisten empfohlene Option. Der Pi 5 bietet eine deutlich verbesserte CPU-Leistung (Cortex-A76, 2.4 GHz) und eine höhere Speicherbandbreite (~8.5 GB/s) im Vergleich zu früheren Modellen. Die 8GB-Version ist essenziell, da KI-Modelle einen erheblichen Arbeitsspeicherbedarf haben.
- Raspberry Pi 4 (4GB oder 8GB RAM): Kann als Gateway für Cloud-basierte LLMs dienen, stößt jedoch bei der lokalen Inferenz von Modellen schnell an seine Grenzen. Die 8GB-Version ist hier ebenfalls vorzuziehen.
- Speicher: Eine schnelle NVMe-SSD (über HAT) oder eine USB-SSD ist einer MicroSD-Karte vorzuziehen. MicroSD-Karten sind zu langsam für die konstanten Lese- und Schreibvorgänge, die bei KI-Anwendungen anfallen, und unterliegen einem höheren Verschleiß.
- Kühlung: Aktive Kühlung (z.B. ein Gehäuse mit Lüfter) ist unerlässlich, um thermisches Throttling zu vermeiden. Bei anhaltender Last kann die CPU des Pi Temperaturen über 80°C erreichen, was die Leistung erheblich beeinträchtigt.
- Netzteil: Ein offizielles 27W USB-C Netzteil ist wichtig, um eine stabile Stromversorgung unter Last zu gewährleisten und Unterspannungs-Warnungen zu vermeiden.
Herausforderungen bei der lokalen LLM-Inferenz
Obwohl der Raspberry Pi beeindruckende Fortschritte gemacht hat, gibt es bei der lokalen Ausführung von Large Language Models (LLMs) weiterhin Einschränkungen:
- Geschwindigkeit: Die Inferenzgeschwindigkeit ist auf dem Pi deutlich langsamer als auf dedizierter GPU-Hardware. Selbst kleine Modelle mit 1,5 bis 3 Milliarden Parametern erreichen typischerweise nur 2-8 Tokens pro Sekunde. Dies kann zu Wartezeiten von 10-30 Sekunden für einfache Antworten führen, während komplexere Anfragen Minuten dauern können.
- Speicher: Der begrenzte Arbeitsspeicher des Pi erfordert den Einsatz stark quantisierter Modelle. Ein 3B-Modell (3 Milliarden Parameter) mit einer Quantisierung von 4 Bit benötigt etwa 2.5-3 GB RAM. Wenn das System bereits andere Dienste ausführt, kann der verfügbare Speicher schnell knapp werden.
- Kontextfenster: Ein größeres Kontextfenster erfordert mehr RAM und Rechenleistung, was die Inferenz weiter verlangsamt.
Experten weisen darauf hin, dass die Ausführung von 7B-Modellen auf einem 8GB Pi 5 technisch möglich ist, die Leistung jedoch oft unter 1 Token pro Sekunde fällt, was für die meisten interaktiven Anwendungen unpraktisch ist.
Frameworks und Modellwahl für den Raspberry Pi
Für die Bereitstellung von LLMs auf dem Raspberry Pi haben sich primär zwei Frameworks etabliert:
Ollama: Einfachheit und breite Modellunterstützung
Ollama ist eine beliebte Wahl für die lokale Ausführung von LLMs, da es die Einrichtung erheblich vereinfacht. Es bietet:
- Einfache Installation: Eine einzige Befehlszeile installiert Ollama und richtet es als Hintergrunddienst ein.
- Modellverwaltung: Ollama kümmert sich um den Download und die Verwaltung von Modellen, oft in optimierter Quantisierung für ARM-Architekturen.
- REST-API: Stellt eine OpenAI-kompatible API bereit, die von KI-Agenten wie OpenClaw genutzt werden kann.
Empfohlene Modelle für Ollama auf dem Pi 5 (8GB):
- Phi-3 Mini (3.8B): Bietet eine gute Balance aus Leistung und Qualität (~8 Tokens/Sekunde).
- Qwen 1.5B oder 3B: Bekannt für Effizienz und gute Argumentationsfähigkeiten bei geringer Größe.
- Gemma 2B: Eine weitere gute Option mit geringem Speicherbedarf.
Bei der Verwendung von Ollama ist zu beachten, dass es bei ARM-Builds zu Problemen mit dem OpenAI-kompatiblen /v1 Endpunkt kommen kann; der native /api/generate Endpunkt ist oft zuverlässiger.
llama.cpp: Maximale Kontrolle und Leistung
Für Anwender, die die maximale Leistung aus ihrer Hardware herausholen möchten, bietet llama.cpp direkteren Zugriff und mehr Optimierungsmöglichkeiten:
- Höhere Geschwindigkeit: Kann eine 10-20% höhere Inferenzgeschwindigkeit im Vergleich zu Ollama erreichen.
- Feinere Kontrolle: Ermöglicht die manuelle Auswahl von Quantisierungen, die Steuerung von Threads, Batch-Größen und Kontextlängen.
- GGUF-Modelle: Erfordert das manuelle Herunterladen von GGUF-Modellen von Plattformen wie Hugging Face.
Die Kompilierung von llama.cpp aus dem Quelltext mit spezifischen Optimierungen für die ARM NEON-Architektur des Raspberry Pi kann die Leistung weiter verbessern. Es wird empfohlen, alle vier CPU-Kerne zu nutzen (-t 4) und das Kontextfenster an die verfügbaren Ressourcen anzupassen.
Weitere KI-Frameworks auf dem Pi
- Piper (Text-to-Speech): Bietet hochwertige, offline-fähige neuronale Stimmen mit geringem CPU-Verbrauch.
- Whisper.cpp (Speech-to-Text): Die C++-Implementierung von OpenAI's Whisper-Modell ermöglicht eine effiziente Spracherkennung auf dem Pi.
- TensorFlow Lite: Ideal für Computer-Vision-Aufgaben wie Objekterkennung und -klassifizierung, da es für Edge-Geräte optimiert ist und die NPU des Pi 5 nutzen kann.
- MediaPipe: Bietet vorgefertigte Lösungen für Pose-, Gesichts- und Hand-Tracking, die ebenfalls gut auf dem Pi funktionieren.
- Stable Diffusion: Technisch auf dem Pi möglich, aber sehr langsam und eher als Experiment denn als Produktivwerkzeug zu sehen.
Der hybride Ansatz: Cloud-Intelligenz mit Pi-Orchestrierung
Der wohl praktischste Ansatz für den Einsatz von KI-Agenten auf dem Raspberry Pi ist eine hybride Strategie: Der Pi fungiert als Orchestrierungs-Gateway, während die rechenintensiven LLM-Inferenzaufgaben an Cloud-APIs ausgelagert werden. Dies bietet mehrere Vorteile:
- Optimale Leistung: Schnelle und leistungsstarke Antworten durch Cloud-LLMs (z.B. Claude, GPT-4).
- Geringe Betriebskosten: Der Pi verbraucht nur wenige Watt Strom (ca. 5-8 Watt), was jährliche Stromkosten von nur wenigen Euro bedeutet.
- Lokale Datenhoheit: Konversationsdaten und Agenten-Logik bleiben lokal auf dem Pi gespeichert, was Datenschutzbedenken reduziert.
- Zuverlässigkeit: Der Pi kann 24/7 laufen und Aufgaben wie Nachrichtenweiterleitung, Zeitplan-Ausführung und Session-Management übernehmen.
- Flexibilität: Bei Bedarf kann ein Fallback auf ein kleines lokales Modell konfiguriert werden, falls die Cloud-Verbindung unterbrochen wird.
Anwendungen wie OpenClaw sind explizit für diesen hybriden Ansatz konzipiert, indem sie den Gateway-Prozess (auf dem Pi) von der eigentlichen Modellinferenz (in der Cloud) trennen.
Anwendungsbeispiele für KI-Agenten auf dem Raspberry Pi
Ein Raspberry Pi kann als Basis für eine Vielzahl von 24/7-KI-Agenten dienen:
- Chat-Assistenten: Ein Agent, der rund um die Uhr auf Nachrichten in Telegram oder Discord antwortet, kann auf einem Pi kostengünstig betrieben werden.
- Automatisierte Berichte: Zeitgesteuerte Cron-Jobs können tägliche Berichte erstellen, Systeme überprüfen oder Zusammenfassungen versenden.
- Heimautomatisierungs-Hub: Der Pi kann OpenClaw und Home Assistant gleichzeitig betreiben und so intelligente Automatisierungen im Haushalt ermöglichen.
- Persönliche Wissensbasis: Ein lokaler Agent mit Gedächtnis- und Dokumentenzugriff, der alle Daten im lokalen Netzwerk speichert.
- Offline-Sprachassistent: Durch die Kombination von Whisper.cpp (STT), Ollama/llama.cpp (LLM) und Piper (TTS) kann ein vollständig offline-fähiger Sprachassistent realisiert werden.
- KI-Sicherheitskamera: Der Pi kann Personen und Fahrzeuge erkennen, Videos aufzeichnen und Benachrichtigungen senden.
- Gesten-gesteuerte Roboter: Mit MediaPipe kann der Pi Hand- und Körperhaltungen erkennen, um Roboter zu steuern.
Optimierung und Fehlerbehebung
Um die bestmögliche Leistung aus einem Raspberry Pi für KI-Anwendungen herauszuholen, sind folgende Punkte zu beachten:
- Speicherverwaltung: Bei Speichermangel sollte ein Swap-File von 1-2 GB auf einer SSD eingerichtet werden, um das System stabil zu halten. Die
swappiness-Einstellung sollte reduziert werden, damit der RAM bevorzugt wird.
- Kühlung: Überwachen Sie die CPU-Temperatur (
vcgencmd measure_temp). Eine aktive Kühlung hält die Temperatur unter 60°C, was Leistungsverluste durch Throttling verhindert.
- Quantisierung: Verwenden Sie für LLMs 4-Bit-Quantisierung und für Vision-Modelle INT8-Quantisierung, um den Speicherbedarf zu reduzieren und die Geschwindigkeit zu erhöhen.
- Kontextfenster: Reduzieren Sie das Kontextfenster von LLMs (z.B. auf 2048 Tokens), um den Speicherbedarf zu senken.
- NPU-Nutzung: Auf dem Pi 5 kann die integrierte Neural Processing Unit (NPU) für Computer-Vision-Modelle mit TensorFlow Lite genutzt werden, was erhebliche Geschwindigkeitsvorteile bringt.
- Systemd-Dienste: Konfigurieren Sie KI-Anwendungen als Systemd-Dienste, um einen automatischen Start nach einem Neustart und eine automatische Wiederherstellung bei Abstürzen zu gewährleisten.
- Netzwerkzugriff: Für den sicheren Fernzugriff auf den Pi und seine Dienste wird die Nutzung von Tailscale empfohlen, da dies keine Portweiterleitung erfordert.
Fehlermeldungen wie "out of memory" weisen auf zu große Modelle oder unzureichenden RAM hin. Langsame Inferenz kann auf unzureichende Kühlung, langsame Speichermedien oder ineffiziente Modelle zurückzuführen sein.
Fazit
Der Raspberry Pi hat sich zu einer überraschend fähigen Plattform für den Betrieb von KI-Modellen und -Agenten entwickelt. Während die lokale Inferenz von großen LLMs auf dem Pi weiterhin eine Herausforderung darstellt, bieten hybride Ansätze, die Cloud-APIs für die Inferenz nutzen, eine praktische und kostengünstige Lösung für "Always-on"-KI-Anwendungen. Durch sorgfältige Hardware-Auswahl, Systemoptimierung und die Nutzung geeigneter Frameworks können Anwender leistungsstarke, private und energieeffiziente KI-Lösungen auf einem Raspberry Pi realisieren. Die kontinuierliche Entwicklung in diesem Bereich verspricht weitere Fortschritte und eröffnet neue Möglichkeiten für Edge AI.
Bibliographie
- Zottor, Anthony Elorm. "I Tried to Run an AI Agent on a Raspberry Pi. Here’s What Happened." Medium, 10. März 2026.
- Hex, Worth A Try LLC. "How to Run OpenClaw on Raspberry Pi — $50 AI Server — OpenClaw Playbook." OpenClaw Playbook.
- Bartlett, Mark. "OpenClaw on Raspberry Pi: What Actually Works (and What Doesn't)." InsiderLLM, 5. März 2026.
- AI Agents Kit. "How to Run AI Models on Raspberry Pi: The Complete Guide." aiagentskit.com, 26. Januar 2026.
- Chen, Alex. "Running OpenClaw on Raspberry Pi: The Ultimate Guide." ClawGo, 16. März 2026.
- Rachapoom, Mark. "OpenClaw on Raspberry Pi: Always-On AI Agent." The Dench Blog, 26. März 2026.
- Hex, Worth A Try LLC. "Setting Up OpenClaw on a Raspberry Pi for 24/7 AI Operations." OpenClaw Playbook Blog, 10. März 2026.
- skyl4rk. "skyl4rk/molluskai." GitHub, 20. Februar 2026.
- techiesms. "How to Run OpenClaw AI Agent on Raspberry Pi." YouTube, 14. März 2026.
- Kai. "Running thePopeBot with Qwen 3.5 2B in RPi." kheAI Commerce, 18. März 2026.