Browser Use
Open-Source-Bibliothek für Browser-automatisierende Agents — LLMs steuern echte Chrome-Sessions, mit DOM-Awareness und Vision-Fallback.
Browser Use ist die wahrscheinlich populärste Open-Source-Bibliothek für Browser-automatisierende Agents — gestartet im November 2024 von einem Schweizer Team, in nur sechs Monaten zur Standard-Wahl für LLM-gesteuerte Browser-Agents geworden. Die GitHub-Stars haben sich Anfang 2025 explosionsartig vermehrt.
Der technische Differenzierer ist der Hybrid-Ansatz: Statt nur DOM-basiert (wie Playwright-Wrapper) oder nur vision-basiert (wie OpenAI Operator), kombiniert Browser Use beides. DOM-Steuerung wird priorisiert (präzise, schnell, billig), Vision-Fallback greift bei CAPTCHAs, Canvas-Elementen oder komplexen visuellen Layouts. In der Praxis liegt die Erfolgsrate bei alltäglichen Web-Tasks deutlich über reinen vision-basierten Tools.
Die DOM-Awareness macht den Workflow effizient: Der Agent sieht die Seite als strukturierten DOM-Baum mit clickable Elementen, getypten Inputs, sichtbaren Texten — nicht als Pixel-Mosaik. Ein Klick auf „Add to Cart" wird zu einem präzisen Selektor, nicht zu einem Pixel-Klick. Das spart 70–90% der Vision-Tokens und ist deutlich schneller.
Persistente Browser-Profile lösen das Login-Problem: Cookies, LocalStorage, Sessions bleiben zwischen Runs erhalten. Wer einen Personal-Browser-Agent baut, der wiederholt auf dieselbe Plattform geht, hat hier einen pragmatischen Pfad.
Multi-Tab-Sessions und Recording-Mode runden das Feature-Set ab — der Recording-Mode ist besonders interessant für Citizen Developers, die ein Workflow-Pattern einmal manuell durchklicken und dann als wiederverwendbare Automation speichern.
Der Cloud-Service (seit März 2025) hostet Browser-Sessions ohne lokales Playwright-Setup — pragmatisch für Cloud-Worker und Teams ohne DevOps-Kapazität. EU-Hosting in Zürich ist DSGVO-attraktiv.
Provider-Agnostik über LiteLLM-Wrapper: GPT-5, Claude Sonnet 4.7, Gemini 3, DeepSeek-V3, lokale Modelle — alle nutzbar. Wer Modell-Kosten optimieren will, kann zwischen schnellen kleinen Modellen (Routine-Klicks) und smarten großen Modellen (Reasoning-Schritte) routen.
Schwächen: Das Browser-Setup erfordert Engineering-Knowhow (Playwright, Chromium-Container) — Citizen Developers sind im Cloud-Tier besser aufgehoben. Anti-Bot-Pages (Cloudflare, Akamai) bleiben weiter ein Stolperstein, wie bei allen Browser-Agents.
Empfohlen für Engineering-Teams, die produktive Browser-Automation bauen — und für Personal-Use-Cases, in denen ein lokaler Agent regelmäßig dieselben Web-Workflows ausführt.
Screenshot

Pro & Contra
- Zuverlässigste Open-Source-Browser-Steuerung
- DOM + Vision Hybrid-Ansatz
- Provider-agnostisch (GPT, Claude, Gemini, lokal)
- EU-Anbieter (Zürich)
- Browser-Setup erfordert Engineering-Knowhow
- Anti-Bot-Pages bleiben Stolperstein
- Vision-Fallback erhöht Token-Kosten
- Cloud-Tier noch jung
Anwendungsfälle
Verwandte Tools
Gemini Spark
Googles 24/7-Personal-AI-Agent — managt Inbox, Kalender, Recherche und Bezahlvorgänge im Hintergrund, autonom unter expliziter User-Kontrolle.
OpenAI Agents SDK
OpenAIs offizieller Open-Source-Agent-Framework — Tool-Use, Hand-offs, Tracing, Guardrails. Python und TypeScript, läuft mit GPT-5 und beliebigem Provider.
Microsoft AutoGen
Forschungs-First-Framework für Multi-Agent-Systeme aus Microsoft Research — mit AutoGen Studio als visueller IDE für komplexe Agenten-Konversationen.