KI-Toolnavigator — Das kuratierte Verzeichnis für Künstliche Intelligenz

Browser Use ist die wahrscheinlich populärste Open-Source-Bibliothek für Browser-automatisierende Agents — gestartet im November 2024 von einem Schweizer Team, in nur sechs Monaten zur Standard-Wahl für LLM-gesteuerte Browser-Agents geworden. Die GitHub-Stars haben sich Anfang 2025 explosionsartig vermehrt.

Der technische Differenzierer ist der Hybrid-Ansatz: Statt nur DOM-basiert (wie Playwright-Wrapper) oder nur vision-basiert (wie OpenAI Operator), kombiniert Browser Use beides. DOM-Steuerung wird priorisiert (präzise, schnell, billig), Vision-Fallback greift bei CAPTCHAs, Canvas-Elementen oder komplexen visuellen Layouts. In der Praxis liegt die Erfolgsrate bei alltäglichen Web-Tasks deutlich über reinen vision-basierten Tools.

Die DOM-Awareness macht den Workflow effizient: Der Agent sieht die Seite als strukturierten DOM-Baum mit clickable Elementen, getypten Inputs, sichtbaren Texten — nicht als Pixel-Mosaik. Ein Klick auf „Add to Cart" wird zu einem präzisen Selektor, nicht zu einem Pixel-Klick. Das spart 70–90% der Vision-Tokens und ist deutlich schneller.

Persistente Browser-Profile lösen das Login-Problem: Cookies, LocalStorage, Sessions bleiben zwischen Runs erhalten. Wer einen Personal-Browser-Agent baut, der wiederholt auf dieselbe Plattform geht, hat hier einen pragmatischen Pfad.

Multi-Tab-Sessions und Recording-Mode runden das Feature-Set ab — der Recording-Mode ist besonders interessant für Citizen Developers, die ein Workflow-Pattern einmal manuell durchklicken und dann als wiederverwendbare Automation speichern.

Der Cloud-Service (seit März 2025) hostet Browser-Sessions ohne lokales Playwright-Setup — pragmatisch für Cloud-Worker und Teams ohne DevOps-Kapazität. EU-Hosting in Zürich ist DSGVO-attraktiv.

Provider-Agnostik über LiteLLM-Wrapper: GPT-5, Claude Sonnet 4.7, Gemini 3, DeepSeek-V3, lokale Modelle — alle nutzbar. Wer Modell-Kosten optimieren will, kann zwischen schnellen kleinen Modellen (Routine-Klicks) und smarten großen Modellen (Reasoning-Schritte) routen.

Schwächen: Das Browser-Setup erfordert Engineering-Knowhow (Playwright, Chromium-Container) — Citizen Developers sind im Cloud-Tier besser aufgehoben. Anti-Bot-Pages (Cloudflare, Akamai) bleiben weiter ein Stolperstein, wie bei allen Browser-Agents.

Empfohlen für Engineering-Teams, die produktive Browser-Automation bauen — und für Personal-Use-Cases, in denen ein lokaler Agent regelmäßig dieselben Web-Workflows ausführt.

Browser Use

Screenshot

Pro & Contra

Anwendungsfälle

Verwandte Tools

Genspark Super Agent

Microsoft Agent Framework

Microsoft Foundry