KI-Toolnavigator — Das kuratierte Verzeichnis für Künstliche Intelligenz

Was ist RAG?

Retrieval-Augmented Generation (RAG) verbindet ein Sprachmodell mit einer externen Wissensquelle. Statt sich nur auf das im Modell „eingebackene" Wissen zu verlassen, ruft das System für jede Anfrage relevante Dokumente aus einer Datenbank ab und übergibt sie dem Modell als Kontext.

Der Vorteil ist offensichtlich: Aktuelle Information, eigene Unternehmensdaten und nachprüfbare Quellen — ohne das Modell neu trainieren zu müssen. RAG ist heute der Standard für Unternehmens-Chatbots, Wissens-Suche und domänenspezifische Assistenten.

Architektur

Ein typisches RAG-System besteht aus fünf Komponenten:

Ingestion-Pipeline — Dokumente werden in Chunks zerlegt, eingebettet und gespeichert.
Vektordatenbank — speichert die Embeddings und erlaubt Ähnlichkeitssuche.
Retriever — findet zur Anfrage passende Chunks.
Reranker — sortiert die Treffer feiner (optional, aber qualitätssteigernd).
Generator — das Sprachmodell, das mit Anfrage + Kontext die Antwort erzeugt.

Die schwierigste Komponente ist meist nicht das Modell, sondern die Ingestion: Wie schneidet man Dokumente sinnvoll? Wie geht man mit Tabellen, Bildern, mehrsprachigen Inhalten um?

RAG verlagert das Schwierige vom Training in den Datenpipeline-Bau.

Vektordatenbanken

Vektordatenbanken speichern hochdimensionale Embeddings (typischerweise 768 bis 3072 Dimensionen) und unterstützen schnelle Approximate-Nearest-Neighbor-Suche. Die wichtigsten Optionen 2026:

Pinecone — managed, gut skalierbar, teuer.
Weaviate — Open Source, mit Hybrid-Suche (Vektor + Volltext).
Qdrant — Open Source, Rust-basiert, sehr schnell.
pgvector — Postgres-Erweiterung; wenn schon Postgres im Stack ist, oft die pragmatischste Wahl.

Für mittelgroße Anwendungen (unter 10 Millionen Chunks) reicht pgvector meist aus. Erst bei höherer Skalierung lohnen sich spezialisierte Lösungen.

Evaluierung

RAG-Systeme zu evaluieren ist anspruchsvoll, weil zwei Schritte gleichzeitig getestet werden: Hat der Retriever die richtigen Dokumente gefunden? Hat der Generator daraus die richtige Antwort gebaut?

Standardmetriken:

Recall@k — wie oft taucht das relevante Dokument unter den Top-k auf?
Faithfulness — bleibt die Antwort im Rahmen der gefundenen Quellen?
Answer Relevance — beantwortet die Antwort tatsächlich die Frage?

Frameworks wie Ragas oder DeepEval automatisieren diese Messungen mit eigenen LLM-Judges. Die Ergebnisse sind nicht perfekt, aber deutlich besser als kein Monitoring.

Retrieval-Augmented Generation erklärt

Was ist RAG?

Architektur

Vektordatenbanken

Evaluierung