Kurzdefinition
Score bzw. Similarity ist eine Kennzahl, die angibt, wie gut ein gefundenes Dokument (oder Text-Chunk) zur Anfrage passt, wenn du mit Vektorsuche arbeitest. In einem RAG-Setup (Retrieval-Augmented Generation) hilft dir dieser Wert zu entscheiden, welche Inhalte du dem LLM (z. B. ChatGPT, Gemini, Mistral AI) als Kontext gibst – damit dein Chatbot präziser antwortet und weniger halluziniert.
Merksatz: Je besser der Score, desto wahrscheinlicher ist es, dass der Text wirklich zur Frage passt – aber der Score ist nur ein Signal, nicht die Wahrheit.
Warum ist der Begriff wichtig? (Problem & Kontext)
Stell dir vor, du betreibst einen LLM Sales-Chatbot auf deiner Website. Ein Nutzer fragt: „Habt ihr eine monatliche Kündigungsfrist?“ In deiner Wissensbasis existieren mehrere ähnliche Textstellen: AGB, Pricing-Seite, alte FAQ, neue FAQ. Ohne Vektorsuche würde der Bot entweder gar nichts Passendes finden oder zu viel Kontext laden.
Mit Vektorsuche sucht dein System semantisch ähnliche Inhalte. Der Similarity-Score sagt dir dann: „Diese Textstelle passt sehr gut – diese eher mittel – diese ist wahrscheinlich irrelevant.“ Genau diese Entscheidung ist in RAG entscheidend, weil du nur begrenzte Token im Prompt hast und falscher Kontext direkt zu falschen Antworten führt.
Präzise Definition
Similarity (Ähnlichkeit) beschreibt, wie nah zwei Vektoren beieinander liegen: der Vektor deiner Anfrage und der Vektor eines Dokuments. Ein Score ist die Zahl, die diese Nähe ausdrückt.
Wichtig: Der genaue Wertebereich hängt vom System ab:
- Manche Vektordatenbanken geben eine Ähnlichkeit aus (größer = besser).
- Andere geben eine Distanz aus (kleiner = besser).
- Manche normalisieren den Score (z. B. 0 bis 1), andere nicht.
Häufig verwendet wird Cosine Similarity (Kosinusähnlichkeit). Wenn du eine schnelle, verständliche Definition suchst: Kosinusähnlichkeit.
Wie funktioniert das in der Praxis? (Vektorsuche + RAG)
Schritt 1: Texte werden zu Embeddings
Du speicherst Inhalte (FAQ, Produkttexte, PDFs, E-Mails, Handbücher) nicht nur als Text, sondern zusätzlich als Embeddings. Ein Embedding ist ein Zahlenvektor, der die Bedeutung des Textes abbildet.
Schritt 2: Anfrage wird ebenfalls embedded
Die Nutzerfrage wird mit demselben Embedding-Modell in einen Vektor umgewandelt.
Schritt 3: Ähnlichkeit wird berechnet
Die Vektordatenbank vergleicht den Anfragevektor mit allen Dokumentvektoren und berechnet einen Score (z. B. via Cosine Similarity).
Schritt 4: Top-K Treffer + optional Filter
Du bekommst z. B. die Top 5 relevantesten Chunks zurück (Top-k). Zusätzlich kannst du mit Metadaten filtern, z. B. „nur deutsche Inhalte“, „nur Produkt X“, „nur Dokumente nach 2025“.
Schritt 5: RAG – Kontext ins Prompt
Diese Treffer werden in den Prompt eingebaut. Das LLM generiert die Antwort auf Basis der Frage + des gefundenen Kontexts (RAG (Retrieval-Augmented Generation)). Einstieg/Überblick zu RAG: Retrieval-augmented generation.
Konkretes Beispiel (Sales-Chatbot)
Nutzerfrage: „Kann ich monatlich kündigen?“
Deine Vektorsuche liefert (vereinfacht):
- Chunk A (Score 0,89): „Der Vertrag ist monatlich kündbar mit 14 Tagen Frist.“
- Chunk B (Score 0,74): „Jahrespläne verlängern sich automatisch, wenn nicht gekündigt wird.“
- Chunk C (Score 0,41): „Zahlungsmethoden: Kreditkarte, PayPal, SEPA.“
Praxisentscheidung:
- A gehört sicher in den Kontext.
- B ist optional (kann helfen, wenn der Nutzer einen Jahresplan meint).
- C sollte raus (verbraucht Tokens, erhöht Verwirrung).
Genau dafür nutzt du Score/Similarity: Kontext auswählen, Tokens sparen, Halluzinationen reduzieren.
Vorteile (warum du das im Online-Marketing willst)
- Bessere Antworten im Chatbot: Relevanter Kontext senkt Fehler und erhöht Abschlussquoten im Sales-Chat.
- Weniger Halluzinationen: Das LLM „dichtet“ weniger, wenn es verlässliche Textbasis hat.
- Skalierbare Wissensnutzung: Statt feste FAQs zu pflegen, greift der Bot dynamisch auf die Wissensbasis zu.
- Mehr Personalisierung: Mit Filtern (Branche, Produkt, Plan) bekommt jeder Nutzer passenderen Kontext.
- Messbarkeit: Scores helfen dir bei Debugging, Qualitätskontrolle und A/B-Tests.
Wo kannst du Score/Similarity einsetzen? (und wo es im Marketing am meisten Sinn macht)
- LLM Sales-Chatbot (Website): Produktfragen, Einwände, Preise, Integrationen.
- Lead-Qualifizierung: Bot fragt nach Bedarf und zieht passende Argumente/Case-Studies via RAG.
- Support-Automation: „Wie richte ich Feature X ein?“ → passende Anleitungsteile.
- Content- & SEO-Assistenz intern: Redaktionsbot findet interne Guidelines, Briefings, Tonalität.
- Kampagnen-Asset-Suche: Der Bot findet passende Textbausteine, USPs, Testimonials nach Bedeutung.
- Onboarding für Kunden/Team: „Wie läuft Prozess Y?“ → relevante SOP-Chunks.
Am meisten Sinn im Online-Marketing macht es überall dort, wo viele Inhalte existieren und Nutzerfragen variabel formuliert werden (Synonyme, Umgangssprache, Branchenjargon) – also typisch bei Sales, Support und Wissensmanagement.
Wie wirst du gut im Einsatz damit? (praktische Hebel)
1) Verstehe, was dein Score bedeutet
Prüfe in deiner Vektordatenbank bzw. Library, ob der Wert „Similarity“ oder „Distance“ ist. Dokumentation zu Vektorsuche (guter Überblick): Elastic: What is vector search.
2) Baue dir einen „Relevanz-Testkatalog“
Lege 30–50 echte Nutzerfragen an (aus Sales-Calls, Support-Tickets, Site Search, CRM). Prüfe pro Frage: Sind die Top-K Treffer wirklich passend? Wenn nicht, liegt es meist an Chunking, Datenqualität oder Filtern.
3) Nutze Schwellenwerte (Thresholds) + Fallback
Definiere einen Mindestscore: Wenn kein Treffer darüber liegt, soll der Bot nachfragen oder sagen: „Dazu habe ich gerade keine sichere Quelle.“ Das ist oft besser als eine geratene Antwort.
4) Kombiniere semantische Suche mit Filtern (Hybrid-Search)
Score allein reicht selten. Filtere z. B. nach Produkt, Sprache, Region, Datum. Optional zusätzlich Keyword-Signale (\"Hybrid Search\"), wenn du viele sehr ähnliche Dokumente hast.
Häufige Missverständnisse / Fehler
- „Hoher Score = korrekt“ – Nein. Ein Text kann sehr ähnlich klingen, aber fachlich falsch oder veraltet sein.
- Distance und Similarity verwechseln – Manche Systeme geben „0,12“ zurück und das ist super (kleine Distanz), andere wäre das schlecht (kleine Similarity).
- Scores zwischen verschiedenen Modellen vergleichen – Wenn du das Embedding-Modell wechselst, ändern sich Skalen und Verteilungen. Alte Thresholds sind dann oft unbrauchbar.
- Chunking ignorieren – Zu große Chunks verwässern Bedeutung, zu kleine Chunks verlieren Kontext. Beides senkt die Trefferqualität.
- Kein Re-Ranking – Top-K aus der Vektorsuche ist nicht immer optimal sortiert. Ein Re-Ranker (zweite Stufe) kann die besten Treffer nach oben ziehen.
- Zu viele Tokens im Prompt – Wenn du „zur Sicherheit“ 20 Chunks reinpackst, steigt das Risiko von Widersprüchen und verwirrten Antworten.
- Keine Aktualitätslogik – Alte Preis- oder Vertragsinfos müssen via Metadaten (Datum/Version) kontrollierbar sein.
Best Practices: Checkliste für saubere Scores in RAG
- Daten bereinigen: Duplikate entfernen, veraltete Seiten markieren, PDFs sauber extrahieren.
- Chunking bewusst wählen: Sinnabschnitte statt willkürlicher Zeichenanzahl; Überschriften als Metadaten speichern.
- Metadaten konsequent nutzen: Sprache, Produkt, Persona, Funnel-Phase, Datum, Quelle.
- Top-k klein starten: z. B. 3–5 Chunks; nur erweitern, wenn nötig.
- Threshold definieren: Minimum-Score + Fallback („nachfragen“ statt halluzinieren).
- Kontext formatieren: Quellen klar trennen (Titel, URL/Quelle, Datum). Das hilft dem LLM beim Zitieren.
- Re-Ranking testen: Besonders bei vielen ähnlichen Dokumenten oder starkem Marketing-Wording.
- Evaluation einführen: Regelmäßig echte Fragen gegen erwartete Quellen testen (Regression-Tests).
Wenn du tiefer in Vektordatenbanken einsteigen willst (konzeptionell): Pinecone: Vector Database. Wenn du RAG praktisch in Frameworks umsetzt: LangChain: Retrieval Concepts.
Warum das für dich als Marketer/Unternehmer entscheidend ist
Ein guter Score-Umgang entscheidet, ob dein KI-Chatbot:
- verlässliche Antworten gibt (mehr Vertrauen, mehr Leads, mehr Sales),
- oder „selbstbewusst falsch“ wirkt (Frust, Supportaufwand, Conversion-Verlust).
Score/Similarity ist damit ein Kernstück von Prompt Engineering im RAG-Kontext: Du steuerst nicht nur den Prompt, sondern auch welche Informationen überhaupt in den Prompt gelangen.
Kurzes Fazit
Score/Similarity ist die Relevanz-Anzeige deiner Vektorsuche. In RAG entscheidet sie mit darüber, welche Inhalte dein LLM sieht – und damit über Qualität, Kosten (Tokens) und Halluzinationsrisiko. Wer Scores versteht, testet und mit Thresholds/Filtern kombiniert, baut deutlich stabilere Chatbots für Sales, Support und Online Marketing.
Mini-Glossar
- Embedding – Zahlenvektor, der die Bedeutung eines Textes abbildet und Vektorsuche ermöglicht.
- Vektorsuche – Suche nach semantischer Ähnlichkeit zwischen Anfrage-Embedding und Dokument-Embeddings.
- Vektordatenbank – Datenbank, die Embeddings speichert und schnelle Similarity-Suchen (Top-K) ausführt.
- Score – Kennzahl, die Relevanz/Ähnlichkeit (oder Distanz) zwischen Anfrage und Treffer ausdrückt.
- Similarity – Ähnlichkeitsmaß; häufig ist „größer = besser“ (abhängig vom System).
- Cosine Similarity – Ähnlichkeit basierend auf dem Winkel zwischen zwei Vektoren (Richtung statt Länge).
- Distance – Distanzmaß; häufig ist „kleiner = besser“ (z. B. euklidische Distanz).
- Top-k – Die K besten Treffer, die die Vektorsuche zurückliefert.
- Threshold – Mindest-Score, ab dem ein Treffer als „gut genug“ gilt; darunter lieber Rückfrage/Fallback.
- Chunking – Aufteilen von Dokumenten in kleinere Textabschnitte für präzisere Treffer.
- Reranking – Zweite Sortierstufe, die Treffer nachträglich genauer bewertet und neu ordnet.
- RAG (Retrieval-Augmented Generation) - LLM antwortet mit Hilfe von zuvor abgerufenem Kontext.
- Prompt Engineering – Strukturieren von Anweisungen und Kontext (inkl. Quellen) für bessere LLM-Ausgaben.
- Token – Abrechnungseinheit/„Textbaustein“ im LLM; mehr Kontext = mehr Tokens = mehr Kosten.
- Halluzinationen – Wenn ein LLM überzeugend klingende, aber falsche Inhalte erzeugt; RAG reduziert das, wenn der Kontext stimmt.
Wenn du diese Praxisbeispiele und Templates nicht verpassen möchtest, abonniere den Blog auf meiner Webseite und folge mir auf LinkedIn.
Häufige Fragen
Was ist ein Score bzw. Similarity bei der Vektorsuche?
Der Score (auch Similarity) ist eine Kennzahl, die zeigt, wie gut ein Dokument- oder Text-Chunk semantisch zu deiner Anfrage passt. In der Vektorsuche vergleicht das System den Anfrage-Vektor mit den gespeicherten Dokument-Vektoren und gibt einen Wert zurück, der die Nähe/Ähnlichkeit ausdrückt.
Was bedeutet ein hoher Similarity-Score konkret?
Ein hoher Score bedeutet: Der Treffer ist mit hoher Wahrscheinlichkeit thematisch nah an der Anfrage. Aber: hoch heißt nicht automatisch korrekt. Inhalte können veraltet oder inhaltlich falsch sein – deshalb sind Datenqualität, Metadaten (z. B. Datum/Version) und Tests wichtig.
Ist ein niedriger Score immer schlecht?
Meistens ja – aber nicht immer. Ein niedriger Score kann bedeuten, dass der Text wirklich irrelevant ist. Er kann aber auch auftreten, wenn dein Chunking ungünstig ist, die Inhalte schlecht extrahiert wurden (z. B. PDF), oder du mit falschen Filtern suchst. Prüfe daher immer: Datenqualität, Chunk-Größe und Metadaten.
Was ist der Unterschied zwischen Similarity und Distance?
Similarity ist häufig „größer = besser“, während Distance oft „kleiner = besser“ bedeutet. Manche Systeme liefern Ähnlichkeit (z. B. Cosine Similarity), andere liefern Distanzwerte (z. B. euklidische Distanz). Wichtig ist: Verstehe die Skala deiner Vektordatenbank, bevor du Thresholds definierst.
Was ist Cosine Similarity und warum wird sie oft genutzt?
Cosine Similarity misst die Ähnlichkeit über den Winkel zwischen zwei Vektoren. Einfach gesagt: Sie bewertet, ob Anfrage und Dokument in die „gleiche Bedeutungsrichtung“ zeigen – unabhängig davon, wie lang die Vektoren sind. Deshalb ist sie in vielen Embedding- und RAG-Setups ein Standardmaß.
Warum ist Score/Similarity so wichtig in einem RAG-Chatbot?
In RAG (Retrieval-Augmented Generation) entscheidet die Vektorsuche, welche Inhalte als Kontext ins LLM gelangen. Der Score hilft dir, die besten Treffer auszuwählen, Tokens zu sparen und Halluzinationen zu reduzieren. Schlechte Treffer (auch mit „mittleren“ Score) führen oft zu falschen oder widersprüchlichen Antworten.
Wie wähle ich den richtigen Threshold (Mindest-Score) aus?
Lege einen Testkatalog mit echten Nutzerfragen an und schaue dir die Score-Verteilung an. Setze dann einen Threshold, ab dem Treffer „gut genug“ sind. Wenn kein Treffer den Threshold erreicht, nutze einen Fallback: Rückfrage stellen oder transparent sagen, dass keine sichere Quelle gefunden wurde. Achtung: Nach einem Embedding-Modellwechsel musst du Thresholds neu kalibrieren.
Wie viele Treffer (Top-K) sollte ich in den Prompt geben?
Starte in der Praxis oft mit Top 3 bis Top 5 Chunks. Zu viele Treffer erhöhen die Tokenkosten und das Risiko von Widersprüchen. Wenn die Antworten unpräzise bleiben, erhöhe Top-K schrittweise oder nutze Re-Ranking und bessere Filter, statt einfach immer mehr Kontext zu laden.
Welche häufigen Fehler verursachen schlechte Treffer trotz Vektorsuche?
- Schlechtes Chunking: zu große oder zu kleine Textstücke
- Veraltete Inhalte: alte FAQs/AGBs ohne Versionierung
- PDF-Extraktion: kaputte Zeilenumbrüche oder fehlende Überschriften
- Keine Metadaten: keine Filter nach Sprache/Produkt/Datum
- Score falsch interpretiert: Distance vs. Similarity verwechselt
Wo bringt Score/Similarity im Online-Marketing den größten Nutzen?
Am meisten Nutzen hast du überall dort, wo Fragen variabel formuliert werden und du viel Content hast: Sales-Chatbots (Preise, Einwände, Kündigung), Support-Automation (Anleitungen, Troubleshooting) und internes Marketing-Wissensmanagement (Brand-Guidelines, Angebotsbausteine, Case Studies). Der Score hilft dir, passenden Kontext zuverlässig auszuwählen.
Wie reduziere ich Halluzinationen mit Score/Similarity konkret?
Kombiniere drei Dinge: (1) Threshold + Fallback (keine sicheren Treffer → Rückfrage/Stop), (2) Metadaten-Filter (z. B. nur aktuelle Versionen), (3) saubere Kontextstruktur im Prompt (Quellen/Chunks klar trennen). So bekommt das LLM weniger falsche Signale und erfindet seltener Fakten.
Wie erkenne ich, ob mein Score-Setup „gut“ ist?
Ein gutes Setup erkennst du daran, dass bei typischen Nutzerfragen die Top-K Treffer inhaltlich passen und die Antworten stabil sind. Miss das mit wiederholbaren Tests: gleiche Fragen, gleiche erwartete Quellen. Wenn du häufig „nur fast richtige“ Treffer bekommst, ist das meist ein Signal, dass du Chunking, Metadaten und/oder Re-Ranking optimieren solltest.
Was ist Re-Ranking und wann brauche ich es?
Re-Ranking ist eine zweite Bewertungsstufe, die die zunächst gefundenen Treffer nochmals genauer sortiert. Du brauchst es besonders, wenn du viele sehr ähnliche Dokumente hast (z. B. mehrere Produktvarianten, alte/neue Versionen, ähnliche Landingpages) und die Vektorsuche allein nicht zuverlässig die beste Quelle auf Platz 1 bringt.
