Warum der Begriff für dich wichtig ist
Viele Unternehmen bauen heute einen LLM-Chatbot für Support, Sales oder internes Wissen. Die Hoffnung: Der Bot antwortet schnell, passend und auf Basis eigener Inhalte. In der Praxis passiert aber oft etwas anderes: Der Chatbot zieht unpassende Textbausteine aus der Wissensdatenbank, vermischt sie mit allgemeinen Modellkenntnissen und liefert eine Antwort, die überzeugend klingt, aber fachlich danebenliegt.
Genau hier kommt der Score-Threshold ins Spiel. Er ist eine einfache, aber sehr wirksame Stellschraube im RAG-Setup. Er hilft dir dabei, nur solche Chunks in den Prompt zu lassen, die wahrscheinlich wirklich zur Anfrage passen. Für Online Marketing, Sales und Lead-Gen ist das extrem wichtig, weil falsche Antworten Vertrauen kosten und Conversions senken können.
Definitionen
Score – Ein Zahlenwert, der ausdrückt, wie gut ein Suchtreffer zur Anfrage passt.
Score-Threshold – Ein Grenzwert, ab dem ein Treffer akzeptiert wird. Alles darunter wird verworfen.
Chunk – Ein kleiner Textabschnitt aus einem Dokument, zum Beispiel ein Absatz aus einer FAQ, Produktbeschreibung oder internen Wissensseite.
RAG (Retrieval-Augmented Generation) - Dabei werden vor der Antwort passende Inhalte gesucht und dem LLM zusätzlich in den Prompt gegeben.
Was ist ein Score-Threshold genau?
Ein Score-Threshold ist eine Regel im Retrieval-Schritt eines RAG-Systems. Nach der Suche bekommt jeder Chunk einen Score. Dieser Score zeigt, wie ähnlich oder relevant der Chunk zur Nutzerfrage ist. Der Threshold legt fest, ab welchem Wert der Chunk weiterverarbeitet wird.
Beispiel: Dein System findet fünf Chunks zu einer Anfrage und vergibt die Scores 0,91, 0,84, 0,79, 0,58 und 0,34. Wenn dein Score-Threshold bei 0,80 liegt, werden nur die ersten zwei Chunks übernommen. Die restlichen drei landen nicht im Prompt.
Merksatz: Ein Score-Threshold ist kein Qualitäts-Siegel für die ganze Antwort – sondern ein Filter für die Eingangsinfos.
Wie funktioniert das in einem LLM-Chatbot?
- Ein Nutzer stellt eine Frage, zum Beispiel: „Welche Leistungen enthält euer SEO-Paket für lokale Unternehmen?“
- Die Frage wird in einen Vektor umgewandelt.
- Die Vektorsuche vergleicht die Anfrage mit gespeicherten Chunks in deiner Wissensdatenbank.
- Jeder Treffer erhält einen Score.
- Der Score-Threshold filtert schwache Treffer heraus.
- Nur die verbleibenden Chunks werden an das LLM übergeben.
- Das LLM formuliert daraus die Antwort.
Wichtig: Je nach System ist der Score nicht immer gleich zu verstehen. In manchen Tools bedeutet ein höherer Wert „besser“. In anderen arbeitet das System mit Distanz, dann ist ein kleinerer Wert besser. Außerdem sind Scores nicht automatisch zwischen verschiedenen Tools vergleichbar. Deshalb solltest du nie blind einen festen Wert übernehmen (z.B. aus einem Blog oder einer Anleitung).
Wenn du mit Frameworks oder Plattformen wie OpenAI, Azure AI Search oder Weaviate arbeitest, findest du genau diese Logik in unterschiedlichen Varianten wieder. Der Grundgedanke bleibt aber gleich: schlechte Treffer sollen nicht in den Prompt Kontext.
Warum ist der Score-Threshold wichtig für Halluzinationen?
Halluzinationen entstehen nicht nur, weil ein LLM „fantasiert“. Sie entstehen oft auch, weil das System dem Modell irrelevante oder halbpassende Informationen gibt. Das Modell versucht dann trotzdem, daraus eine schlüssige Antwort zu bauen.
Ein sinnvoll gesetzter Score-Threshold reduziert dieses Risiko, weil schwache Treffer gar nicht erst in den Prompt gelangen. Das ist besonders relevant für faktenlastige Chatbots, etwa im Sales, bei Leistungsbeschreibungen, Preisen, Prozessen, Lieferzeiten oder Compliance-Fragen.
Aber: Ein Threshold allein löst das Problem nicht vollständig. Schlechte Chunks, unklare Dokumente, schlechtes Chunking oder ein schwacher Prompt können trotzdem zu schlechten Antworten führen.
Praxisbeispiel: Score-Threshold in einem Sales-Chatbot
Stell dir einen LLM Sales-Chatbot für eine Marketing-Agentur vor. Ein Nutzer fragt: „Bietet ihr auch Google Ads für E-Commerce-Shops an und ab welchem Budget lohnt sich das?“
Deine Wissensdatenbank enthält Chunks aus Leistungsseiten, Blogartikeln, internen Vertriebsleitfäden und einer alten Angebotsvorlage. Ohne guten Score-Threshold könnte der Chatbot auch alte oder nur halbpassende Inhalte ziehen. Dann antwortet er vielleicht mit veralteten Paketen oder vermischt SEO- und SEA-Leistungen.
Mit einem sauber getesteten Threshold bleiben nur die Chunks im Rennen, die wirklich zu Google Ads, E-Commerce und Budgeteinschätzung passen. Das erhöht die Chance auf eine klare, vertriebsstarke und fachlich saubere Antwort.
Die wichtigsten Vorteile
- Weniger irrelevante Chunks im Prompt
- Weniger Halluzinationen und weniger falsche Details
- Klarere Antworten, weil das LLM mit saubererem Kontext arbeitet
- Geringere Prompt-Menge und oft niedrigere Token-Kosten
- Bessere Kontrolle über die Antwortqualität
- Mehr Vertrauen bei Nutzern, Leads und Kunden
Wo kannst du Score-Thresholds einsetzen?
Score-Thresholds sind überall sinnvoll, wo ein LLM zuerst Inhalte sucht und dann Antworten formuliert. Besonders nützlich sind sie in diesen Bereichen:
- Website-Chatbots im Online Marketing – für Leistungen, Preise, Prozesse, Cases und FAQs
- Sales-Chatbots – für Angebotslogik, Zielgruppen, Einwände und Produktargumente
- Interne KI-Assistenten – für SOPs, Checklisten, Playbooks und Wissensdatenbanken
- Support-Chatbots – für Help Center, Anleitungen und Produktdokumentation
- E-Mail- und Content-Assistenten – wenn sie interne Guidelines oder Produktwissen nutzen sollen
Im Online Marketing macht ein Score-Threshold besonders dann Sinn, wenn Antworten fachlich belastbar sein müssen. Also nicht bei rein kreativen Brainstormings, sondern bei Themen wie Leistungsumfang, Tracking, Kampagnenlogik, CRM-Prozessen, Angebotsfragen oder internen Standards.
Wie wirst du gut im Einsatz damit?
Der beste Weg ist nicht Theorie, sondern Testen mit echten Fragen. Lege eine kleine Evaluationsliste mit realen Nutzerfragen an, zum Beispiel 30 bis 50 typische Fragen aus Sales, Support oder Marketing. Prüfe dann systematisch, welche Chunks mit welchem Threshold durchkommen und wie gut die finale Antwort wird.
Praktische Vorgehensweise
- Starte mit einem mittleren Threshold statt extrem streng oder extrem locker.
- Teste echte Nutzerfragen aus deinem Alltag.
- Prüfe nicht nur die Antwort, sondern auch die zugelassenen Chunks.
- Erhöhe den Threshold schrittweise, wenn zu viel Rauschen kommt.
- Senke ihn vorsichtig, wenn relevante Informationen zu oft fehlen.
- Kombiniere den Threshold mit Top-k, Hybrid Search und guten Prompts.
- Baue eine Fallback-Regel ein: Wenn nichts passt, soll der Chatbot ehrlich sagen, dass die Basis fehlt.
Ein sehr guter Ansatz ist die Kombination aus Vector Search und Keyword Search. Das kann gerade im Marketing helfen, wenn bestimmte Begriffe exakt wichtig sind, etwa Produktnamen, Tool-Namen, Kampagnentypen oder Abkürzungen.
Häufige Missverständnisse und Fehler
- „Es gibt den einen perfekten Threshold.“ Nein. Der passende Wert hängt von Embedding-Modell, Datenqualität, Chunking, Retrieval-Art und Use Case ab.
- „Ein hoher Threshold ist immer besser.“ Nein. Dann riskierst du, gute Treffer zu verlieren und zu wenig Kontext zu haben.
- „Threshold löst Halluzinationen komplett.“ Nein. Er hilft, aber er ersetzt kein gutes RAG-Design.
- „Score ist überall dasselbe.“ Nein. Manche Systeme nutzen Similarity, andere Distanz, andere hybride Re-Rankings.
- „Nur der Threshold zählt.“ Falsch. Chunk-Größe, Overlap, Metadatenfilter, Prompt Engineering und Dokumentqualität sind oft genauso wichtig.
- „Wenn nichts gefunden wird, soll das LLM trotzdem antworten.“ Das ist oft der direkte Weg zu Halluzinationen.
Best Practices als Checkliste
- Nutze echte Nutzerfragen statt künstlicher Testprompts
- Bewerte immer Retrieval und Antwort gemeinsam
- Trenne kreative Use Cases von faktenbasierten Use Cases
- Teste Thresholds nach Änderungen an Embeddings oder Chunking neu
- Nutze Metadatenfilter, wenn du Inhalte auf Produkte, Länder oder Zielgruppen eingrenzen kannst
- Plane eine klare „Ich weiß es nicht“-Strategie ein
- Dokumentiere, welcher Threshold für welchen Chatbot gilt
Fazit
Der Score-Threshold ist eine kleine Einstellung mit großer Wirkung. Er entscheidet mit darüber, ob dein LLM-Chatbot saubere, relevante Informationen bekommt oder unnötiges Rauschen. Gerade in RAG-Systemen für Online Marketing, Sales und Support ist er ein wichtiger Hebel gegen Halluzinationen und für bessere Antworten.
Die wichtigste Regel lautet: Übernimm keinen Grenzwert blind. Teste ihn an deinem echten Use Case. Ein guter Score-Threshold ist nicht theoretisch richtig, sondern praktisch nützlich.
Mini-Glossar
- Chunk – Ein kleiner Textabschnitt aus einem Dokument, der separat gesucht und an ein LLM übergeben werden kann.
- Embeddings – Eine numerische Darstellung von Text, mit der semantische Ähnlichkeit berechnet werden kann.
- Vektorsuche – Eine Suche über Embeddings, die inhaltlich ähnliche Inhalte findet.
- RAG – Ein Ansatz, bei dem externe Inhalte vor der Antwortsuche abgerufen und in den Prompt eingefügt werden.
- Top-k – Die Anzahl der besten Treffer, die nach der Suche grundsätzlich berücksichtigt werden.
- Hybrid Search – Eine Kombination aus Keyword-Suche und Vektorsuche.
- Reranking – Eine nachgelagerte Neubewertung von Treffern, um die Reihenfolge zu verbessern.
- Halluzinationen – Antworten eines LLM, die plausibel klingen, aber sachlich falsch oder nicht ausreichend belegt sind.
Wenn du diese Praxisbeispiele und Templates nicht verpassen möchtest, abonniere den Blog auf meiner Webseite und folge mir auf LinkedIn.
Häufige Fragen
Was ist ein Score-Threshold bei LLMs?
Ein Score-Threshold ist ein festgelegter Grenzwert, der entscheidet, ob ein gefundener Chunk für die Beantwortung einer Anfrage verwendet wird. In RAG-Systemen und bei LLM-Chatbots hilft dieser Wert dabei, nur ausreichend relevante Inhalte in den Prompt zu übernehmen.
Wie funktioniert ein Score-Threshold in einem RAG-Chatbot?
Bei einer Anfrage durchsucht das System die Wissensdatenbank und vergibt für jeden Treffer einen Score. Der Score-Threshold prüft dann, welche Treffer den Mindestwert erreichen. Nur diese Chunks werden an das LLM weitergegeben. So bekommt der Chatbot sauberere Informationen für seine Antwort.
Warum ist ein Score-Threshold wichtig gegen Halluzinationen?
Ein sinnvoll gesetzter Score-Threshold reduziert Halluzinationen, weil schwach passende oder irrelevante Inhalte aus dem Kontext entfernt werden. Das ist besonders wichtig in RAG-Systemen, in denen ein LLM auf interne Daten, FAQs oder Produktinformationen zugreift.
Ist ein hoher Score-Threshold immer besser?
Nein. Ein zu hoher Score-Threshold kann dazu führen, dass auch passende Inhalte herausgefiltert werden. Dann fehlen dem LLM wichtige Informationen. Ein zu niedriger Wert lässt dagegen zu viele schwache Treffer zu. Entscheidend ist deshalb ein sauber getesteter Mittelweg.
Wo werden Score-Thresholds im Online Marketing eingesetzt?
Im Online Marketing sind Score-Thresholds besonders nützlich bei Chatbots für Sales, Support, Leadgenerierung und Wissensdatenbanken. Sie helfen dabei, dass ein LLM nur relevante Inhalte zu Leistungen, Prozessen, Preisen oder Kampagnenlogiken verwendet.
Was ist der Unterschied zwischen Score und Score-Threshold?
Der Score ist der berechnete Zahlenwert für die Relevanz eines Treffers. Der Score-Threshold ist der Grenzwert, ab dem dieser Treffer akzeptiert wird. Kurz gesagt: Der Score misst die Ähnlichkeit, der Threshold trifft die Entscheidung.
Kann man einen Score-Threshold einfach aus einem anderen System übernehmen?
Nein, meistens nicht. Ein Score-Threshold hängt stark vom verwendeten Suchsystem, Embedding-Modell, Chunking und der Art des Scores ab. Deshalb solltest du Werte nicht blind übernehmen, sondern immer am eigenen RAG-Use-Case testen.
Wie finde ich den richtigen Score-Threshold für meinen LLM-Chatbot?
Der beste Weg ist ein Test mit echten Nutzerfragen. Prüfe, welche Chunks bei verschiedenen Threshold-Werten durchkommen und wie gut die Antworten werden. Ein guter Score-Threshold verbessert die Relevanz, ohne wichtige Informationen zu stark herauszufiltern.
Verhindert ein Score-Threshold alle Halluzinationen eines LLM?
Nein. Ein Score-Threshold ist ein wichtiger Hebel gegen Halluzinationen, aber nicht die einzige Lösung. Auch Datenqualität, Chunk-Größe, Suchstrategie, Metadatenfilter und gutes Prompt Engineering beeinflussen, wie zuverlässig ein LLM-Chatbot antwortet.
Für welche Unternehmen lohnt sich ein Score-Threshold besonders?
Ein Score-Threshold lohnt sich vor allem für Unternehmen, die LLM-Chatbots mit eigenem Wissen betreiben. Das gilt zum Beispiel für Agenturen, SaaS-Anbieter, E-Commerce-Shops, Berater und Support-Teams. Überall dort, wo Antworten korrekt und vertrauenswürdig sein müssen, ist diese Einstellung besonders wichtig.
