Entity-Aware Index Enrichment

Naive RAG setzt auf einen einzigen Retrieval-Kanal: Vektor-Suche über Embeddings. Das funktioniert gut für semantische Ähnlichkeit – „offene Forderung” findet „nicht bezahlte Rechnung” – versagt aber bei spezifischen, eindeutigen Bezeichnern. Eine Artikelnummer wie ART-4471-B hat im Vektorraum keine sinnvolle Nachbarschaft. Sie ist ein Punkt im Nirgendwo, umgeben von Rauschen.

Die Standardantwort der RAG-Community ist Hybrid Search: Ein zweiter Kanal – lexikalische Suche via BM25 über invertierte Indizes (z.B. PostgreSQL tsvector) – wird parallel abgefragt. Beide Ergebnislisten werden über Reciprocal Rank Fusion (RRF) oder vergleichbare Verfahren fusioniert.

Das ist ein solider Architekturschritt. Aber die Begründung bleibt in Tutorials und Dokumentationen oberflächlich – sinngemäß: „Keyword-Suche fängt auf, was Embeddings verpassen.” Warum genau? Was verpassen Embeddings strukturell? Und was bedeutet das für die Gestaltung beider Indizes?

Die Antwort liegt nicht in der Informatik, sondern in der Linguistik.

Die linguistische Begründung

Ferdinand de Saussure formulierte 1916 eines der Grundprinzipien der modernen Linguistik: Das sprachliche Zeichen ist arbiträr. Die Verbindung zwischen dem Lautbild (Signifikant) und dem Bezeichneten (Signifikat) ist konventionell – es gibt keinen inneren Grund, warum die Lautfolge „Baum” einen Baum bezeichnet und nicht ein Haus.

Gleichzeitig erkannte Saussure, dass Arbitrarität ein Spektrum ist. Manche Zeichen sind stärker motiviert als andere: Zusammensetzungen wie „Handschuh” tragen Bedeutungsspuren ihrer Bestandteile. Onomatopoetika wie „summen” oder „krachen” haben eine lautliche Verbindung zu ihrem Referenten. Die Motivation ist nie vollständig – kein Wort ist ein Abbild der Sache –, aber sie erzeugt Verwandtschaften, Nachbarschaften, ein semantisches Feld.

Charles Sanders Peirce, der Begründer der Semiotik, systematisierte das Spektrum weiter mit seiner Trichotomie der Zeichentypen:

Symbol: rein konventionell, arbiträr – „Hund”, „§ 437 BGB”, ART-4471-B
Index: kausal oder räumlich mit dem Referenten verbunden – Rauch als Zeichen für Feuer
Ikon: Ähnlichkeitsbeziehung zum Referenten – ein Piktogramm, eine Landkarte

Für den Kontext von Information Retrieval ist die entscheidende Achse: Wie viel Bedeutung trägt die Zeichenfolge selbst?

Arbiträre Symbole

Die Zeichenfolge hat keine natürliche Verbindung zur Bedeutung. Sie ist reine Konvention, vergeben durch ein System, eine Norm, eine Organisation.

ART-4471-B (Artikelnummer), P-2024-118 (Projektnummer), § 437 BGB (Gesetzesparagraph), Hoffmann & Söhne GmbH (Firmenname), DE89370400440532013000 (IBAN), SKU-8827 (Stock Keeping Unit).

Diese Bezeichner sind opak: Wer die Konvention nicht kennt, kann aus der Zeichenfolge nichts ableiten. Sie funktionieren wie Eigennamen – ihre Referenz ist fixiert, aber nicht aus der Form erschließbar.

Ein Embedding-Modell hat für diese Zeichenfolgen keine sinnvolle Repräsentation. Es wurde auf natürlicher Sprache trainiert, in der Wörter in Kontexten auftreten, die ihre Bedeutung konstituieren. ART-4471-B hat keinen semantischen Kontext – genauso wenig wie Hoffmann & Söhne GmbH als Zeichenfolge etwas über die Firma verrät. Die resultierenden Vektoren sind bestenfalls zufällig positioniert, schlimmstenfalls aktiv irreführend.

Motivierte Begriffe

Die Zeichenfolge trägt Bedeutung, steht in Beziehung zu anderen Begriffen, hat ein semantisches Umfeld.

Zahlungsverzug (verwandt mit: Mahnung, Frist, Forderung), Gewährleistung (verwandt mit: Mangel, Nachbesserung, Rücktritt), Lieferbedingung (verwandt mit: Incoterms, Transport, Gefahrübergang), Rahmenvertrag (verwandt mit: Laufzeit, Abruf, Konditionen).

Diese Begriffe sind transparent: Auch ohne Kontext kann ein kompetenter Sprecher (und ein Embedding-Modell) Verwandtschaften und Nachbarschaften erschließen. Sie bewegen sich in einem semantischen Raum, in dem Embedding-Modelle zuhause sind.

Die Konsequenz für Retrieval

Die Achse arbiträr/motiviert spiegelt die Stärken der beiden Retrieval-Kanäle:

Zeichentyp	BM25 (lexikalisch)	Embedding (semantisch)
Arbiträres Symbol (`ART-4471-B`)	Exakter Token-Match	Kein sinnvoller Vektor
Motivierter Begriff (`Zahlungsverzug`)	Exakter Match (wenn Term vorkommt)	Semantische Nachbarschaft
Semantisches Konzept (`offene Forderung`)	Nur bei lexikalischer Überlappung	Kernkompetenz

Das ist die eigentliche Begründung für Hybrid Search: Es geht nicht um Redundanz oder „zwei Meinungen einholen”. Es geht darum, dass natürliche Sprache strukturell verschiedene Zeichentypen enthält, die unterschiedliche Retrieval-Mechanismen erfordern.

BM25 ist der Anker für die symbolische Welt. Embeddings sind die Brücke in der semantischen Welt. Beide zusammen decken das Spektrum ab – aber nur wenn man die Stärken beider Kanäle auch gezielt bedient.

Quellen

de Saussure, F., “Cours de linguistique générale” (1916). Posthum herausgegeben von Charles Bally und Albert Sechehaye.
Peirce, C. S., “Collected Papers of Charles Sanders Peirce” (1931–1958). Bände II und IV, Harvard University Press.
Robertson, S. & Zaragoza, H., “The Probabilistic Relevance Framework: BM25 and Beyond” (2009). staff.city.ac.uk/~sbrp622/papers/foundations_bm25_review.pdf
Cormack, G. V. et al., “Reciprocal Rank Fusion outperforms Condorcet and Individual Rank Learning Methods” (SIGIR 2009). plg.uwaterloo.ca/~gvcormac/cormacksigir09-rrf.pdf

Das Chunk-Problem und der Stand der Technik

Hybrid Search allein löst ein fundamentales Problem nicht: Chunks sind Fragmente. Ein typisches Angebotsdokument enthält die Artikelnummer vielleicht einmal in der Kopfzeile und den Kundennamen im Briefkopf. Der Rest des Dokuments – Konditionen, Lieferbedingungen, Zahlungsziele – referenziert diese Entitäten implizit, ohne sie lexikalisch zu wiederholen.

Wenn das Dokument in Chunks zerlegt wird, geht diese implizite Zuordnung verloren. Chunk 5 handelt von Zahlungsbedingungen, aber der Kundenname aus dem Briefkopf und die Artikelnummer aus Chunk 1 sind nicht mehr erreichbar. Ein BM25-Query nach Hoffmann & Söhne oder ART-4471-B findet den Kopf-Chunk, aber nicht die inhaltlich relevanten Abschnitte. Die semantisch wichtigste Information bleibt unsichtbar.

Die Lösung ist Entity Propagation beim Ingestion: Entitäten, die beim Chunking verloren gehen würden, werden explizit an jeden Chunk des Dokuments angehängt – als Metadata, als zusätzlicher Text, oder beides.

Contextual Retrieval

Anthropics Contextual Retrieval (2024) adressiert das Chunk-Problem mit einem eleganten Ansatz: Ein LLM-Call pro Chunk erzeugt eine kurze kontextuelle Erklärung, die dem Chunk vorangestellt wird – sowohl für das Embedding als auch für den BM25-Index.

Ein Chunk wie „Zahlung innerhalb von 30 Tagen netto” wird angereichert zu: „Dieser Abschnitt stammt aus dem Angebot AN-2024-118 für die Hoffmann & Söhne GmbH und beschreibt die Zahlungskonditionen. Zahlung innerhalb von 30 Tagen netto.”

Das funktioniert. Anthropic berichtet eine Reduktion der Retrieval-Fehlerrate um 49%. Aber der Ansatz hat zwei strukturelle Eigenschaften, die Raum für Verbesserung lassen:

Undifferenzierte Anreicherung. Der generierte Kontexttext fließt identisch in beide Indizes – Embedding und BM25 erhalten denselben Input. Die Artikelnummer AN-2024-118 landet im Embedding-Input, wo sie den Vektor verschiebt, ohne semantischen Wert beizutragen. Und die Fachbegriffe aus dem Kontext landen im BM25-Text, wo sie gegenüber einem strukturierten Extraction-Ansatz keinen Mehrwert bieten.

Narrative Kompression. Der LLM-Call ist eine Zusammenfassung – und Zusammenfassungen komprimieren. Ein LLM, das einen Chunk kontextualisieren soll, wird die Haupt-Artikelnummer vielleicht erwähnen, aber die fünf Neben-Artikelnummern aus der Positionsliste weglassen. Für eine narrative Zusammenfassung sind sie irrelevant. Für ein BM25-Retrieval – wenn jemand nach einer spezifischen Positionsnummer sucht – sind sie entscheidend.

Der Ansatz ist lossy by design: Was das LLM nicht für den Kontext-Satz als relevant erachtet, geht verloren. Das ist für motivierte Begriffe akzeptabel – die stehen ohnehin im Chunk-Text. Für arbiträre Symbole, die nur einmal im Dokument auftauchen, ist es ein systematischer blinder Fleck.

Quellen

Anthropic, “Introducing Contextual Retrieval” (2024). anthropic.com/news/contextual-retrieval

Hier setzt das zentrale Konzept an: Die Entity Extraction beim Ingestion identifiziert nicht nur welche Entitäten in einem Dokument vorkommen, sondern klassifiziert sie nach ihrem Zeichentyp. Diese Klassifikation steuert, wie die extrahierten Entitäten in die bestehenden Indizes eingespeist werden – nicht als narrative Zusammenfassung, sondern als strukturierte, typengerechte Anreicherung.

Stufe 1 – Typklassifikation und Propagation

Der BM25-Index wird geschärft, weil arbiträre Symbole – Artikelnummern, Firmennamen, Projektkürzel – an jeden Chunk propagiert werden. Ein Query nach Hoffmann & Söhne oder ART-4471-B matcht jetzt nicht nur den einen Chunk, in dem der Name oder die Nummer steht, sondern jeden Chunk des zugehörigen Dokuments. Der lexikalische Index gewinnt Reichweite, ohne an Präzision zu verlieren.

Der Embedding-Index wird geschärft, weil motivierte Fachbegriffe – die zentralen Konzepte des Dokuments – als zusätzlicher Kontext in den Embedding-Input jedes Chunks einfließen. Ein Chunk, der nur „Zahlung innerhalb von 30 Tagen netto” enthält, bekommt den extrahierten Begriff „Zahlungsverzug” als Kontext dazu. Der Vektor dieses Chunks rückt näher an verwandte Konzepte im semantischen Raum – Mahnung, Forderung, Fristüberschreitung – und wird auffindbar für Queries, die semantisch verwandt, aber lexikalisch verschieden formuliert sind.

Der entscheidende Strukturvorteil gegenüber undifferenzierter Anreicherung: Weil jede Entität nur dort landet, wo sie Wert stiftet, kann die Extraction aggressiver werden. Bei Contextual Retrieval muss man konservativ bleiben – zwanzig Identifikatoren (Artikelnummern, Projektkürzel, Firmennamen) an jeden Chunk propagieren würde den Embedding-Input zumüllen. Bei typengerechter Anreicherung landen die zwanzig Nummern nur im BM25-Text. Der Embedding-Input bleibt sauber. Die Differenzierung hebt die Obergrenze für die Extraction-Tiefe an.

Stufe 2 – Spezialisierte Extraction

Die Konsequenz aus der Typklassifikation: Wenn die Zielsysteme unterschiedliche Fehlerprofile haben, sollte auch die Extraction unterschiedlich optimiert werden.

BM25 ist tolerant gegenüber false positives. Ein überflüssiger Term im Index schadet dem Ranking kaum. Embedding ist intolerant gegenüber false positives. Jeder irrelevante Begriff im Embedding-Input verschiebt den resultierenden Vektor.

Daraus folgt eine Zwei-Call-Architektur: Call 1 – Symbol Extraction (Ziel: BM25) optimiert auf Recall. Auch Neben-Artikelnummern, Unter-Projektnummern, referenzierte Normen – alles, was ein Nutzer als exakten Suchbegriff eingeben könnte. Call 2 – Concept Extraction (Ziel: Embedding) optimiert auf Precision. Nur Begriffe, die den Vektor in eine semantisch sinnvolle Richtung verschieben.

Mit Prompt Caching auf dem Quelldokument – das bei beiden Calls identisch ist – kosten zwei spezialisierte Calls kaum mehr als ein generischer. Der Mehraufwand ist marginal, die Spezialisierung substanziell.

Stufe 3 – Taxonomy Matching

Unabhängig von der Typklassifikation, aber verstärkend: Die extrahierten Entitäten werden gegen ein vordefiniertes Vokabular gematcht – Tags, Ordnerstrukturen, Kategorien, Kundenklassifikationen.

Das gibt strukturierte Facetten für Pre-Filtering – noch bevor BM25 oder Embedding überhaupt laufen. Eine Query wie „Zahlungsbedingungen Hoffmann” kann zuerst auf Kunde K-2847 gefiltert werden, dann durchsucht das System nur die Chunks dieses Kunden.

Diese Stufe unterscheidet sich von den ersten beiden in einem wesentlichen Punkt: Die Taxonomie kommt nicht aus dem LLM. Sie kommt aus dem Unternehmen – aus CRM-Systemen, ERP-Strukturen, Organigrammen, Produktkatalogen. Die Extraction-Schicht wird zum Bindeglied zwischen dem unstrukturierten Corpus und der Geschäftslogik des Kunden.

Einordnung

Die Unterscheidung arbiträr/motiviert ist mehr als eine akademische Analogie. Sie liefert ein kommunizierbares Entscheidungskriterium, das auch außerhalb der NLP-Community sofort verständlich ist.

Trägt die Zeichenfolge selbst Bedeutung, oder ist sie ein willkürlich vergebenes Kürzel?

Wenn ein Mensch, der den Begriff noch nie gesehen hat, etwas über seine Bedeutung erschließen kann → motiviert → stärkt den Embedding-Index
Wenn die Zeichenfolge ohne Kontextwissen unverständlich ist → arbiträr → stärkt den BM25-Index

Diese Prüfung ist domänenunabhängig. Sie funktioniert für juristische Aktenzeichen genauso wie für Maschinentypenbezeichnungen, für SAP-Materialnummern genauso wie für Markennamen. Die Achse ist, wie schon bei Saussure, ein Spektrum – in der Praxis ist die Binärunterscheidung ausreichend. Grenzfälle können konservativ behandelt werden: Im Zweifel beide Indizes anreichern.

Was es nicht ist

Es ist kein GraphRAG. Entity-Aware Index Enrichment extrahiert Entitäten, baut aber keinen Graphen. Ein Graph-Layer kann darauf aufsetzen, ist aber orthogonal.

Es ist kein Query Routing. Beide Indizes werden bei jeder Query abgefragt – die Schärfung passiert ausschließlich beim Ingestion.

Es ist keine Alternative zu Hybrid Search. Es ist eine Verbesserung innerhalb der bestehenden Architektur.

Fazit

Der Mehraufwand gegenüber undifferenzierter Anreicherung ist marginal. Der Effekt ist eine gezielte Signalverstärkung beider Retrieval-Kanäle, die gleichzeitig die Obergrenze für die Extraction-Tiefe anhebt – weil nicht alles in beide Indizes muss, kann jeder Index aggressiver und passgenauer bedient werden.

Das ist kein neues Retrieval-Verfahren. Es ist eine Entwurfsentscheidung innerhalb der bestehenden Hybrid-Search-Architektur – informiert durch Zeichentheorie, umgesetzt als Prompt-Design, wirksam als Signalqualität.