Wie es gebaut ist

Das Fundament

Open-Source-Code. Peer-reviewed Forschung. Keine Magie, nur Mechanik.

FUNDAMENT 01 Code

Open Source Kern

Der Kern der RAG-Foundation ist Open Source. Sie können das System prüfen, sein Verhalten verstehen und es an Ihre Anforderungen anpassen. Kein proprietärer Lock-in, keine versteckten Kosten.

Kernfähigkeiten:

  • Zugriffskontrolle — Multi-Tenant-Authentifizierung, Benutzerverwaltung, Session-Handling
  • Dokumentenaufnahme — Strukturierte Verarbeitung und Indexierung für Retrieval
  • Abfrage & Retrieval — Kontextbewusste Antworten mit nachverfolgbaren Quellen
  • System-Observability — Logging, Nachverfolgbarkeit und operationale Metriken

Designed für Auditierbarkeit, langfristige Wartbarkeit und Infrastrukturkontrolle.

FUNDAMENT 02
ESSLLI 2025 JoLLI 2026

The Appearance of Meaning

Kontextabhängigkeit und semantische Kompetenz in Transformer-Architekturen

Akzeptiertes Paper lesen (ESSLLI 2025)

Peer-reviewed philosophischer Rahmen.

Wir operationalisieren „Appearance of Meaning" (AoM) in Transformer-Sprachmodellen als messbaren Kompetenzcluster: kontextsensitive Disambiguierung, kontrollierte Minimal-Pair-Sensitivität und Diskurs-Kohärenz. Wir schlagen eine Context-Primacy Thesis (CPT) vor: Bedeutungsrelevantes Verhalten wird kausal durch Token-im-Kontext-Relationen gesteuert, nicht durch statische lexikalische Träger.

Kernergebnisse (GPT-2 & Qwen2.5):

0.85–0.91
AoM-Gesamtscore
≈20–33%
Peak-Tiefe (Argmax-Layer)
0.67 → 3.11
Mean-Max-Effekt (Sham ≈ 0)

Ergänzend: 91–96% Disambiguation-Accuracy (cue-vulnerabel; nicht der Hauptträger im Paper).

CPT Kausale Signatur nach Layer

Layer-aufgelöste CPT-Signatur unter gezielten Interventionen. Das Sensitivitätsprofil ist modellabhängig; das kritische Ergebnis ist die konsistente Separation von Sham/Placebo über alle Layer.

Chart: Qwen2.5 (0.5B, 1.5B, 3B). Vollständige AoM + CPT Ergebnisse umfassen zusätzlich GPT-2 (124M). Sham-Patching ist nahe Null. SDH-Target-Specificity-Stresstest über 8 Checkpoints.

Warum das für Produkte wichtig ist:

Diese Forschung etabliert, dass moderne Sprachmodelle echt kontextsensitiv sind, anstatt einfache Pattern-Replay-Systeme zu sein. Für Produkte bedeutet das: Kontext kann als erstklassige Kontrollfläche behandelt werden – etwas, das getestet, überwacht und eingeschränkt werden kann, statt angenommen.

Detaillierte Methodik und Limitationen werden im vollständigen Paper diskutiert.

Für qualifizierte Leser während des Peer-Review-Prozesses verfügbar.

FUNDAMENT 03 Laufende Forschung

Language Games and Sedimented Semantics

Temporale Dimensionen der Context-Primacy in LLM-Agenten (t-CPT)

Wir entwickeln t-CPT: die Hypothese, dass Instruktionsbefolgung in LLM-Agenten durch wiederholte Interaktionsmuster stabilisiert wird („prozedurale Sedimente"), aber mit zeitlicher Distanz und Interferenz abnimmt. Wir operationalisieren dies als messbare Drift-Kurven unter kontrollierten Multi-Turn-Stresstests.

Pilotsignal unter kontrollierten Multi-Turn-Stresstests

Metrik: Schwellenwert-Offenlegungsrate — wie oft interne numerische Policy-Grenzwerte preisgegeben werden, wenn die Konversationslänge zunimmt.

10%
Baseline-Offenlegung — Turn 0
80%
Erhöhte Offenlegung — Turn 40
70%
Drift erkannt — Turn 80
55%
Degradiert — Turn 120

Temporale Drift-Kurve

Schwellenwert-Offenlegungsrate als Funktion der Konversationslänge. Messungen werden über dedizierte diagnostische Probes gewonnen, nicht über Produktionsnutzung.

Pilotsignal unter kontrollierten Multi-Turn-Stresstests. Vollständige Methodik auf Anfrage verfügbar.

Methodik: Diagnostische Probes

Wir führen dedizierte diagnostische Prompts aus, die das System unter Langkontext-Bedingungen belasten und Outputs gegen definierte Offenlegungsbeschränkungen bewerten. Das funktioniert mit jedem Modell (Open-Weight oder API), weil wir Outputs bewerten, nicht interne Zustände.

Warum das wichtig ist: Instruktionsbefolgung kann sich verschlechtern, wenn Interaktionen länger oder komplexer werden. Unsere Stresstests decken diese Fehlermodi früh auf, sodass Deployment-Entscheidungen auf beobachtetem Verhalten basieren – nicht auf Annahmen.

Diese Tests informieren Deployment-Readiness und Release-Entscheidungen in Produktionsumgebungen.

Unterstützt von

HessenIdeen · HessianAI · Goethe Unibator · Frankfurt School · Microsoft Founders Hub