Wie es gebaut ist
Das Fundament
Open-Source-Code. Peer-reviewed Forschung. Keine Magie, nur Mechanik.
Open Source Kern
Der Kern der RAG-Foundation ist Open Source. Sie können das System prüfen, sein Verhalten verstehen und es an Ihre Anforderungen anpassen. Kein proprietärer Lock-in, keine versteckten Kosten.
Kernfähigkeiten:
- Zugriffskontrolle — Multi-Tenant-Authentifizierung, Benutzerverwaltung, Session-Handling
- Dokumentenaufnahme — Strukturierte Verarbeitung und Indexierung für Retrieval
- Abfrage & Retrieval — Kontextbewusste Antworten mit nachverfolgbaren Quellen
- System-Observability — Logging, Nachverfolgbarkeit und operationale Metriken
Designed für Auditierbarkeit, langfristige Wartbarkeit und Infrastrukturkontrolle.
The Appearance of Meaning
Kontextabhängigkeit und semantische Kompetenz in Transformer-Architekturen
Peer-reviewed philosophischer Rahmen.
Wir operationalisieren „Appearance of Meaning" (AoM) in Transformer-Sprachmodellen als messbaren Kompetenzcluster: kontextsensitive Disambiguierung, kontrollierte Minimal-Pair-Sensitivität und Diskurs-Kohärenz. Wir schlagen eine Context-Primacy Thesis (CPT) vor: Bedeutungsrelevantes Verhalten wird kausal durch Token-im-Kontext-Relationen gesteuert, nicht durch statische lexikalische Träger.
Kernergebnisse (GPT-2 & Qwen2.5):
Ergänzend: 91–96% Disambiguation-Accuracy (cue-vulnerabel; nicht der Hauptträger im Paper).
CPT Kausale Signatur nach Layer
Layer-aufgelöste CPT-Signatur unter gezielten Interventionen. Das Sensitivitätsprofil ist modellabhängig; das kritische Ergebnis ist die konsistente Separation von Sham/Placebo über alle Layer.
Chart: Qwen2.5 (0.5B, 1.5B, 3B). Vollständige AoM + CPT Ergebnisse umfassen zusätzlich GPT-2 (124M). Sham-Patching ist nahe Null. SDH-Target-Specificity-Stresstest über 8 Checkpoints.
Warum das für Produkte wichtig ist:
Diese Forschung etabliert, dass moderne Sprachmodelle echt kontextsensitiv sind, anstatt einfache Pattern-Replay-Systeme zu sein. Für Produkte bedeutet das: Kontext kann als erstklassige Kontrollfläche behandelt werden – etwas, das getestet, überwacht und eingeschränkt werden kann, statt angenommen.
Detaillierte Methodik und Limitationen werden im vollständigen Paper diskutiert.
Für qualifizierte Leser während des Peer-Review-Prozesses verfügbar.
Language Games and Sedimented Semantics
Temporale Dimensionen der Context-Primacy in LLM-Agenten (t-CPT)
Wir entwickeln t-CPT: die Hypothese, dass Instruktionsbefolgung in LLM-Agenten durch wiederholte Interaktionsmuster stabilisiert wird („prozedurale Sedimente"), aber mit zeitlicher Distanz und Interferenz abnimmt. Wir operationalisieren dies als messbare Drift-Kurven unter kontrollierten Multi-Turn-Stresstests.
Pilotsignal unter kontrollierten Multi-Turn-Stresstests
Metrik: Schwellenwert-Offenlegungsrate — wie oft interne numerische Policy-Grenzwerte preisgegeben werden, wenn die Konversationslänge zunimmt.
Temporale Drift-Kurve
Schwellenwert-Offenlegungsrate als Funktion der Konversationslänge. Messungen werden über dedizierte diagnostische Probes gewonnen, nicht über Produktionsnutzung.
Pilotsignal unter kontrollierten Multi-Turn-Stresstests. Vollständige Methodik auf Anfrage verfügbar.
Methodik: Diagnostische Probes
Wir führen dedizierte diagnostische Prompts aus, die das System unter Langkontext-Bedingungen belasten und Outputs gegen definierte Offenlegungsbeschränkungen bewerten. Das funktioniert mit jedem Modell (Open-Weight oder API), weil wir Outputs bewerten, nicht interne Zustände.
Warum das wichtig ist: Instruktionsbefolgung kann sich verschlechtern, wenn Interaktionen länger oder komplexer werden. Unsere Stresstests decken diese Fehlermodi früh auf, sodass Deployment-Entscheidungen auf beobachtetem Verhalten basieren – nicht auf Annahmen.
Diese Tests informieren Deployment-Readiness und Release-Entscheidungen in Produktionsumgebungen.
Unterstützt von
HessenIdeen · HessianAI · Goethe Unibator · Frankfurt School · Microsoft Founders Hub