Neues Fundamentmodell für tabellarisches In-Context Learning von Lexsi Labs

Kategorien:

No items found.

Freigegeben:

November 9, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Lexsi Labs hat mit Orion-MSP ein neues Fundamentmodell für tabellarische Daten vorgestellt.
Orion-MSP nutzt Multi-Scale Sparse Attention, um komplexe Interaktionen auf verschiedenen Ebenen zu erfassen.
Das Modell erreicht laut Studien eine herausragende Leistung im In-Context Learning für tabellarische Daten.
Es adressiert Limitationen bestehender Modelle wie die Verarbeitung heterogener Feature-Typen und die Skalierung bei hohen Dimensionen.
Die Architektur beinhaltet drei Schlüsselkomponenten: mehrskalige Verarbeitung, Block-Sparse Attention und einen Perceiver-ähnlichen Speicher.
Orion-MSP ist darauf ausgelegt, auch in datenreichen und hochdimensionalen Umgebungen effizient zu arbeiten.

Die Verarbeitung und Analyse tabellarischer Daten stellt in zahlreichen Anwendungsbereichen, von der Finanzbranche bis zur Medizin, eine zentrale Herausforderung dar. Trotz der Dominanz tabellarischer Daten in der realen Welt bleibt die Entwicklung effektiver neuronaler Modelle für diese Art von Daten aufgrund heterogener Feature-Typen und komplexer Interaktionen über verschiedene Skalen hinweg anspruchsvoll. Jüngste Fortschritte im Bereich des tabellarischen In-Context Learning (ICL) haben zwar Modelle hervorgebracht, die eine vergleichbare Leistung wie Gradient-Boosted Trees (GBTs) ohne aufgabenspezifisches Fine-Tuning erreichen, jedoch weisen bestehende Architekturen spezifische Einschränkungen auf. Diese betreffen unter anderem die einheitliche ein-skalige Feature-Verarbeitung, die hierarchische Abhängigkeiten vernachlässigt, die Skalierung dichter Aufmerksamkeitsmechanismen bei zunehmender Tabellenbreite sowie die strikt sequentielle Verarbeitung von Komponenten, die eine iterative Repräsentationsverfeinerung und eine übergreifende Kommunikation verhindert.

Orion-MSP: Ein neuer Ansatz für tabellarisches In-Context Learning

Vor diesem Hintergrund hat Lexsi Labs ein neues Fundamentmodell namens Orion-MSP vorgestellt. Dieses Modell zielt darauf ab, die genannten Limitationen zu überwinden und einen neuen Standard für effizientes tabellarisches In-Context Learning zu etablieren. Orion-MSP zeichnet sich durch drei zentrale Innovationen aus:

Mehrskalige Verarbeitung: Das Modell ist darauf ausgelegt, hierarchische Feature-Interaktionen über verschiedene Granularitäten hinweg zu erfassen. Dies ermöglicht es, sowohl lokale als auch globale Muster in den Daten zu erkennen.
Block-Sparse Attention: Um die Skalierbarkeit und Effizienz zu verbessern, kombiniert Orion-MSP verschiedene Aufmerksamkeitsmuster. Dazu gehören Fenster-basierte Aufmerksamkeit für lokale Konnektivität, globale Token für weitreichende Abhängigkeiten und zufällige Verknüpfungen für eine universelle Approximation. Diese Kombination reduziert die Komplexität der Aufmerksamkeit von einer quadratischen zu einer annähernd linearen Beziehung in Bezug auf die Anzahl der Features.
Perceiver-ähnlicher Speicher: Eine Speicherkomponente im Stil eines Perceiver-Modells ermöglicht einen bidirektionalen Informationsfluss zwischen den Komponenten, während gleichzeitig die Sicherheit des In-Context Learnings gewährleistet wird. Das bedeutet, dass Testdaten die Trainingsrepräsentationen nicht beeinflussen können.

Architektonische Details und Funktionsweise

Die Architektur von Orion-MSP gliedert sich in mehrere Kernkomponenten, die zusammenwirken, um die genannten Ziele zu erreichen:

Spaltenweise Einbettung

Die spaltenweise Einbettung basiert auf dem Ansatz von TabICL und verwendet Set Transformer mit Induced Set Attention Blocks (ISAB). Diese Komponente generiert permutationsinvariante, verteilungsbewusste Einbettungen, indem sie den Wert jeder Zelle im Kontext der statistischen Eigenschaften ihrer Spalte modelliert. Ein entscheidender Aspekt hierbei ist, dass ISAB ausschließlich Trainingsstichproben zur Berechnung der Induktionspunkte verwendet, wodurch ein Informationsleck von Testdaten verhindert wird.

Mehrskalige Sparse Row Interaction

Diese Komponente ist verantwortlich für die Erfassung von Abhängigkeiten zwischen Features auf mehreren Granularitätsebenen – einzelne Features (Skala 1), Gruppen von 4 und Gruppen von 16. Dies ermöglicht es dem Modell, sowohl lokale als auch globale Muster zu lernen. Die hierarchische Verarbeitung wird durch die strukturierte Block-Sparse Attention unterstützt. Diese kombiniert:

Sliding Window Attention: Für lokale Konnektivität.
Globale Token: Für die Erfassung von Langzeitabhängigkeiten.
Zufällige Verknüpfungen: Für eine verbesserte universelle Approximation.

Diese Designentscheidung reduziert die Aufmerksamkeitskomplexität signifikant und macht das Modell auch für hochdimensionale Datensätze praktikabel.

Cross-Component Perceiver Memory

Der Perceiver-ähnliche Cross-Component Memory ist ein zentrales Element für den sicheren und effektiven Wissensaustausch. Er führt einen latenten Engpass ein, bestehend aus lernbaren Speicherplätzen, die als gemeinsamer Repräsentationsraum dienen. Während der Schreibphase werden nur Einbettungen von Trainingsstichproben zur Aktualisierung des Speichers über Cross-Attention verwendet. Dies stellt sicher, dass Testdaten den gelernten Kontext nicht beeinflussen können. In der Lesephase greifen sowohl Trainings- als auch Teststichproben auf diesen Speicher zu, um ihre Repräsentationen zu verfeinern. Dieser asymmetrische Lese-Schreib-Mechanismus garantiert, dass die Vorhersage für jede Teststichprobe ausschließlich vom Trainingssatz und der Testeingabe selbst abhängt.

Dataset-weites In-Context Learning

Das ICL-Modul integriert Label durch Hinzufügen von One-Hot-kodierten Label-Einbettungen zu den Trainings-Reihenrepräsentationen. Ein Split-Masked Transformer erzwingt anschließend eine gerichtete Aufmerksamkeit: Trainingsstichproben achten nur auf andere Trainingsstichproben, während Teststichproben sowohl auf Trainings- als auch auf Teststichproben achten können, jedoch nicht umgekehrt. Dies stellt sicher, dass Testvorhersagen auf dem gelabelten Kontext basieren, ohne ein Leck von Test- zu Trainingsdaten zu ermöglichen. Für Datensätze mit einer großen Anzahl von Klassen wird eine hierarchische Klassifizierungsstrategie angewandt, um die Effizienz zu wahren. Das gesamte Modell wird End-to-End mit einer Cross-Entropy-Loss-Funktion trainiert, was eine gemeinsame Optimierung für die In-Context Learning-Leistung ermöglicht.

Experimentelle Evaluierung und Ergebnisse

Die Leistungsfähigkeit von Orion-MSP wurde umfassend auf mehreren Benchmarks und realen Datensätzen evaluiert. Die Studien umfassten die Benchmark-Suiten TALENT (154 Datensätze), OpenML-CC18 (63 Datensätze) und TabZilla (27 Datensätze, Stand der Informationen). Zusätzlich erfolgte eine domänenspezifische Analyse auf medizinischen und finanziellen Datensätzen.

Die Ergebnisse zeigen, dass Orion-MSP einen durchschnittlichen Rang von 3,58 über alle Benchmarks hinweg erreicht. Dies bedeutet, dass es die meisten Baselines übertrifft und in der Gesamtleistung nur von TabPFN übertroffen wird. Auf OpenML-CC18 erreichte das Modell eine Genauigkeit von 0,8722 (Rang 4,12) und auf TabZilla von 0,8821 (Rang 3,84), was eine starke Zero-Shot-Generalisierung demonstriert.

Eine detaillierte Analyse nach Datensatzmerkmalen ergab, dass Orion-MSP besonders in hochdimensionalen Umgebungen (>100 Features) hervorragend abschneidet, wo Modelle mit dichter Aufmerksamkeit aufgrund von Speicherbeschränkungen an ihre Grenzen stoßen. Es zeigte auch eine herausragende Leistung bei unausgewogenen Datensätzen, mit einer Genauigkeit von 0,8840 und einem F1-Score von 0,8731, was darauf hindeutet, dass die mehrskalige Aufmerksamkeit Signale von Minderheitenklassen effektiv verstärkt. In domänenspezifischen Evaluationen erreichte Orion-MSP den ersten Rang im Finanzbereich (ACC=0,8158, mittlerer Rang=4,60) und den zweiten Rang bei medizinischen Datensätzen (ACC=0,8045), was auf seine Fähigkeit zur Modellierung hierarchischer und übergreifender Feature-Abhängigkeiten zurückzuführen ist. Das Modell zeigte eine konsistente Leistung über verschiedene Datensatzgrößen hinweg, von kleinen (<1.000 Stichproben) bis zu großen (>10.000 Stichproben), was seine Robustheit in datenarmen als auch datenreichen Szenarien unterstreicht.

Diese Ergebnisse bestätigen, dass die Kombination aus hierarchischer Verarbeitung, dünner Aufmerksamkeit und Cross-Component Memory Orion-MSP befähigt, in vielfältigen tabellarischen Lernumgebungen effektiv zu generalisieren, während die Rechenbarkeit für breite Tabellen erhalten bleibt.

Fazit

Orion-MSP stellt einen bedeutenden Fortschritt im Bereich des In-Context Learning für tabellarische Daten dar. Durch die Einführung von mehrskaliger Verarbeitung, Block-Sparse Attention und einem Perceiver-ähnlichen Speicher adressiert es zentrale Herausforderungen, die bei der Modellierung komplexer tabellarischer Strukturen auftreten. Die Fähigkeit des Modells, hierarchische Abhängigkeiten zu erfassen und effizient mit hochdimensionalen Datensätzen umzugehen, positioniert es als ein leistungsstarkes Werkzeug für diverse reale Anwendungen. Die Ergebnisse der experimentellen Evaluierung untermauern das Potenzial von Orion-MSP, die Leistung in tabellarischen Datenanalysen maßgeblich zu verbessern und neue Standards in diesem Bereich zu setzen. Das Modell ist öffentlich zugänglich, was eine weitere Erforschung und Anwendung in der Community ermöglicht.

Bibliografie

- Bouadi, Mohamed; Seth, Pratinav; Tanna, Aditya; Sankarapu, Vinay Kumar. "Orion-MSP: Multi-Scale Sparse Attention for Tabular In-Context Learning." arXiv preprint arXiv:2511.02818, 2025. - "Multi-Scale Sparse Attention for Tabular In-Context Learning." arXiv.org, 15. Februar 2022. - "Orion-MSP: Multi-Scale Sparse Attention for Tabular In-Context Learning." Hugging Face Daily Papers, 6. November 2025. - "Orion-MSP: Multi-Scale Sparse Attention for Tabular In-Context Learning." ChatPaper, 5. November 2025.