Neuer Ansatz in der Datenarchitektur: Databricks LTAP und Lakebase für eine vereinfachte Datenverarbeitung

Kategorien:

No items found.

Freigegeben:

June 27, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Databricks führt mit LTAP und Lakebase neue Ansätze ein, um die traditionelle Trennung zwischen operativen Datenbanken und analytischen Systemen zu überwinden.
Ziel ist es, die Notwendigkeit separater ETL-Pipelines zu reduzieren oder ganz zu eliminieren, indem Daten direkt aus einer einzigen Quelle für operative und analytische Zwecke nutzbar gemacht werden.
Die LTAP-Architektur (Lakehouse Transactional/Analytical Processing) ermöglicht transaktionales und analytisches Processing auf einer gemeinsamen Datenbasis, was zu schnelleren Einsichten und geringerer Komplexität führen soll.
Lakebase, insbesondere mit dem Change Data Feed (CDF), bietet die Möglichkeit, Datenänderungen aus operativen Datenbanken direkt in das Lakehouse zu speisen, ohne umfangreiche ETL-Prozesse.
Diese Entwicklungen adressieren das jahrzehntealte Problem der Datenfragmentierung und der damit verbundenen Herausforderungen bei der Bereitstellung von Daten für KI-Anwendungen.
Die Konsolidierung der Datenarchitektur verspricht eine Vereinfachung der Datenlandschaft, Kostensenkungen und eine Beschleunigung der Datenbereitstellung.

Revolution in der Datenarchitektur: Databricks' Vision einer ETL-freien Zukunft

Die Landschaft der Datenverarbeitung unterliegt einem stetigen Wandel, angetrieben durch die Notwendigkeit, immer größere Datenmengen effizient zu verarbeiten und für analytische Zwecke sowie künstliche Intelligenz nutzbar zu machen. Eine der zentralen Herausforderungen in diesem Bereich ist seit Jahrzehnten die Trennung zwischen operativen Datenbanken, die für Geschäftsabläufe essenziell sind, und analytischen Systemen, die für Berichterstattung und Entscheidungsfindung genutzt werden. Diese Trennung erforderte traditionell aufwendige ETL-Prozesse (Extract, Transform, Load), um Daten von einem System in das andere zu überführen. Databricks, ein führendes Unternehmen im Bereich Datenmanagement und KI, hat nun neue Technologien und Architekturen vorgestellt, die darauf abzielen, diese traditionellen ETL-Pipelines überflüssig zu machen und eine radikale Vereinfachung der Datenarchitektur zu ermöglichen. Im Fokus stehen dabei Konzepte wie LTAP (Lakehouse Transactional/Analytical Processing) und die Weiterentwicklung von Lakebase.

Die Herausforderung der Datenfragmentierung und traditionelles ETL

In vielen Unternehmen ist die Datenlandschaft historisch gewachsen und oft von einer Vielzahl spezialisierter Tools und Systeme geprägt. Operative Daten liegen in relationalen Datenbanken wie PostgreSQL oder MySQL, während für Analysen und Data Warehousing oft separate Systeme wie Snowflake oder andere Data Warehouses zum Einsatz kommen. Die Synchronisation und Transformation der Daten zwischen diesen Systemen erfordert komplexe ETL-Pipelines. Diese Fragmentierung führt zu einer Reihe von Problemen:

Komplexität und Wartungsaufwand: Jede Schnittstelle und jeder Transformationsschritt in einer ETL-Pipeline erhöht die Komplexität und den Wartungsaufwand.
Datenlatenz: Die Überführung von Daten zwischen Systemen ist zeitaufwendig, was zu Verzögerungen bei der Bereitstellung aktueller Informationen für Analysen führt.
Dateninkonsistenzen: Bei komplexen ETL-Prozessen können leicht Inkonsistenzen entstehen, wenn Daten nicht korrekt transformiert oder synchronisiert werden.
Kosten: Der Betrieb und die Pflege einer Vielzahl von Tools und Pipelines verursachen erhebliche Kosten.
Skalierungsprobleme: Traditionelle ETL-Ansätze können bei wachsenden Datenmengen und steigenden Anforderungen an die Echtzeitverarbeitung an ihre Grenzen stoßen.

Insbesondere im Zeitalter der KI, wo schnelle Zugriffe auf Live-Daten für Agentensysteme und Echtzeit-Analysen entscheidend sind, werden diese Einschränkungen immer deutlicher. Ein System, das kontinuierlich logische Schlussfolgerungen zieht und auf aktuellen Daten agiert, kann keine Wartezeiten durch Datenpipelines tolerieren.

LTAP: Die Konvergenz von Transaktions- und Analyseprozessen

Databricks adressiert diese Herausforderungen mit der Einführung von LTAP (Lakehouse Transactional/Analytical Processing). LTAP ist eine Architektur, die darauf abzielt, operative Datenbanken und analytische Systeme auf einer einzigen, gemeinsamen Datenbasis zu vereinen. Die Kernidee besteht darin, dass Unternehmen nicht länger zwei Kopien ihrer Daten vorhalten müssen – eine für den operativen Betrieb und eine für Analysen. Stattdessen ermöglicht LTAP, transaktionale Workloads und analytische Abfragen direkt auf denselben Daten im Lakehouse auszuführen.

Dies wird durch Technologien wie Lakehouse//RT ermöglicht, die Millisekunden-Abfragelatenz direkt auf Delta- und Iceberg-Tabellen bieten. Dadurch entfällt die Notwendigkeit einer dedizierten Echtzeit-Serving-Schicht, die Unternehmen bisher parallel zu ihren Lakehouses betreiben mussten. Die Vorteile von LTAP sind vielfältig:

Vereinfachung der Architektur: Eine einzige Datenbasis reduziert die Komplexität und den Wartungsaufwand erheblich.
Reduzierte Latenz: Analysen können direkt auf den aktuellsten operativen Daten durchgeführt werden, was zu schnelleren Einsichten und reaktionsfähigeren Systemen führt.
Kosteneinsparungen: Der Wegfall redundanter Datenspeicherung und komplexer ETL-Pipelines kann die Betriebskosten senken.
Verbesserte Datenkonsistenz: Da nur eine Datenquelle existiert, werden Inkonsistenzen minimiert.
Beschleunigung von KI-Anwendungen: KI-Agenten und andere Anwendungen können direkt auf Live-Daten zugreifen, was ihre Leistungsfähigkeit und Relevanz erhöht.

Lakebase und der Change Data Feed (CDF)

Ein weiterer Baustein in Databricks' Strategie zur Eliminierung von ETL ist die Weiterentwicklung von Lakebase, insbesondere durch den Lakebase Change Data Feed (CDF). Lakebase ist darauf ausgelegt, die Synchronisierung von Daten aus operativen Datenbanken mit dem Lakehouse zu vereinfachen. Der CDF, der sich in einer öffentlichen Vorschau befindet, ist hierbei ein entscheidender Schritt. Er eliminiert die Notwendigkeit umfassender Pipeline-Verbreitung aus operativen Datenbanken.

Mit CDF können Änderungen an Daten in operativen Datenbanken automatisch erfasst und in das Lakehouse übertragen werden, ohne dass komplexe ETL-Jobs oder separate Replikationsmechanismen erforderlich sind. Einmal pro Lakebase-Projekt aktiviert, stellt CDF die Änderungen jeder Tabelle über Unity Catalog Managed Tables zur Verfügung, sodass jede Engine, jedes Modell oder jeder Agent direkten Lesezugriff hat. Dies bedeutet:

Native CDC (Change Data Capture): CDF bietet eine native CDC-Funktionalität, die durchgängig verwaltet wird, ohne die Notwendigkeit von Sidecar-Infrastrukturen wie Datenbank-Konnektoren oder die Überwachung des Replikationsstatus.
Vereinfachte Datenintegration: Nachgelagerte Consumer, wie SDP-Streaming-Pipelines oder DBSQL-materialisierte Ansichten, können denselben isolierten Feed abonnieren, ohne die primäre Arbeitslast zu beeinträchtigen.
Operative Daten als Bronze-Schicht: Operative Daten können nun als native Bronze-Schicht in der Medaillon-Architektur fungieren, wodurch ein durchgängiger Datenfluss von operativen Systemen bis hin zu hochwertigen Gold-Daten für Anwendungen ermöglicht wird.

Diese Integration von operativen Daten in das Lakehouse mittels CDF schließt den Kreis und ermöglicht eine umfassende Datenverwaltung innerhalb einer einzigen Plattform.

Die Auswirkungen auf die Datenlandschaft und B2B-Anwendungen

Die Vision von Databricks, ETL zwischen Datenbanken und Analytics überflüssig zu machen, hat potenziell weitreichende Auswirkungen auf die Datenlandschaft von Unternehmen, insbesondere im B2B-Bereich. Die Konsolidierung von Datenarchitekturen und die Vereinfachung von Datenpipelines bieten mehrere Vorteile:

Beschleunigte Time-to-Insight: Unternehmen können schneller auf Marktveränderungen, Kundenbedürfnisse und operative Herausforderungen reagieren, da Analysen auf aktuellen Daten basieren.
Effizienzsteigerung im Datenmanagement: Data Engineers können sich auf komplexere Aufgaben konzentrieren, anstatt Zeit mit der Wartung und Fehlerbehebung von ETL-Pipelines zu verbringen.
Verbesserte Datenqualität und Governance: Eine einheitliche Datenbasis und der Unity Catalog für Metadatenverwaltung ermöglichen eine bessere Kontrolle über Datenqualität und Zugriffsrechte.
Ermöglichung neuer Anwendungsfälle: Echtzeit-Analysen und der direkte Zugriff auf operative Daten eröffnen neue Möglichkeiten für KI-gestützte Anwendungen, personalisierte Kundenerlebnisse und automatisierte Geschäftsprozesse.
Reduzierung des "Tool-Zoos": Die Vereinheitlichung der Plattform kann die Abhängigkeit von einer Vielzahl spezialisierter Tools reduzieren, was die IT-Infrastruktur vereinfacht.

Für B2B-Kunden, die oft mit komplexen und heterogenen Datenlandschaften zu kämpfen haben, stellen diese Entwicklungen eine potenzielle Lösung für langjährige Probleme dar. Die Möglichkeit, Daten aus verschiedenen Quellen in einem einzigen, vereinheitlichten System zu verwalten und zu analysieren, kann die Agilität und Wettbewerbsfähigkeit erheblich steigern.

Zukünftige Perspektiven

Die Einführung von LTAP und die Weiterentwicklung von Lakebase mit CDF markieren einen signifikanten Schritt in Richtung einer integrierten Datenplattform. Während traditionelle ETL-Prozesse in bestimmten Szenarien weiterhin ihre Berechtigung haben mögen, deutet die Richtung der Entwicklung klar auf eine Konvergenz von operativen und analytischen Workloads hin. Unternehmen, die diese neuen Architekturen implementieren, könnten von einer Vereinfachung ihrer Datenlandschaft, einer Beschleunigung ihrer Datenprozesse und einer verbesserten Grundlage für datengesteuerte Entscheidungen und KI-Anwendungen profitieren. Die Herausforderung wird darin bestehen, bestehende Legacy-Systeme schrittweise in diese neuen Architekturen zu integrieren und die Vorteile der Konsolidierung vollständig zu nutzen.

Bibliographie

- Databricks Blog. (2026, 29. April). SQL ETL für moderne Datenplattformen neu überdenken. Verfügbar unter: https://www.databricks.com/de/blog/rethinking-sql-etl-modern-data-platforms - Databricks Blog. (2026, 27. Mai). Ankündigung des Lakebase Change Data Feed (CDF). Verfügbar unter: https://www.databricks.com/de/blog/announcing-lakebase-change-data-feed-cdf - Heise Online. (2026, 26. Juni). Databricks will ETL zwischen Datenbanken und Analytics überflüssig machen. Verfügbar unter: https://de.linkedin.com/posts/heiseonline_databricks-will-etl-zwischen-datenbanken-activity-7476334014392438784-Cxd2 - Kerner, S. M. (2026, 16. Juni). Databricks says it solved the decades-old data pipeline problem that's been slowing AI agents. VentureBeat. Verfügbar unter: https://venturebeat.com/data/databricks-says-it-solved-the-decades-old-data-pipeline-problem-thats-been-slowing-ai-agents - Nweke, C. (2026, 17. Juni). Databricks new feature LTAP removes the need for ETL pipelines if you use lakebase. LinkedIn. Verfügbar unter: https://www.linkedin.com/posts/chidi-nweke-a3835a201_databricks-new-feature-ltap-removes-the-need-activity-7473012208176709632-jmn- - Peichl, M. (2026, 27. Februar). Schluss mit dem Tool-Zoo: Wie Lakeflow und Lakebase die Datenarchitektur radikal vereinfachen. adesso.de. Verfügbar unter: https://www.adesso.de/de/news/blog/schluss-mit-dem-tool-zoo-wie-lakeflow-und-lakebase-die-datenarchitektur-radikal-vereinfachen.jsp - Databricks. (o.D.). Produktions-ETL mit Lakeflow-Declarative-Pipelines erstellen. Verfügbar unter: https://www.databricks.com/de/resources/architectures/build-production-etl-with-lakeflow-declarative-pipelines - Grayoak. (2026, 13. März). Serverlose ETL-Architekturen mit Azure und Databricks: Legacy-Systeme ablösen und Datensilos aufbrechen. Verfügbar unter: https://grayoak.de/serverlose-etl-architekturen-mit-azure-und-databricks-legacy-systeme-abloesen-und-datensilos-aufbrechen/