Data Cloud Platform

Buffl

Cloud / Architektur / Etc.

by Patrick N.

Für was steht ACID?

A - Atomicity (Atomarität): "Ganz oder gar nicht."
- Beispiel: Bei einer Überweisung muss das Geld vom Sender abgebucht UND beim Empfänger gutgeschrieben werden. Wenn einer der Schritte fehlschlägt, wird alles abgebrochen, als wäre nie etwas passiert. Es gibt keine "halben" Buchungen.
C - Consistency (Konsistenz): "Spiel nach den Regeln."
- Beispiel: Die Datenbank erlaubt nur gültige Daten. Wenn du versuchst, Text in ein Feld zu schreiben, das nur Zahlen erlaubt (z. B. Kontostand), lehnt die Datenbank das ab.
I - Isolation: "Jeder für sich."
- Beispiel: Wenn zwei Leute gleichzeitig denselben Kontostand abfragen und Geld abheben wollen, kommen sie sich nicht in die Quere. Für jeden Nutzer sieht es so aus, als wäre er der Einzige im System.
D - Durability (Dauerhaftigkeit): "In Stein gemeißelt."
- Beispiel: Sobald die Datenbank "Okay, gespeichert!" sagt, sind die Daten sicher – selbst wenn eine Millisekunde später der Server abstürzt oder brennt.

Databricks: Gründung

2013

Aus einem Spark-Forschungsteam der University of California.

Databricks: Claim

„The Data Intelligence Platform – Unify all your data + AI“

Databricks: Das Konzept

Offenes Lakehouse

Verbindet Data Lake und Data Warehouse.

Basis: Apache Spark und Delta Lake.

Databricks: Kernbereiche

Vereint im offenen Lakehouse:

1. Data Engineering

2. Analytics

3. Streaming

4. KI

Batch Processing

Verarbeitung von Daten in großen Paketen (z.B. 1x täglich nachts), im Gegensatz zu Streaming (Echtzeit).

Change Data Capture (CDC)

Eine Technologie, die nur Änderungen in einer Datenbank erkennt und sofort weiterleitet (statt immer alles zu kopieren).

Data Catalog

Ein verzeichnisartiges System („Telefonbuch“), das beschreibt, welche Daten wo liegen und was sie bedeuten.

Data Lineage

Die „Ahnenforschung“ der Daten. Zeigt visuell, wo Daten herkommen und durch welche Prozesse sie gelaufen sind.

FinOps

„Financial Operations“. Die Praxis, Cloud-Kosten transparent zu machen, zu überwachen und zu optimieren.

Gold Layer (Data Mart)

Die dritte Schicht im Lakehouse. Enthält hoch-aggregierte, geschäftsrelevante Daten für Dashboards (z.B. Management-Reports).

Pseudonymisierung

Ersetzen von identifizierenden Merkmalen (Namen) durch künstliche Kennzeichen (Codes). Mit einem Schlüssel kann man es rückgängig machen (im Gegensatz zur Anonymisierung).

CI/CD

CI/CD steht für Continuous Integration / Continuous Deployment. Das ist eine automatisierte Fließbandstraße für Software. Wenn ein Entwickler den Code ändert, prüft dieses System automatisch auf Fehler und spielt die Änderung dann sicher in die Cloud ein.

Data Governance

Regelwerk für Datenqualität, Sicherheit, Zugriff und Datenschutz.

ERP

Enterprise Resource Planning. Software zur Steuerung von Geschäftsprozessen (z.B. SAP).

ETL

Extract, Transform, Load. Der klassische Prozess der Datenverarbeitung (Holen, Ändern, Speichern).

Feature Store

Zentraler Speicher für vorbereitete Kennzahlen/Merkmale, die von KI-Modellen genutzt werden.

Ingestion

Der Prozess, Daten aus einer Quelle in das eigene System zu importieren.

Infrastructure as Code (IaC)

Aufbau von Servern/Infrastruktur durch Programmcode (z.B. Terraform) statt durch manuelles Klicken.

JDBC

Standard-Schnittstelle ("Adapter"), um Java-Programme mit Datenbanken zu verbinden.

Medallion Architecture

Einteilung der Datenqualität in Schichten: Bronze (Roh), Silber (Bereinigt), Gold (Aggregiert/Business-Level).

ML Ops

Methoden und Werkzeuge, um Machine Learning Modelle zuverlässig im produktiven Betrieb zu managen.

REST API

Eine Schnittstelle, über die zwei Software-Systeme miteinander kommunizieren ("Kellner-Prinzip").

Terraform

Ein beliebtes Tool, um Infrastructure as Code umzusetzen.

Webhook

Eine Methode, mit der eine App einer anderen App automatisch mitteilt, dass etwas passiert ist (automatischer Benachrichtigungsauslöser).

YAML

Eine sehr einfach lesbare Sprache für Konfigurationsdateien (wird oft genutzt, um Einstellungen festzulegen).

Join Course

Preview

Author

Patrick N.

Information

Last changed
7 months ago

Report course