Für was steht ACID?
A - Atomicity (Atomarität): "Ganz oder gar nicht."
Beispiel: Bei einer Überweisung muss das Geld vom Sender abgebucht UND beim Empfänger gutgeschrieben werden. Wenn einer der Schritte fehlschlägt, wird alles abgebrochen, als wäre nie etwas passiert. Es gibt keine "halben" Buchungen.
C - Consistency (Konsistenz): "Spiel nach den Regeln."
Beispiel: Die Datenbank erlaubt nur gültige Daten. Wenn du versuchst, Text in ein Feld zu schreiben, das nur Zahlen erlaubt (z. B. Kontostand), lehnt die Datenbank das ab.
I - Isolation: "Jeder für sich."
Beispiel: Wenn zwei Leute gleichzeitig denselben Kontostand abfragen und Geld abheben wollen, kommen sie sich nicht in die Quere. Für jeden Nutzer sieht es so aus, als wäre er der Einzige im System.
D - Durability (Dauerhaftigkeit): "In Stein gemeißelt."
Beispiel: Sobald die Datenbank "Okay, gespeichert!" sagt, sind die Daten sicher – selbst wenn eine Millisekunde später der Server abstürzt oder brennt.
Databricks: Gründung
2013
Aus einem Spark-Forschungsteam der University of California.
Databricks: Claim
„The Data Intelligence Platform – Unify all your data + AI“
Databricks: Das Konzept
Offenes Lakehouse
Verbindet Data Lake und Data Warehouse.
Basis: Apache Spark und Delta Lake.
Databricks: Kernbereiche
Vereint im offenen Lakehouse:
1. Data Engineering
2. Analytics
3. Streaming
4. KI
Batch Processing
Verarbeitung von Daten in großen Paketen (z.B. 1x täglich nachts), im Gegensatz zu Streaming (Echtzeit).
Change Data Capture (CDC)
Eine Technologie, die nur Änderungen in einer Datenbank erkennt und sofort weiterleitet (statt immer alles zu kopieren).
Data Catalog
Ein verzeichnisartiges System („Telefonbuch“), das beschreibt, welche Daten wo liegen und was sie bedeuten.
Data Lineage
Die „Ahnenforschung“ der Daten. Zeigt visuell, wo Daten herkommen und durch welche Prozesse sie gelaufen sind.
FinOps
„Financial Operations“. Die Praxis, Cloud-Kosten transparent zu machen, zu überwachen und zu optimieren.
Gold Layer (Data Mart)
Die dritte Schicht im Lakehouse. Enthält hoch-aggregierte, geschäftsrelevante Daten für Dashboards (z.B. Management-Reports).
Pseudonymisierung
Ersetzen von identifizierenden Merkmalen (Namen) durch künstliche Kennzeichen (Codes). Mit einem Schlüssel kann man es rückgängig machen (im Gegensatz zur Anonymisierung).
CI/CD
CI/CD steht für Continuous Integration / Continuous Deployment. Das ist eine automatisierte Fließbandstraße für Software. Wenn ein Entwickler den Code ändert, prüft dieses System automatisch auf Fehler und spielt die Änderung dann sicher in die Cloud ein.
Data Governance
Regelwerk für Datenqualität, Sicherheit, Zugriff und Datenschutz.
ERP
Enterprise Resource Planning. Software zur Steuerung von Geschäftsprozessen (z.B. SAP).
ETL
Extract, Transform, Load. Der klassische Prozess der Datenverarbeitung (Holen, Ändern, Speichern).
Feature Store
Zentraler Speicher für vorbereitete Kennzahlen/Merkmale, die von KI-Modellen genutzt werden.
Ingestion
Der Prozess, Daten aus einer Quelle in das eigene System zu importieren.
Infrastructure as Code (IaC)
Aufbau von Servern/Infrastruktur durch Programmcode (z.B. Terraform) statt durch manuelles Klicken.
JDBC
Standard-Schnittstelle ("Adapter"), um Java-Programme mit Datenbanken zu verbinden.
Medallion Architecture
Einteilung der Datenqualität in Schichten: Bronze (Roh), Silber (Bereinigt), Gold (Aggregiert/Business-Level).
ML Ops
Methoden und Werkzeuge, um Machine Learning Modelle zuverlässig im produktiven Betrieb zu managen.
REST API
Eine Schnittstelle, über die zwei Software-Systeme miteinander kommunizieren ("Kellner-Prinzip").
Terraform
Ein beliebtes Tool, um Infrastructure as Code umzusetzen.
Webhook
Eine Methode, mit der eine App einer anderen App automatisch mitteilt, dass etwas passiert ist (automatischer Benachrichtigungsauslöser).
YAML
Eine sehr einfach lesbare Sprache für Konfigurationsdateien (wird oft genutzt, um Einstellungen festzulegen).
Last changed8 days ago