Was ist das Ziel von DAta Science?
Bei Data-Science-Projekten geht es meistens darum:
👉 Modelle zu trainieren, die Vorhersagen treffen können.
Beispiel:
Spam-Mail erkennen
Besucherzahlen vorhersagen
Produktempfehlungen geben
Benne mir die Arten des Maschinellen lernens.
Es gibt drei wichtige Lernarten:
Lernart
Bedeutung
Überwachtes Lernen
Lernen mit bekannten Lösungen
Unüberwachtes Lernen
Muster selbst entdecken
Reinforcement Learning
Lernen durch Belohnung/Bestrafung
Was ist überwachtes Lernen?
Gib ein Beispiel dazu.
Hier bekommt das Modell:
Eingabedaten
und die richtige Lösung dazu.
Gib ein Beispiel zum überwachten lernen.
Das Modell bekommt viele E-Mails.
Zu jeder E-Mail weiß man bereits:
Spam
oder kein Spam.
Das Modell lernt daraus Regeln.
Viele Algorithmen des überwachten Lernens verwenden tabellarische Datensätze, um Modelle des maschinellen Lernens zu trainieren. Betrachten wir ein Modell zur Klassifizierung von E-Mails als Spam oder Nicht-Spam.
Wie werden die Spalten des Trainingsdatensatzes bezeichnet?
Wie werden die Zeilen bezeichnet?
Wie wird die Spalte bezeichnet die die Zielvariable beinhaltet?
Features
Samples
Label
Was sind Features?
Features sind Eigenschaften der Daten.
Anzahl der Empfänger
bestimmte Wörter
Länge der E-Mail
Was sind Samples?
Samples sind einzelne Datenzeilen.
eine einzelne E-Mail.
Was sind Label?
Das Label ist die richtige Lösung.
„Spam“
„Kein Spam“
Sobald das Modell trainiert wurde, kann es zur Vorhersage von zuvor unbekannten Beobachtungen verwendet werden,
z. B. der Wahrscheinlichkeit, dass es sich bei einer unbekannten E-Mail um Spam handelt.
Wie nennt man die Phase der Modellvorhersage?
Nach dem Training macht das Modell Vorhersagen für neue Daten.
Beispiel: 👉 „Diese neue E-Mail ist wahrscheinlich Spam.“
Was versteht man unter Overfitting?
Das Modell lernt die Trainingsdaten zu genau auswendig.
Dann funktioniert es schlecht bei neuen Daten.
Was muss man tun um Overfitting zu vermeiden?
Die Daten werden aufgeteilt:
Datensatz
Zweck
Trainingsdaten
Modell lernen
Testdaten
Modell testen
Das nennt man:
Was sind Parameter und Hyperparameter?
Das Modell lernt diese automatisch während des Trainings.
Diese werden vorher festgelegt.
Beispiele:
Lernrate
Algorithmus
Anzahl der Trainingsdurchläufe
Hyperparameter steuern also: 👉 wie das Training abläuft.
Was versteht man unter Unüberwachtem Lernen? (Unsupervised Learning)
Hier gibt es: ❌ keine Labels.
Das Modell sucht selbst Muster in den Daten.
E-Mails automatisch nach Themen gruppieren:
Arbeit
Werbung
Schule
Privat
Was ist Reinforcement Learning?
Hier lernt ein Modell durch:
✅ Belohnungen ❌ Bestrafungen
gute Züge → Belohnung
schlechte Züge → Bestrafung
Dadurch lernt das Modell bessere Strategien.
Viele Data-Science-Projekte basieren auf dem CRISP-DM.
Beschreibe seine 6 Phasen.
Welches Problem soll gelöst werden?
Spam erkennen
Umsatz vorhersagen
Welche Daten gibt es?
Man untersucht:
Datenqualität
Datenstruktur
Vollständigkeit
Daten werden vorbereitet:
bereinigt
sortiert
umgewandelt
Verschiedene:
Algorithmen
Einstellungen
Hyperparameter
werden getestet.
Die Modelle werden verglichen:
👉 Welches Modell macht die besten Vorhersagen?
Das beste Modell wird produktiv eingesetzt.
Dann kann es:
Vorhersagen liefern,
von Anwendungen genutzt werden.
Warum sind diese wichtig?
Es gibt Tools, die:
mit AWS,
Azure,
Google Cloud
funktionieren.
Das ist wichtig, um: ✅ flexibel zu bleiben ✅ Vendor Lock-In zu vermeiden
Benne die beiden bekannten Anbieterunabhängigen Dienste.
In diesem Text geht es besonders um:
MLflow
Databricks
MLflow ist eine:
✅ Open-Source-Plattform für Machine Learning
Sie hilft bei:
Training,
Organisation,
Vergleich,
Speicherung,
Bereitstellung
von ML-Modellen.
Welche Probleme können entstehen beim maschinellen Lernen ohne MLflow?
Beim Trainieren von Modellen testet man oft:
verschiedene Algorithmen,
unterschiedliche Hyperparameter,
viele Experimente.
Ohne Organisation wird das schnell unübersichtlich.
MLflow organisiert:
Experimente,
Modelle,
Parameter,
Ergebnisse.
Welches sind die 4 Hauptkomponenten von MLflow?
1. MLflow Tracking
2. MLflow Projects
3. MLflow Models
4. MLflow Model Registry
Beschreibe MLflow Tracking.
Speichert:
Metriken,
Ergebnisse,
Experimente.
Beschreibe MLflow Projects
Modelle werden als portable Projekte gespeichert.
Dadurch können Projekte:
leicht geteilt,
auf anderen Systemen ausgeführt,
in der Cloud genutzt
werden.
MLflow nutzt:
Docker
Conda
für die Portabilität.
Beschreibe MLflow Models
Modelle werden so gespeichert, dass sie einfach bereitgestellt werden können.
lokal
Cloud
API
Beschreibe MLflow Model Registry
Zentrale Verwaltung trainierter Modelle.
Dort kann man:
Modelle speichern,
vergleichen,
versionieren,
produktiv einsetzen.
Was sind Apache Spark?
Dies ist ein beliebtes Framework für die Verarbeitung großer Datenmengen.
Was ist Databricks?
Databricks ist eine Plattform für Data Science, Big Data und Machine Learning in der Cloud.
Sie wurde 2013 von Entwicklern gegründet, die auch an Apache Spark und MLflow gearbeitet haben.
Was ist das Ziel von Databricks?
Das Ziel von Databricks ist:
große Datenmengen einfach verarbeiten,
Machine-Learning-Modelle trainieren,
und alles zentral in der Cloud verwalten.
Databricks stellt fertige Spark-Cluster bereit.
Was bedeuted das?
Das bedeutet:
Unternehmen müssen keine Server selbst verwalten.
Databricks übernimmt Infrastruktur, Skalierung und Wartung.
Die Plattform läuft auf:
AWS
Microsoft Azure
Was ist das Lakehouse-Konzept?
Was sind die Vorteile davon?
Databricks nutzt das sogenannte Lakehouse.
Ein Lakehouse verbindet:
Data Lake → speichert große, auch unstrukturierte Daten
Data Warehouse → speichert strukturierte Daten für Analysen
Dadurch können alle Daten zentral gespeichert und genutzt werden.
Vorteile:
weniger Datensilos
bessere Zusammenarbeit
einheitliche Datenplattform
Benenne die drei Stufen in denen Databricks seine Daten organisiert.
Databricks organisiert Daten oft in 3 Ebenen:
rohe Originaldaten
noch nicht bearbeitet
teilweise bereinigte/verarbeitete Daten
z. B. zusammengeführte Tabellen
vollständig aufbereitete Daten
direkt für Berichte und Analysen nutzbar
Databricks bietet eine spezielle Umgebung für Machine Learning.
Dort können:
Modelle trainiert,
getestet,
gespeichert,
und bereitgestellt werden.
Welche Dienste bietet Google Cloud Platform?
Google Cloud Platform (GCP) bietet viele Dienste für:
Data Science
Big Data
Machine Learning (ML)
Künstliche Intelligenz (KI)
Man kann dabei entweder:
alles selbst verwalten,
oder fertige Cloud-Dienste von Google nutzen.
Benenne 4 wichtige Dienste auf GCP
verarbeitet große Datenmengen
für Datenpipelines
verwaltet Workflows und Datenpipelines
basiert auf Apache Airflow
verwaltete Spark- und Hadoop-Cluster
für Big-Data-Verarbeitung
Machine Learning direkt in SQL
Was sind die Vorteile einer AI Platform?
Die Plattform:
verwaltet die Infrastruktur automatisch
skaliert Ressourcen selbstständig
unterstützt GPU und TPU
verbindet sich mit anderen GCP-Diensten
BigQuery
Cloud Storage
Dataproc
Nenne Beispiele für KI-Dienste
AWS bietet viele Dienste für Data Science und Machine Learning (ML) an.
Grundsätzlich gibt es 2 Ansätze wie man diese Dienste nutzen kann. Welche sind dies?
Dabei gibt es zwei Möglichkeiten:
Viel Kontrolle: Man verwaltet die Technik selbst.
Wenig Kontrolle: AWS übernimmt die Technik und macht vieles automatisch.
Je weniger man selbst verwaltet, desto einfacher wird die Nutzung.
Was ist SageMaker?
SageMaker ist die zentrale Plattform von AWS für Machine Learning.
Damit kann man:
Daten vorbereiten
Modelle trainieren
Modelle testen
Hyperparameter optimieren
Modelle bereitstellen
Vorhersagen per API nutzen
AWS übernimmt dabei viel Infrastrukturarbeit.
AWS bietet bereits trainierte KI-Modelle an. Man muss keine eigenen Modelle trainieren.
Die Dienste werden meist per API genutzt.
Welche Allegmeinen Dienste bietet AWS an?
Welcher der Dienste ist der wichtigste?
AWS bietet:
Infrastruktur für ML
Tools zur Datenverarbeitung
komplette ML-Plattformen
fertige KI-APIs
Der wichtigste Dienst ist:
→ komplette Umgebung für moderne Machine-Learning-Projekte in der Cloud.
Wie lassen sich die Vortrainierten Modelle von AWS ansprechen?
Wer hat dabei die Kontrolle und Verantwortung über die verwaltung der Infrastruktur?
AWS bietet bereits trainierte KI-Modelle an.
Man muss keine eigenen Modelle trainieren.
Die Kontrolle und Verwaltung der Infrastruktur
obliegen bei AWS
wodurch diese Dienste sofort eingesetzt werden können
Wie heißt der Dienst für die Sprachverarbeitung?
Analysiert Texte.
Kann:
Stimmung erkennen
Themen finden
Personen und Orte erkennen
Wie heißt der Dienst für die Bild und Videoanalyse?
Analysiert Bilder und Videos.
Gesichter erkennen
Objekte erkennen
OCR (Texterkennung)
Inhalte moderieren
Wie heißt der Dienst für auf Bilder von Produktionsstätten konzentriert?
Für Industrie und Qualitätskontrolle.
Erkennt:
Fehler
Anomalien
Produktionsprobleme
Was ist die Aufgabe von Textract?
Liest Text aus Dokumenten und Bildern
Was für eine Art service bietet der KI-Dienst Transcribe?
Transcribe ist der Speech-to-Text-Service von AWS
Sprache → Text
Was für einen Dienst bietet der KI-Dienst Polly?
Text → Sprache
Polly für Text-to-Speech-Anwendungen
Was für einen Dienst bietet der KI-Dienst Lex?
Erstellt Chatbots.
Chatbots können mit Lex schnell konfiguriert werden
Was für einen Dienst bietet der KI-Dienst Personalize?
Empfehlungssystem wie bei Amazon-Shop.
Produktempfehlungen
individuelle Vorschläge
Was für einen Dienst bietet der KI-Dienst Forecast?
Vorhersagen mit Zeitreihen.
Verkaufsprognosen
Nachfrageprognosen
Was für einen Dienst bietet der KI-Dienst Fraud Detector?
Erkennt Betrug automatisch.
Was für einen Dienst bietet der KI-Dienst Lookout for Metrics?
Erkennt Anomalien in Daten und KPIs.
Was für einen Dienst bietet der KI-Dienst Kendra?
Intelligente Suchmaschine für eigene Anwendungen.
Was für einen Dienst bietet der KI-Dienst Augmented AI?
Kombiniert:
KI
menschliche Kontrolle
Menschen prüfen dabei kritische Entscheidungen.
Was für einen Dienst bietet der KI-Dienst Code- und DevOps-Dienstleistungen?
AWS bietet auch KI-Dienste für Entwickler:
CodeGuru
DevOps Guru
Funktionen:
Code-Analyse
Fehlererkennung
Performance-Optimierung
Für welche Bereiche bietet Microsoft Azure Cloud-Dienste an?
Welche zwei Möglichkeiten gibt es in Bezug auf die Nutzung der Dienste?
Microsoft Azure bietet viele Cloud-Dienste für Data Science und Künstliche Intelligenz (KI) an. Dabei gibt es zwei Möglichkeiten:
Viel Kontrolle: Man richtet alles selbst ein und verwaltet die Infrastruktur.
Wenig Aufwand: Azure übernimmt viele technische Aufgaben automatisch.
Was kann man mit Azure-VMs erstellen?
Und was kann dort gemacht werden?
Mit Azure-VMs kann man eigene Computer in der Cloud erstellen.
Python installieren,
Bibliotheken wie TensorFlow oder Scikit-learn nutzen,
eigene Sicherheitsregeln festlegen.
Können Cloud-Dienste abgesehen von VMs auch in anderer Form bereitgestellt werden in MZ?
Modelle können auch als Container bereitgestellt werden.
einfache Container
gut zum Testen
leistungsfähige Container-Plattform
für große Produktivsysteme
kann Modelle trainieren und bereitstellen
Welche ist die wichtigste Plattform für Machine learning in Azure?
Azure ML ist die wichtigste Plattform für Machine Learning in Azure.
Modelle trainieren,
testen,
verwalten,
deployen (bereitstellen).
Ziel:
Data-Science-Projekte einfacher und schneller machen.
Was muss zunächst getan werden damit die Azure ML-Dienste genutzt werden können?
Für Azure ML erstellt man zuerst einen Workspace.
Dabei werden automatisch wichtige Dienste angelegt:
Dienst
Aufgabe
Storage Account
Datenspeicherung
Container Registry
Speicherung von Modell-Containern
Key Vault
sichere Zugangsdaten
Application Insights
Überwachung und Analyse
Was sind Compute Targets? Welche Form können diese annehmen?
Compute Targets sind die Rechenressourcen für ML.
einzelne VM
bereits mit ML-Frameworks vorbereitet
mehrere VMs zusammen
für große Trainingsaufgaben
automatische Skalierung möglich
Azure ML unterstützt MLOps (Machine Learning Operations).
Dazu gehören:
Experiment-Tracking
Logging
Modell-Versionierung
automatische Deployments
Monitoring
automatisches Retraining
Außerdem:
Explainable AI (erklärbare KI)
Fairness-Prüfungen
Data Governance
Labeling-Services
Wozu werden Data Assets in Azure ML verwendet?
Data Assets vereinfachen den Zugriff auf Daten.
Daten liegen im Azure Blob Storage
Azure ML greift automatisch darauf zu
keine manuellen Zugangsdaten nötig
sichere Verwaltung über:
Azure Entra ID
Wozu wird Azure ML Designer verwendet?
Der Designer ermöglicht Machine Learning ohne Programmieren.
Man zieht:
Daten,
Algorithmen,
Verarbeitungsschritte
einfach per Drag-and-Drop zusammen.
Gut geeignet für:
Anfänger
schnelles Testen
Wie funktioniert ein Modell-Deployment wenn man mit der Leistung des Modells zufrieden ist?
Wenn ein Modell fertig ist:
Modell trainieren
Modell containerisieren
In Registry speichern
In Azure deployen
Deployment-Möglichkeiten:
ACI → Test
AKS → Produktion
Edge-Geräte
Multi-Cloud
lokale Systeme
Was bietet Azure ML and sicherheitsmaßnahmen?
Azure ML bietet:
rollenbasierte Zugriffe
Netzwerk-Schutz
Verschlüsselung
Schwachstellen-Scans
private Netzwerke (VNets)
Benenne die Gebrauchsfertigen KI-Dienste von Azure.
Computer Vision
Face
Azure Cognitive Service for Language
Language Understanding
QnA Maker
Translator
Speech Service
Anomaly Detector
Was kann der KI-Dienst Computer Vision?
Personen
Objekte
Marken
Farben
Gesichter
Texte (OCR)
Was kann der KI-Dienst Face?
Spezialdienst für Gesichtserkennung.
Personen identifizieren
Emotionen erkennen
Alter und Geschlecht schätzen
Was kann der KI-Dienst Azure Cognitive Service for Language?
Verarbeitet Sprache und Texte.
Texte verstehen
Zusammenfassungen erzeugen
Stimmung analysieren
Themen erkennen
personenbezogene Daten erkennen
Was kann der KI-Dienst Azure Language Understanding?
Absichten (Intent)
wichtige Begriffe (Entities)
Gut für:
Chatbots
Sprachassistenten
Was kann der KI-Dienst Azure QnA Maker?
Erstellt Frage-Antwort-Systeme und Chatbots.
Was kann der KI-Dienst Azure Translator?
Übersetzt Texte automatisch zwischen Sprachen.
Was kann der KI-Dienst Azure Speech Service?
Für:
Speech-to-Text
Text-to-Speech
Spracherkennung
Übersetzungen
Was kann der KI-Dienst Azure Anomaly Detector?
Erkennt ungewöhnliche Muster in Zeitreihen.
Betrug
Maschinenfehler
Ausfälle
Content Moderator
erkennt problematische Inhalte
Personalizer
erstellt Empfehlungen
Cognitive Service Containers
KI lokal als Container
Azure AI Services
KI direkt in Synapse Analytics
Zuletzt geändertvor 9 Stunden