by Marcel D.

Beschreiben Sie die grundlegende Architektur und Schritte eines Web Crawlers.

starten: Beginnt mit einer Liste bekannter Start-URLs.

Abrufen und Parsen: Ruft den Inhalt dieser Seiten ab und parst das HTML.

Extraktion von Links: Extrahiert alle Hyperlinks aus dem Inhalt.

URL-Warteschlange: Fügt die extrahierten URLs einer Warteschlange hinzu.

Wiederholung: Ruft nacheinander URLs aus der Warteschlange ab und wiederholt den Vorgang.

Beschreiben Sie die Schritte bzw. Herausforderungen beim Entity Linking / bei der Semantic Annotation.

Herausforderung:

Ambiguität in Entities (Apple = Firma oder Obst?)
Mehrdeutiger Kontext, Synonyme
Indexierung (welche ID´s werden verwendet, wie werden sie definiert, ..)
Verlinkung der Entitäten (wie stehen diese in Kontext)
Out-of.Knowledge-Topics (z.B. Welche Schule hat X besucht? -> Stand nicht in den Daten)

Schritte:

Entität erkennen
Kandidaten für Entitäten erstellen
Ranking & Disambiguation
Entitität Verlinkung (z.B. Wieselburger -> Wieselburg)

Beschreiben Sie den syntaktischen Aufbau von RDF Termen/Triples.

Subjekt: Die in den Daten beschriebene Kandidat (z.B. Person) (IRI oder Blank)

Prädikat: Die Eigenschaft oder Beziehung (immer IRI)

Objekt: Wert der Eigenschaft (IRI, Literal oder Blank Node)

Turtle:

<http://example.org/Alice> <http://xmlns.com/foaf/0.1/knows> <http://example.org/Bob> .

Alice kennt Bob.

Subjekt - Prädikat - Objekt

Wie kann in RDF ein Schema vorgegeben werden? Beschreiben Sie die wichtigsten

Bestandteile des RDFS Vokabulars.

In RDF kann ein Schema mit RDFS (RDF Schema) definiert werden. RDFS erweitert RDF um Klassen, Eigenschaften und Hierarchien zur Strukturierung von Daten.

Wichtigsten Bestandteile:

rdfs:Class – Definiert eine Klasse (z. B. Person, Ort).
rdfs:subClassOf – Legt Klassenhierarchien fest.
rdf:Property – Definiert eine Eigenschaft.
rdfs:subPropertyOf – Legt Hierarchien zwischen Eigenschaften fest.
rdfs:domain – Gibt an, zu welcher Klasse das Subjekt einer Eigenschaft gehört.
rdfs:range – Gibt an, zu welcher Klasse das Objekt einer Eigenschaft gehört.
rdfs:label – Menschlich lesbarer Name für Ressourcen.
rdfs:comment – Beschreibung der Bedeutung einer Ressource.

Was ist SPARQL? Welche verschiedenen Arten von SPARQL-Abfragen gibt es? Erläutern

Sie anhand einer Beispielabfrage die SPARQL-Syntax.

SPARQL ist die Abfragesprache für RDF-Daten. Sie ermöglicht das gezielte Auslesen und Manipulieren von RDF-Graphen.

Bildet sich aus:

SELECT – Gibt eine Tabelle mit Variablenwerten zurück.
ASK – Gibt true/false zurück, ob ein Pattern erfüllt ist.
CONSTRUCT – Gibt neue RDF-Triples zurück, die aus dem Pattern erzeugt wurden.
DESCRIBE – Gibt RDF-Triples zu einer Ressource zurück (nicht eindeutig definiert, systemabhängig).

PREFIX foaf: <http://xmlns.com/foaf/0.1/> SELECT ?name WHERE { ?person a foaf:Person ; foaf:name ?name . }

Diese Abfrage sucht alle Ressourcen vom Typ foaf:Person und gibt deren Namen zurück.

Präfix - Kürzel für den Namespace IRI (Internationalized Resource Identifier)

Select - definiert Rückgabevariablen (wie in normalem SQL)

Where - Filterklausel

Wie wird eine Term-Document Incidence Matrix aufgebaut? Wie wird ein Inverted Index aufgebaut?

Term-Document Incidence Matrix

Aufbau:

Eine binäre Matrix, in der Zeilen Terme und Spalten Dokumente darstellen.
Eintrag 1, wenn der Term im Dokument vorkommt, sonst 0.

Inverted Index:

Aufbau:

Eine HashMap oder ein Dictionary, das jedem Term eine Posting-Liste zuordnet.
Die Posting-Liste enthält alle Dokumente (ggf. auch Positionen), in denen der Term vorkommt.

"data" → [Doc1, Doc3]

"mining" → [Doc1, Doc2]

Unterschied:

Die Term-Document Matrix ist speicherintensiv, aber einfach für kleine Korpora.
Der Inverted Index ist kompakter und effizient für Suche und Skalierung. -> weil NULL nicht enthalten

Was sind die 5 Stars of Linked Open Data?

Offene Lizenz
Strukturierte Daten
nicht-propitäres Format (z.B. csv statt excel)
URI zur identifikation von Dingen
Verknüpfung von Datenquellen mit anderen Daten

Was ist Wikidata? Wie ist es aufgebaut? Wie unterscheidet sich Wikidata von DBpedia?

Was ist Wikidata?

Wikidata ist eine strukturierte, maschinenlesbare Wissensdatenbank, die Fakten in Form von Wikidata-Statementsspeichert. Sie wird von der Wikimedia Foundation betrieben und dient als zentrale Datenquelle für Wikipedia & Co.

Aufbau von Wikidata:

Items (Q-IDs): Repräsentieren Entitäten (z. B. Q42 = Douglas Adams)
Properties (P-IDs): Repräsentieren Beziehungen oder Attribute (z. B. P31 = „ist ein(e)“)
Statements: Bestehen aus (Subjekt, Property, Objekt) + optionalen Qualifikatoren und Referenzen
Unterstützt Mehrsprachigkeit, Versionierung und Quellenangaben

DBpedia ist ein automatisch Erstellter Abzug der Wikipedia Daten, der nicht bearbeitet werden kann.

Unterschiede:

Datenquelle: W: Manuell struktureirte Eingabe; D: Extraktion aus Wikipedia-Infoboxen
Struktur: W: Stark strukturiert, mit Metadaten; W: weniger strikt, basiert auf RDF-Triplets
Aktualität: W: sehr aktuell, direkt editierbar; W: Verzögert, abhängig von Wikipedia Dumpls
Identifier: W: Q- und P-IDs; D: URI-basiert (z.B. dbpedia:Berlin)
Linguistik: W: Mehrsprachig; D: teilweise mehrsprachig

Welche Phasen gibt es im TOGAF Application Development Lifecycle? Visualisieren und

beschreiben Sie kurz, was in jedem Schritt gemacht wird.

Warum ist es nützlich eine Lösungsarchitektur für ein Software Projekt zu definieren? Wie unterscheidet sich die Architektur von einer Anforderungsbeschreibung? Was ist der Unterschied zwischen einer Lösungsarchitektur und eine Enterprise Architektur?

Lösungsarchitektur = detaillierter technischer Bauplan für ein konkretes Projekt.
Anforderung = beschreibt das Was, Architektur das Wie.
Enterprise Architektur = strategisches IT-Gesamtkonzept, Lösungsarchitektur = operative Umsetzung.
Technical Architektur = Schwerpunkt (Java, PYthon)

Welche UML Diagramme kennen Sie, um Architekturen zu dokumentieren, und wozu werden

diese verwendet? Zeichnen Sie von jedem Diagramm ein Beispiel.

Strukturierte UML-Diagramme: Beschreiben die Struktur des Systemes, seine Klassen und Eigenschaften.

Component Diagramms:

Class Diagramms: https://www.microtool.de/wissen-online/was-ist-ein-klassendiagramm/

Behaviour Diagrams: Beschreiben das Verhalten der Systeme:

Flow-Charts:

Sequence Diagramms:

State Diagramm:

Wie unterscheidet sich das klassische Request Response Schnittstelle Modell vom Message Queues/Streaming Data?

Request-Response eignet sich für direkte, zustandslose Anfragen.

Message Queues / Streaming sind ideal für asynchrone, verteilte Systeme mit hohem Durchsatz und loser Kopplung.

Was ist eine Microservices Architektur, und wie sind einzelne Microservices aufgebaut? Was

sind die Vor und Nachteile von eine Microservices Architektur im Vergleich mit eine

Monolitische Architektur?

Eine Microservices-Architektur ist ein Architekturstil, bei dem eine Anwendung aus kleinen, unabhängigen Dienstenbesteht. Jeder Microservice ist fachlich abgegrenzt, eigenständig deploybar und kommuniziert meist über APIs (z. B. REST, gRPC, Messaging).

Microservices sind darauf ausgelegt, eigenständig agieren zu können, das bedeutet:

Eigene Codebasis
Eigene Datenbank (optional)
API-Schnittstelle
Unabhängiges Deployment
Zuständig für genau einen Fachbereich (Bounded Context)

Vorteile:

Skalierbarkeit
Unabhängige Entwicklung
Fehlertoleranz
Technologievielfalt
Schnelleres Deployment

Nachteile:

Komplexe Kommunikation
Verteilte Transaktionen
Deployment- und Testaufwand
Monitoring & Logging

Microservices bieten Flexibilität und Skalierbarkeit, erfordern aber mehr organisatorischen und technischen Aufwand im Vergleich zur monolithischen Architektur.

Wie funktioniert das Model-View-Controller Architekturprinzip, und wie unterscheidet sich das von einer Layered Architecture?

Model-View-Controller (MVC)

Ziel: Trennung von Darstellung, Logik und Daten.

Ablauf:

Benutzerinteraktion mit der View
View sendet Event an Controller
Controller ruft Methoden im Model auf
Model ändert Daten und informiert ggf. View
View wird aktualisiert

Layered Architecture (Schichtenarchitektur)

Ziel: Trennung von Verantwortlichkeiten durch funktionale Schichten.

MVC ist spezialisiert auf UI-nahe Anwendungen mit klarer Interaktionstrennung, während die Layered Architecture allgemeinere, technische Trennung von Verantwortlichkeiten über das ganze System hinweg ermöglicht.

Beschreiben Sie die Lambda- und Kappa-Architektur, was sind ihre Ähnlichkeiten, Unterschiede, Vor- und Nachteile?

Lambda- und Kappa-Architektur

Beide Architekturen dienen der Verarbeitung großer Datenmengen, insbesondere in Big Data- und Streaming-Systemen.

Lambda-Architektur

Ziel: Kombination aus Batch- und Stream-Verarbeitung, um sowohl akkurate als auch nahezu Echtzeit-Ergebnissezu liefern.

Bestandteile:

Batch Layer – Verarbeitet alle historischen Daten periodisch (z. B. mit Hadoop).
Speed Layer – Verarbeitet aktuelle Daten in Echtzeit (z. B. mit Spark Streaming).
Serving Layer – Kombiniert Ergebnisse aus beiden Schichten zur Abfrage.

Vorteil:

Hohe Genauigkeit + geringe Latenz
Fehlertoleranz durch Batch-Rekomputation

Nachteil:

Komplexität: Zwei getrennte Verarbeitungslogiken (Batch + Stream)
Doppelter Entwicklungsaufwand

Kappa-Architektur

Ziel: Vereinfachung der Lambda-Architektur durch nur eine Streaming-Schicht.

Bestandteile:

Stream-Verarbeitung aller Daten (historisch und aktuell) über ein zentrales Log (z. B. Apache Kafka + Stream-Engine)

Vorteil:

Einfachere Architektur und Wartung (nur eine Codebasis)
Echtzeitverarbeitung auch historischer Daten durch Re-Streaming

Nachteil:

Kein separates Batch für komplexe Analysen
Wiederverarbeitung kann bei großen Datenmengen aufwendig sein

Fazit:

Lambda ist robuster und präziser, aber komplex.
Kappa ist schlanker und moderner, ideal wenn Daten vollständig als Streams verfügbar sind.

Wenn ML Modelle produktiv gesetzt werden, sollten diese gewartet werden. Erklären Sie wie man generell ML Modelle warten kann; wie man entscheidet, dass neu trainiert werden muss, und welche Ansätze es gibt um neu zu trainieren.

Wartung von ML-Modellen in der Produktion:

Überwachung (Monitoring):
Performance-Metriken: z. B. Accuracy, Precision, Recall, F1-Score.
Daten-Drift: Änderungen in den Eingabedatenverteilungen (Feature Drift).
Label-Drift: Änderungen in der Zielvariablenverteilung.
Concept Drift: Beziehung zwischen Features und Ziel ändert sich.

Entscheidung für Retraining:
Signifikanter Performance-Abfall im Vergleich zur Trainings-/Validierungsphase.
Erkennung von Drift über statistische Tests (z. B. KS-Test, PSI).
Zeitbasiertes Retraining (z. B. wöchentlich, monatlich).
Manuelle Evaluation durch Experten.

Retraining-Ansätze:
Full Retraining: Modell wird mit alten + neuen Daten komplett neu trainiert.
Transfer Learning: Vortrainiertes Modell wird auf neue Daten feinjustiert.
Online/ Incremental Learning: Modell lernt kontinuierlich bei jedem neuen Datenpunkt (z. B. bei Streaming-Daten)

Zusätzlich: Modellversionierung und Tests nach Retraining sind essenziell.

Was ist ein Data Lakehouse und wie steht es in Beziehung zum Data Warehouse und zum Data Lake?

Ein Data Lakehouse ist eine moderne Datenarchitektur, die die Vorteile von Data Lake und Data Warehouse kombiniert.

Ein Data Lakehouse vereint:

die Skalierbarkeit und Flexibilität eines Data Lakes,
mit der Zuverlässigkeit und Performance eines Data Warehouses,
und eignet sich sowohl für Analytics als auch für Machine Learning.

Inwiefern unterscheidet sich der Data-Lakehouse-Ansatz vom logischen Data Warehouse nach Gartner?

Der Data-Lakehouse-Ansatz und das logische Data Warehouse (LDW) nach Gartner unterscheiden sich in Architektur und Fokus:

1. Architektur:

Data Lakehouse:
Physische Plattform, die Data Lake und Data Warehouse integriert.
Einheitliche Engine (z. B. Delta Lake, Apache Iceberg) für Analyse und ML auf Rohdaten.
Logisches Data Warehouse (LDW):
Virtuelle Schicht über verteilten Datenquellen.
Integriert verschiedene Speicherorte (z. B. DWH, Data Lake, externe Quellen) über Datenvirtualisierung.

2. Datenhaltung:

Lakehouse: Daten sind zentral gespeichert, meist in Cloud-Storage.
LDW: Daten verbleiben verteilt an ihren Ursprungsorten, es gibt keine zentrale physische Kopie.

3. Zugriff und Integration:

Lakehouse: Einheitliches Zugriffssystem, optimiert für Performance.
LDW: Zugriff über virtuelle Views, Fokus auf Interoperabilität und Integration.

4. Zielsetzung:

Lakehouse: Vereinheitlichung von BI und Data Science auf einer Plattform.
LDW: Flexibles, technologieoffenes Datenmanagement ohne Migration.

Fazit:

Lakehouse = physisch konsolidiert, performance-orientiert.
LDW = logisch integriert, systemübergreifend flexibel.

Was ist ein Data Mesh? Beschreiben Sie bitte die wichtigsten Konzepte dieses Architekturparadigmas?

Data Mesh ist ein modernes Architekturparadigma für skalierbares, dezentrales Datenmanagement in großen Organisationen. Es bricht mit zentralisierten Data-Lake-/Warehouse-Ansätzen.

Domänenorientierung
Data as a Product
Self-Serve Data Platform
Federated Governance

Ein gemeinsames Regelwerk sorgt für Interoperabilität, Sicherheit und Qualität über alle Domänen hinweg – dezentral organisiert, aber zentral abgestimmt.
Eine zentrale Plattform stellt Technologie, Tools und Infrastruktur bereit (z. B. für ETL, Metadaten, Zugriffskontrolle), damit Domänen selbstständig Datenprodukte bereitstellen können.
Jede Datenquelle wird wie ein Produkt mit klarer Verantwortung, Qualität und Schnittstelle behandelt.
Fokus auf Nutzerfreundlichkeit, Dokumentation, SLAs etc.
Datenverantwortung liegt bei den Fachbereichen (Domänen), die ihre Daten selbst als “Data Products” anbieten.
Beispiel: Marketing liefert seine Daten unabhängig vom Data-Team.

Fazit:

Data Mesh fördert Dezentralisierung, Verantwortung und Skalierbarkeit durch organisatorische und technische Prinzipien. Es ist besonders geeignet für große, datenzentrierte Unternehmen mit vielen Domänen.

Name the key elements of a project plan in Consulting and describe why each element is important and/or it relates to another element.

1.Project Objectives & Scope

2.Deliverables & Milestones

3.Timeline / Schedule

4.Work Breakdown Structure (WBS)

5.Resource Plan (Personeel, Time, Ressources)

6.Risk Management Plan

7.Stakeholder Management & Communication Plan

8.Budget / Cost Plan

9.Governance & Change Control

Why do projects fail? Provide 6 clear examples on why projects fail, together with some clear, concrete advise how to influence these situations as a project manager in a positive way.

Unclear Goals or Scope (Scope Creep)

Cause: Lack of defined objectives or frequent changes to requirements.
Advice: Use a detailed project charter and scope statement. Enforce change management processes to handle scope adjustments.

Poor Communication

Cause: Stakeholders and team members aren’t aligned or informed.
Advice: Establish regular updates (e.g. stand-ups, reports), use a communication plan, and clarify responsibilities (RACI matrix).

Inadequate Risk Management

Cause: Risks are not identified or mitigated early.
Advice: Perform a risk analysis upfront. Maintain a risk register and regularly review and update mitigation plans.

Lack of Resources or Skills

Cause: The team lacks required capacity or capabilities.
Advice: Conduct a resource and skills assessment early. Address gaps via hiring, training, or external support.

Weak Stakeholder Engagement

Cause: Stakeholders are uninvolved or resistant.
Advice: Identify key stakeholders early. Involve them in planning, maintain transparency, and address concerns proactively.

Unrealistic Timelines or Budgets

Cause: Schedules or costs are underestimated or overly optimistic.
Advice: Use data from similar past projects for estimation. Include buffers, and track progress against baselines using earned value management.

Name 5 competing forces in project management and how they relate to each other.

Scope

What the project must deliver (features, functions, outcomes)

Increasing scope usually increases time and cost

Time (Schedule)

How long the project has to deliver the work

Tight deadlines may reduce scope or require more resources (cost)

Cost (Budget)

Financial resources available for the project

Budget cuts may require reducing scope or extending time

Quality

The standard or specification the output must meet

Rushing or underfunding can lower quality; high quality may increase cost/time

Resources

People, tools, and materials used in the project

Limited resources can increase time or reduce scope/quality

Describe the 6 key elements of a good consulting presentation and what those sections/elements contain.

Executive Summary

Content: A concise overview of the main findings, recommendations, and impact.
Goal: Allow senior stakeholders to grasp the key message within 1–2 minutes.

Client Context & Objectives

Content: Background information, client situation, and the objectives of the engagement.
Goal: Frame the problem and align the audience on the "why" of the project.

Approach & Methodology

Content: Description of the methods, data sources, and analysis used.
Goal: Build credibility by showing a structured and rigorous approach.

Key Findings & Insights

Content: Core results of the analysis, supported by data (charts, benchmarks, models).
Goal: Present the facts and insights that lead to the recommendations.

Recommendations

Content: Clear, actionable suggestions tailored to the client's situation.
Goal: Provide value through feasible and relevant actions.

Implementation Plan & Impact

Content: Roadmap, timelines, required resources, and expected outcomes (KPIs, ROI).
Goal: Demonstrate practicality and anticipated business impact.

Erläutern Sie die Prinzipien von Funktionaler Programmierung in Python. Welche Konzepte kennen Sie?

Funktionale Programmierung in Python – Prinzipien und Konzepte:

Reine Funktionen:
Kein Einfluss auf äußeren Zustand, gleicher Output bei gleichem Input.
Unveränderlichkeit (Immutability):
Daten werden nicht verändert, sondern neu erzeugt (z. B. tuple statt list).
First-Class & Higher-Order Functions:
Funktionen können als Argumente übergeben, zurückgegeben oder gespeichert werden.
Lambda-Funktionen:
Kurznotation für einfache, anonyme Funktionen: lambda x: x + 1
Map, Filter, Reduce:

map(f, iterable) – Transformation
filter(f, iterable) – Selektion
reduce(f, iterable) – Aggregation (aus functools)
Rekursion statt Schleifen:
Wiederholungen über Selbstaufrufe statt for/while.

Fazit: Python unterstützt funktionale Konzepte, obwohl es keine rein funktionale Sprache ist.

Erläutern Sie die Funktionalität und das Konzept des Factory-Patterns und des Singleton-Patterns. Welche Klassen aus Java Frameworks kennen Sie, die das Factory-Pattern einsetzen?

Factory-Pattern – Konzept und Funktionalität:

Ziel: Erzeugung von Objekten über eine zentrale Methode, ohne die konkrete Klasse im Code angeben zu müssen.
Funktion: Eine Factory-Klasse oder -Methode kapselt die Objektinstanziierung.
Vorteil: Entkopplung von Erzeugung und Verwendung, erleichtert Austausch und Erweiterung.

Beispiel: Chatbot-Agent (merhere Agenten init)

Singleton-Pattern – Konzept und Funktionalität:

Ziel: Sicherstellen, dass nur eine Instanz einer Klasse existiert.
Funktion: Klasse verwaltet eigene Instanz über private statische Variable und private Konstruktoren.
Vorteil: Kontrollierter Zugriff auf eine zentrale Ressource (z. B. Konfiguration, Logging).

Beispiel: HTTP-Client der Agenten (immer derselbe)

Skizzieren Sie das Machine Learning Design Pattern “Workflow Pipeline”. Welche Schritte finden sich typischerweise in einer effektiven Workflow Pipeline? Erläutern Sie die zentralen Inhalte und Ergebnisse jedes dieser Schritte. Nennen Sie ein Framework zur Realisierung einer Workflow Pipeline.

Die “Workflow Pipeline” bietet Best Practices für die Herausforderung, eine reproduzierbare End-to-End Pipeline zu definieren, indem jeder einzelne Schritt des Machine Learning Prozesses definiert wird.

Also wie skaliere ich? Irgendwann wird ein Notebook zu komplex.

Das Notebook wäre eine Monolithic Application - zum Testen muss alles ausgeführt werden.

Data Collection - data validation - Data Processing - Model Buildiung - Training and evaluation - Deployment

Z.B. kann man Orchestrator-Tools wie Airflow verwenden um mittels eigener Tasks pro Schritt in der Pipeline die Schritte einzeln ausführen sowie evaluieren/testen/prüfen.

Für:

Unterschiedliche Rollen (A darf TaskA, aber nicht B, ..)
Unabhängigkeit der Tasks / abhängigkeiten dynamisch definierbar

Welchem Problem in einem Machine Learning Projekt widmet sich das Design Pattern

“Continued Model Evaluation”? Welche zwei zentralen Prinzipien umfassen dieses Pattern?

Es versucht, dass im Model keine Verschlechterung der Performance stattfindet, indem kontinuierlich die Performance überwacht wird und dadurch gezielet retraining gestartet werden kann, sobald degrading identifiziert werden konnte.

Model Versioning - Fairness-Lens - Concept & Data Drift

Welche Konzepte gibt es bei Machine Learning Projekten, Modelle aus ausbalancierten

(fairen) Daten abzuleiten? Erläutern Sie das dabei behandelte Design Pattern. Welche Tools

haben Sie als Data Scientist zur Verfügung um ihre Daten auf ausgewogene Aussagekraft zu

überprüfen?

Das Fairness Lens Design Pattern. Alle Gruppen sollen gleich behandelt werden. (Data Distribution bias; Data representation Bias).

Durch die Nutzung verschiedener Tools versucht das Pattern Bias zu erkennen und zurückzuführen.

Descreptive Statistiken
Equalized Odds (gleiche Fehlerwslkeit für Gruppen)
Rebalancing (Anpassung Gewichte, Over/Undersampling, Augmentation, ...)

Beschreiben Sie Federated Averaging.

Ist eine Technik die im Federated Machine Learning angewandt wird, um ein globales Modell zu trainieren wobei die Anonymität der Daten gewährleistet wird, da nur die Updates der Gewichte an das zentrale Modell gesendet werden.

Nach einem Trainingsdurchgang werden pro kleinerem Client die Ergebnisse der Updates (Gradienten) gesammelt and den zentralen Client gesendet. Dieser bildet daraufhin einen (gewichteten) Average der Gradienten für sein eigenes Updates.

Das zentrale Modell wird nach dem Update wieder an alle kleinen Client´s gesendet, bevor der nächste Trainingsloop startet.

Was ist Federated Machine Learning und wie funktioniert es? Wo findet es bereits

Anwendung? Was sind die Herausforderungen bei Federated Learning. Was versteht man

unter Scale of Federation beim Federated Learning?

Federated Learning (FL) ist ein dezentraler Ansatz, bei dem Modelle lokal auf den Geräten trainiert werden und nur die Modellupdates an einen zentralen Server gesendet werden – die Daten bleiben dabei auf dem Gerät.

Es funktioniert so: Ein globales Modell wird an die Clients verteilt, diese trainieren es lokal mit ihren eigenen Daten. Anschließend senden sie die aktualisierten Modellparameter zurück an den Server, der die Updates aggregiert (z. B. mittels Federated Averaging) und ein neues globales Modell erstellt. Dieser Prozess wird wiederholt, bis das Modell konvergiert.

Anwendung findet FL z. B. bei Tastaturvorschlägen auf Smartphones, in der medizinischen Forschung (Kliniknetzwerke), in der Finanzbranche bei Betrugserkennung und beim autonomen Fahren.

Herausforderungen sind unter anderem unterschiedliche Datenverteilungen (Non-IID), hoher Kommunikationsaufwand, Sicherheitsrisiken wie Model Inversion sowie instabile oder sehr viele Clients.

Unter „Scale of Federation“ versteht man den Umfang und die Struktur der Beteiligung. Bei Cross-Device FL sind sehr viele Geräte mit wenigen Daten beteiligt, bei Cross-Silo FL wenige Organisationen mit großen Datenmengen.

Erklären Sie Federated Machine Learning mit unterschiedlichen ML-Algorithmen.

Neuronale Netze (z. B. CNNs, RNNs): Diese eignen sich besonders gut für Federated Learning. Die Clients trainieren lokal das Netz, und die Gewichte werden zentral über Federated Averaging aggregiert. Häufig genutzt bei Sprach- oder Bilderkennung auf mobilen Geräten.

Entscheidungsbäume / Random Forests: Da Baumstrukturen schwer zu aggregieren sind, trainieren Clients oft eigene Bäume, die anschließend kombiniert werden. Alternativ können ensemble-basierte Strategien oder spezielle Aggregationsmethoden genutzt werden.

Lineare und Logistische Regression: Diese Modelle sind leicht föderiert trainierbar, da die Parameter direkt als Zahlenwerte aggregierbar sind. Die Gradienten werden lokal berechnet und zentral gemittelt.

Clustering (z. B. K-Means): Jeder Client berechnet lokale Cluster-Zentren. Diese werden zentral gewichtet und kombiniert. Gut geeignet bei ähnlicher Datenstruktur über die Clients hinweg.

Welche Federated Machine Learning Frameworks kennen Sie? Beschreiben Sie diese.

TensorFlow Federated (TFF):

○ TFF ist ein von Google entwickeltes Framework, das auf TensorFlow aufbaut und speziell für die Entwicklung von Machine-Learning-Modellen auf verteilten Daten ausgelegt ist.

○ Es ermöglicht das Training von Modellen auf Client-Geräten oder auf Servern und unterstützt verschiedene Verteilungsstrategien wie das Federated Averaging.

○ TFF bietet eine breite Palette von Funktionen und Tools für das verteilte maschinelle Lernen, einschließlich der Unterstützung von verschiedenen Gerätetypen (z. B. Mobilgeräte, IoT-Geräte) und der Skalierung auf große Rechencluster.

Flower:

○ Flower ist ein Python-Framework, das für das verteilte maschinelle Lernen auf heterogenen Rechensystemen entwickelt wurde.

○ Es ist plattformunabhängig und ermöglicht die Zusammenarbeit von verschiedenen ML-Frameworks wie TensorFlow, PyTorch, Keras usw.

○ Flower stellt eine Client-Server-Architektur bereit, bei der der Server die Modellparameter aggregiert und an die Clients verteilt, um das Training durchzuführen.

○ Das Framework unterstützt verschiedene Kommunikationsprotokolle, einschließlich gRPC und WebSockets, um die Kommunikation zwischen Server und Clients zu ermöglichen.

Was versteht man unter Privacy-preserving machine learning? Was bedeutet Privacy?

Beschreibt Techniken, welche die Anonymität und Daten der Trainingssubjekte wahren. Methoden sind:

Differenzielle Privatsphäre (gezielt Datenrauschen hinzufühgen)
Homomorphe Verschlüsselung (ermöglicht Rechenoperationen aufg verschlüsselte Daten)
Secure Multi-Party-Computatuion (verteilete Berechnung aka Federated Learning)
Private Aggreagation (aggregierte Daten erlauben keine Rückschlüsse)

Privacy bedeutet, personenbezogene Daten nicht von unbefugten eingesehen oder aus den Ergebnissen abgeleitete werden können.

Erklären Sie den Lifecycle of a Model in Federated Learning.

1) Initialisierung des Servers (welches Modell wird gewählt, ersten Schritte der Workflow-Pipeline definieren)

2) Client Auswahl

3) Client Training

4) Modellupdate und Aggregation

5) Modellverteilung und Evaluierung d. neuen. Modells

6) Deployment und Monitoring

Welche Security und Privacy Risks haben Sie bei Machine Learning kennengelernt? Wie ist ML angreifbar?

Privacy-Risks:

Model inversion Attack (anhand von Ausgabe Rückschlüsse auf Trainingsdaten erhalten)
Membership Inference Attack (einen Datenpunkt in Trainingsdaten enthalten?)

Security Risks:

Poisining durch manipulation der Trainignsdaten
Adverserial Attachs (bestimmte Eingaben brechen die Boundaries)
Backdoor (manipuliertes Training ermöglicht gesteuerte Ergebnisse bei gewissen Inputs)

Wie funktioniert ein variational Autoencoder? Beschreiben Sie eine einfache Architektur und

die Funktionsweise. Geben Sie ein Beispiel für eine Anwendung eines Autoencoders.

1) Input Layer: Wir haben den Encoder der die eingaben in 2 latente vektoren transformiert - einer ist der Mittelwert, der andere die Standabweichung.

Daraus ergibt sich eine latente Representation der Eingabewerte

2) Sampling Layer: Zieht sich eine latente Variable aus der vom Encoder erzeugten Wahrscheinlichkeitsverteilung welche dem Decoder weitergegeben wird

3) Decoder: Der Decoder nimmt diese Variable und versucht damit die Eingabedaten zu rekonstruieren.

Reparametrisation Trick: Direktes Sampeln von einer Wahrscheinlichkeitsverteilung ist nicht differenzierbar! Ist nicht diff weil es ein dicontinuierlicher Prozess ist. Der Zufälligkeitsprozess wird umformuliert um eine stetige Funktion zu bilden.

z = Mittelwert + Standardabw. * epsilon[0,1]

Loss: aBinary cross Entropy oder MSE + KL-Divergenz was sicherstellt, das die latente Verteilung nahe an der Normalverteilung liegt

Anwendungen: Syntetische Datengenerierung, Bildgenerierung

Was versteht man unter einem GAN? Wie funktioniert es und wozu dient es?

Generative Adversarial Networks bestehen aus zwei Modellen:

Generator: Ein generatives Modell, welches Daten generiert (z.B. Bild)
Discriminator: Versucht zu klassifizieren, ob das Bild (Daten) aus einer echten Verteilung stammt oder durch den Generator erstellt wurde

Nach Abschluss des Trainingsprozesses wird der Diskriminator verworfen.

Note zu Loss: Das ist ein min-max Spiel zwischen den 2 Modellen. Der Discriminator lernt eine Binary Cross Entropy zwischen Echten und generierten Daten währen der Generator versucht den Discriminator zu täuschen. Der Loss des Generators bildet sich aus 1 - Binary Cross Entropy des Discriminators.

Dient zur Bildgenerierung, Training bei wenigen Realdaten, Text zu Bildgenerierung, Bildwiederherstellung uvm.

Erklären Sie Diffusion Modelle, welche werden verwendet, um Bilder zu generieren. Wie

unterscheiden sich diese von GANs?

Diffusion Modelle versuchen, durch iterative Übergabe Denoises durchzuführen.

1) Noise hinzufügen: Ein Bild wird Schrittweise mit Gaussian Noise verrauscht. Am En de hat man ein verrauschtes Bild.

2) Denoising bzw. Bildgenerierungsprozess: Hier wird das Bild wieder von Noise in ein Bilod zurück transformiert.

Dadurch das wir das Bild und das zugehörige Rauschanteil in mehreren Schritten aufgeteilt haben besitzen wie die Informationen zu allen Zwischenschritten. Damit kann ein Modell trainiert werden, das pro Schritt den Anteil des Rauschens vorhersagt. Diese Rauschen kann dann vom Bild abgezogen werden und diesen Prozess iterativ wiederholen. D. h. das Modell lernt zu jedem Zeitschritt das verrauschte Bild zu rekonstruieren.

Wie funktionieren approximate value function approaches prinzipiell und was gibt es dabei zu beachten?

DQN: Wir versuchen anhand von State und Action eine Value zu berechnen. Wird benötigt weil die Speichrung alle State-Action Paare aufgrund dewr komplexität der Umgebung nicht mehr möglich ist. Wir versuchen nun also anstatt in einer state-Action tabelle den value statisch zu lesen (Q-Learning) diesen Value mithilfe eines Modells zu schätzen.

Dabei können Probleme auftauchen, wie z.B. die systematische Überschätzung der Q-Values, was dazu führen kann, das der Agent falsche Signale erhält und dadurch in seinem Falschen Verhalten bestärkt wird.

Erklären Sie wie Deep Q-Learning funktioniert (inkl. Aufbau und Funktionsweise des neuronalen Netzes) anhand von dem Atari Spiel Pong.

DQ-Learning ist ein Erweiterung des klassischen Q-Learnings für Umgebungen, in denen eine Q-Tabelle aufgrund der Anzahl möglicher Zustände nicht mehr feasable ist (z.B. continuous state space).

Ziel ist es eine Strategie zu erlernen bei der der Agent den kumulierten, discounteten Reward (Return) maximiert.

Im klassischen Q-Learning verwenden wir ein Q-Funktion Q(s,a), dessen Value für ein bestimmtes State/Action Pair von einem DQN approximiert wird Q(s, a;O).

Pong:

Input: N-stacked frames (Aktueller State)

Neuronales Net: CNN mit fully connected Layer

Output: Gibt für Action den Q-Wert aus.

Training: Input -> Policy durchführung (exploitation, greedy) um Zustände zu "finden" -> State, action, reward -> End of Episode -> Speicherung der Episode -> Hinzufügen zum Replay Buffer -> mit mini-batches auf replay biuffer trainieren und nach discounted kumm. reward optimieren.

Beschreiben Sie 2 Deep Q-Learning Erweiterungen und welche Probleme sie lösen.

Double DQN:

Problem: Überschätzung der Q-Werte.

Dueling DQN:

Problem: Gleichwertigkeit aller Aktionen

Wie funktioniert Monte Carlo Tree Search, wie sie bei Alpha Zero angewendet worden ist?

MCTS ist ein Suchalgorithmus, welcher oft für Spiele verwendet wird.

Er baut sich einen Suchbaum durch Rollouts auf bei den jeder Knoten einen Zustand und jeder Pfad eine Folge von Zügen representiert.

SELECTION - EXPANSION - SIMULATE (Rollout) - BACKPROP.

Selection: wir gehen in die Leafes des Baumen (wenn vorhanden)

Expansion: neue Knoten / Züge werden zum Baum hinzugefügt.

Simulater: von diesem Knoten - was passiert wenn wir x machen?

Backprop: Werte entlang des Pfades zurück propagieren, um herauszufinden welche Aktion die Wirkungsvollste war und welche states gut waren.

Alpha Zero verwendet hierfür ein Policy Netzwerk sowie ein Value-Network.

Beide bekommen Spielzustand als Eingabe.

Wie funktionieren Policy Gradient Methoden? Beschreiben Sie REINFORCE im Detail.

Q-Learning lernt den Wert einer bestimmtem aktiuon in einem bestimmten Zustand (Q-Table), währen PGM die Wahrscheinlichkeitsverteilung für die optimale Aktion approximieren - wir haben also eine parametrisierte Policy.

REINFORCE Wir definieren eine Policy, welche durch ein NN mit Softmax output erstellt wird.

Pi(a | s; O).

Start Zustand s, wählen Aktion aufgrund von pi und spielen bis ende der Episode durch. Dann gehen wir rückwärts durch die Episode und aktualisieren die Policy Parameter.

Wir berechnen für jeden Zeitpunkt, startend vom letzten Zustand den Return g. Basierend auf diesem Return werden die Policy Parameter upgedated.

Welche Methoden kennen Sie, um synthetische Daten zu erstellen?

Augmentierung: Also noise hinzufügen, Winkel verändern, Bild Transponieren, Farbenwerte ändern, Textaugmentation, Audioaugmentation, Upsamplöing, Downsampling ....

Erstellung neuer Daten aus erlernter Verteilung: z.B. Bildgenerierung durch GAN´s, Diff-Modelle, VAE,

Wie bestimmt man die Qualität von synthetischen Daten? Geben Sie Beispiele für Tubulären Daten und Bilddateien.

Statistische Ähnlichkeit: Wie gut spiegeln synthetische Daten die Originaldaten wider? - Deskriptive Statistiken, Correlation matrix distance (CMD)

Datenschutz: Kann man Rückschlüsse auf echte Daten ziehen? (z. B. Membership Inference) - Distance to Closest Record, wie nahe liegen syntethische Daten an den Realen?

Nutzbarkeit (Utility): Kann ein Modell, das mit synthetischen Daten trainiert wurde, reale Aufgaben lösen? - Beispiel: Ein Kreditrisikomodell, das mit synthetischen Kundendaten trainiert wird, sollte auf echten Kunden valide Vorhersagen liefern.

Diversität und Vollständigkeit: Enthalten die Daten ausreichend Varianz und alle relevanten Muster? Diversity-Checks: z.B. Prüfen, ob der Generator nur wenige Varianten erzeugt.

Beschreiben Sie die Begriffe DevOps, DataOps und MLOps und grenzen Sie sie

voneinander ab.

🔧 1. DevOps (Development & Operations)

📌 Definition:

DevOps ist ein Ansatz zur Automatisierung, Integration und Zusammenarbeit zwischen Softwareentwicklung (Development) und IT-Betrieb (Operations), um Software schneller, zuverlässiger und kontinuierlich bereitzustellen.

🎯 Ziele:

Schnellere Release-Zyklen
Automatisierung von CI/CD (Continuous Integration / Continuous Deployment)
Stabile, skalierbare und reproduzierbare Softwarebereitstellung

🔨 Typische Tools:

Git, Jenkins, Docker, Kubernetes, Terraform, Ansible, Prometheus

📊 2. DataOps (Data Operations)

📌 Definition:

DataOps ist ein organisationsweiter Ansatz zur automatisierten, zuverlässigen und skalierbaren Verwaltung von Datenpipelines, mit Fokus auf Datenqualität, Governance und Zusammenarbeit.

🎯 Ziele:

Schnelle, reproduzierbare Bereitstellung von Daten (z. B. für Analytics, BI, ML)
Automatisierung von Datenpipelines (ETL/ELT)
Versionskontrolle und Tests für Datenprozesse
Sicherstellung von Datenqualität und -sicherheit

🔨 Typische Tools:

Airflow, dbt, Great Expectations, Apache NiFi, Kafka, Snowflake, Delta Lake

🤖 3. MLOps (Machine Learning Operations)

📌 Definition:

MLOps ist die Anwendung von DevOps-Prinzipien auf Machine-Learning-Projekte. Es umfasst das Training, Deployment und Monitoring von ML-Modellen in produktiven Umgebungen.

🎯 Ziele:

Automatisiertes Training, Testing und Deployment von ML-Modellen
Versionierung von Daten, Modellen und Code
Monitoring der Modellleistung im Betrieb
Wiederholbarkeit und Nachvollziehbarkeit von Modellentwicklung

🔨 Typische Tools:

MLflow, Kubeflow, DVC, Tecton, Seldon, Vertex AI, SageMaker, BentoML

Was ist ModelOps und wie unterscheidet es sich von MLOps?

🤖 MLOps (Machine Learning Operations)

Ein Ansatz zur Automatisierung des gesamten Lebenszyklus von ML-Modellen, vom Training bis zum Monitoring im Betrieb.

🧠 ModelOps (Model Operations)

Ein umfassenderer Ansatz zur Operationalisierung aller Arten von analytischen Modellen, nicht nur ML – z. B. auch Regelwerke, Optimierungsmodelle, statistische Modelle oder Entscheidungsmodelle.

🧠 Zusammengefasst:

MLOps ist ein Teilbereich von ModelOps.
ModelOps ist die übergeordnete Disziplin, die alle Arten von analytischen Modellen operationalisiert – nicht nur ML.
Wenn du mit ML arbeitest: MLOps.
Wenn du auch traditionelle Entscheidungsmodelle oder regelbasierte Systeme verwalten musst: ModelOps.

Beschreiben Sie den Unterschied zwischen Containern und Virtualisierung (VMs).

Virtualisierung bedeutet, dass auf einem physischen Server (Host) mehrere virtuelle Maschinen (VMs) laufen. Jede VM enthält ein eigenes Betriebssystem (Gastsystem) plus Anwendungen.

Container teilen sich den Kernel des Host-Betriebssystems und kapseln nur die Anwendung und deren Abhängigkeiten (nicht das gesamte Betriebssystem).

Virtualisierung virtualisiert komplette Maschinen mit Betriebssystem, Containerisierung virtualisiert nur die Anwendung und deren Abhängigkeiten – nicht das gesamte OS.

Ordnen Sie die MLOps-Tätigkeiten in die 3 „Ringe“ des MLOps-Lifecycle ein.

Geben Sie einen Überblick über die Funktionsweise von AirFlow. Gehen Sie dabei insb. auf das DAG-Konzept ein.

Apache Airflow ist ein Open-Source-Tool zur Orchestrierung von Workflows. Es wird oft verwendet, um ETL-Prozesse, Datenpipelines, Machine-Learning-Tasks oder Reporting-Jobs automatisiert, nachvollziehbar und wiederholbar auszuführen.

Directed Acyclic Graph (DAG) bedeutet, das keine zyklischen Abhänigkeiten entstehen können (Azyklisch: Keine Schleifen – ein Task kann nicht auf sich selbst zurückführen).

Task A - Task B - Task C

aber nicht Task A - Task B - Task A

Was ist ein Task in AirFlow?

Ein Task ist eine einzelne Verarbeitungseinheit (z. B. „Lade Daten“, „Starte Skript“).

Ein Task in Airflow basiert auf einem Operator. Diese könnten z.B. Snowflake-Operatoren sein, Bash Operatoren, Python Operatoren, ...

Wozu werden in AirFlow Bitshift-Operatoren verwendet?

Damit werden die Abhängigkeiten zwischen den Tasks definiert.

task_a >> task_b # task_b wird erst nach task_a ausgeführt

task_b << task_a # ebenfalls: task_a → task_b

Was für Aufgaben haben Journalist*innen? Was für W-Fragen kommen in einer Nachricht oder einem Bericht vor? Was sind die W-Fragen des Datenjournalismus?

Journalisten haben die Aufgabe, die Öffentlichkeit unabhängig, sachlich und umfassend über Ereignisse, Entwicklungen und Zusammenhänge zu informieren.

Diese W-Fragen helfen, eine vollständige und verständliche Nachricht zu schreiben:

Wer? – Wer ist beteiligt?
Was? – Was ist passiert?
Wann? – Wann ist es passiert?
Wo? – Wo ist es passiert?
Wie? – Wie ist es passiert?
Warum? – Warum ist es passiert?
Welche Quelle? – Woher stammt die Information?
Welche Folgen? – Welche Konsequenzen hat das Ereignis?

Die W-Fragen des Datenjournalismus

Datenjournalismus basiert auf der Analyse und Darstellung von Daten. Die W-Fragen hier zielen auf Erkenntnisgewinn durch Datenanalyse:

Was zeigen die Daten?
→ Inhalt und Struktur der Daten
Woher stammen die Daten?
→ Quelle, Glaubwürdigkeit, Aktualität
Wie wurden die Daten erhoben/verarbeitet?
→ Methodik, Qualität, eventuelle Verzerrungen
Wer ist betroffen?
→ Relevanz für Personen oder Gruppen
Warum sind die Daten wichtig?
→ Bedeutung für Gesellschaft, Politik, Alltag
Was fehlt in den Daten?
→ Lücken, blinde Flecken, Grenzen der Aussagekraft

Was unterscheidet Datenjournalismus von „normalem“ Journalismus?

Datenjournalismus unterscheidet sich vom klassischen Journalismus vor allem durch die Arbeitsweise: Während klassischer Journalismus auf Interviews, Beobachtungen und Textrecherche basiert, nutzt Datenjournalismus große Datensätze, um Muster, Zusammenhänge oder Missstände aufzudecken. Er analysiert Zahlen, visualisiert Ergebnisse (z. B. mit Diagrammen oder Karten) und stellt komplexe Inhalte verständlich dar. Ziel ist es, durch Daten neue Geschichten zu erzählen, die mit herkömmlichen Methoden schwer erkennbar wären.

Wie geht man bei der Recherche für ein (Daten)-Journalismusprojekt vor?

Bei der Recherche für ein Datenjournalismusprojekt wählt man zuerst ein relevantes Thema und sucht passende Datensätze, z. B. von Behörden oder Open-Data-Portalen. Die Daten werden geprüft, bereinigt und analysiert, um Muster oder Zusammenhänge zu erkennen. Daraus entsteht eine datenbasierte Geschichte, die verständlich – oft mit Grafiken oder Karten – aufbereitet und veröffentlicht wird. Ziel ist es, komplexe Sachverhalte durch Daten sichtbar und greifbar zu machen.

Beschreiben Sie Eigenschaften des Cloud Computings und Entscheidungskriterien (Vorteile und Risiken) anhand derer Sie die Eignung von Cloud Services für ein Projekt beurteilen können.

Cloud Computing bietet flexible IT-Ressourcen wie Speicher, Rechenleistung und Software über das Internet. Wichtige Eigenschaften sind Skalierbarkeit, ortsunabhängiger Zugriff, nutzungsbasierte Abrechnung und geringe Einstiegskosten. Bei der Entscheidung für Cloud Services spielen Vorteile wie Kostenersparnis, hohe Verfügbarkeit und einfache Wartung eine Rolle. Gleichzeitig müssen Risiken wie Datenschutz, Abhängigkeit vom Anbieter (Vendor Lock-in) und Internetsicherheit bedacht werden. Ob sich die Cloud für ein Projekt eignet, hängt von Anforderungen wie Datenschutz, Budget, IT-Kompetenz und Flexibilitätsbedarf ab.

Bei konstanter, vohersehbarere Last sind on-premise Lösungen oft kosteneffizienter.

Beschreiben Sie das Konzept von BLOB Storage und Einsatzszenarien im Bereich Cloud Computing und Data Analytics.

BLOB Storage (Binary Large Object) ist ein Cloud-Dienst zur Speicherung großer, unstrukturierter Daten wie Bilder, Videos, Backups oder Log-Dateien.

🔹 Einsatzszenarien:

Backup & Archivierung: Sicherung großer Datenmengen, z. B. als kostengünstiges Archiv.
Web & Apps: Speichern und Bereitstellen von Medieninhalten.
Data Analytics & KI: Rohdaten für Analysen, Machine Learning oder IoT speichern und verarbeiten.

🔹 Vorteile:

Skalierbar bis Exabyte-Größe
Kosteneffizient dank Speicher-Tiers (Hot, Cool, Archive)
Einfacher Zugriff via URL, API oder SDK
Sicher mit Verschlüsselung & Zugriffskontrollen

BLOB Storage ist ideal für alles, was groß, unstrukturiert und in der Cloud gut aufgehoben ist.

Gehen Sie auf die Unterschiede zwischen Infrastructure-as-a-service, Platform-as-a-service und Software-as-a-service ein und besprechen Sie Beispiele zu den jeweiligen Konzepten.

Beschreiben Sie das Konzept von “Serverless Computing“ / “Event-driven computing“ und beschreiben Sie praktische Einsatzszenarien.

Serverless Computing ist ein Cloud-Modell, bei dem Entwickler nur Code bereitstellen – die Infrastruktur wird automatisch vom Anbieter verwaltet. Es ist typischerweise stateless, d. h. jeder Funktionsaufruf läuft isoliert und hat keinen Zugriff auf vorherige Zustände. Dauerhafte Daten müssen extern gespeichert werden (z. B. in Datenbanken oder Object Storage). In Kombination mit Event-driven Computing wird Code automatisch durch Ereignisse ausgelöst, z. B. Datei-Uploads oder API-Aufrufe. Typische Einsatzszenarien sind z. B. Bildverarbeitung, Webhooks, oder IoT-Datenverarbeitung.

Beschreiben Sie die Unterschiede zwischen den Konzepten Stream processing und Batch processing. Gehen Sie dabei auch auf die unterschiedlichen Arten ein, Streams zu verarbeiten (z.B. Tumbling window und Sliding window).

Batch Processing verarbeitet Daten in großen Blöcken – typischerweise gesammelt über Minuten, Stunden oder Tage. Erst wenn alle Daten beisammen sind, beginnt die Verarbeitung. Das eignet sich z. B. für tägliche Berichte, Abrechnungen oder die Analyse historischer Daten. Die Latenz ist dabei relativ hoch, da Ergebnisse erst nach vollständiger Verarbeitung vorliegen.

Stream Processing dagegen verarbeitet Daten kontinuierlich und in Echtzeit, sobald sie eintreffen. Das ist ideal für Anwendungen, die sofort auf neue Informationen reagieren müssen – etwa Sensorüberwachung, Log-Analysen oder Finanztransaktionen. Die Latenz ist hier sehr gering – oft im Sekunden- oder Millisekundenbereich.

Um Datenströme sinnvoll auszuwerten, nutzt man sogenannte Windows, also zeitliche Abschnitte:

Tumbling Window: feste, nicht überlappende Zeitfenster (z. B. alle 5 Minuten). Jedes Event gehört genau einem Fenster.
Sliding Window: sich überlappende Fenster, die z. B. jede Minute über die letzten 5 Minuten laufen. Ein Event kann in mehreren Fenstern erscheinen.
Session Window: flexible Fenster, die durch Inaktivität beendet werden (z. B. wenn 30 Sekunden lang kein Event kommt). Nützlich für Nutzerinteraktionen oder Sitzungen.

Beschreiben Sie das im Bereich Cloud Computing oft angetroffene Konzept von

“Infrastructure-as-code“, seine Vor- und Nachteile und Anwendungsszenarien.

☁️ Infrastructure-as-Code (IaC)

Infrastructure-as-Code bedeutet, dass IT-Infrastruktur (wie Server, Netzwerke, Datenbanken) nicht manuell, sondern mittels Code definiert und verwaltet wird – oft in YAML, JSON oder deklarativen Sprachen wie Terraform, ARM, CloudFormation etc.

Die Infrastruktur wird dadurch automatisierbar, reproduzierbar und versionierbar – ähnlich wie Softwarecode.

✅ Vorteile von IaC

Automatisierung: Manuelles Setup entfällt, weniger Fehler
Schnelle Wiederherstellung: Infrastruktur lässt sich identisch neu aufbauen (Disaster Recovery)
Versionierung & Nachvollziehbarkeit: Änderungen sind dokumentiert (z. B. via Git)
Skalierbarkeit: Ressourcen können dynamisch und konsistent erstellt oder angepasst werden
Teamarbeit: Infrastruktur kann gemeinsam entwickelt und überprüft werden (z. B. via Pull Requests)

❌ Nachteile von IaC

Komplexität bei großen Umgebungen oder Multi-Cloud-Szenarien
Einarbeitungsaufwand für neue Tools und Konzepte
Fehlkonfigurationen im Code können große Auswirkungen haben
Testbarkeit ist anspruchsvoll (z. B. „Was passiert wirklich beim Ausführen?“)

📌 Anwendungsszenarien

Automatisiertes Aufsetzen von Cloud-Umgebungen (z. B. für Entwicklung, Test, Produktion)
CI/CD-Pipelines, bei denen die Infrastruktur gemeinsam mit dem Code deployed wird
Disaster Recovery, z. B. schnelles Wiederherstellen einer Produktionsumgebung
Skalierung von Microservices oder Kubernetes-Cluster

Was versteht man unter Change Management? Nennen Sie die 3 Dimensionen von Change?

Nennen und beschreiben Sie die Phasen der Veränderung.

Nennen und beschreiben Sie 3 bekannte Change Frameworks.

🔹 Lewin's Three Stage Change Model

Ein einfaches, klassisches Modell für Veränderung – bestehend aus drei Phasen:

Unfreeze – Aufbrechen des alten Zustands, Schaffen eines Problembewusstseins
Change (Move) – Die eigentliche Veränderung wird implementiert
Refreeze – Neue Strukturen verfestigen, Stabilität wiederherstellen

➡️ Ziel: Veränderungen nachhaltig im Unternehmen verankern.

🔹 The McKinsey 7S Framework

Ein Strukturmodell, das zeigt, dass erfolgreiche Veränderungen mehrere Bereiche gleichzeitig betreffen. Es besteht aus 7 miteinander verknüpften Elementen:

Hard factors:
Strategy, Structure, Systems
Soft factors:
Shared Values, Skills, Style, Staff

➡️ Alle 7 Elemente müssen aufeinander abgestimmt sein, um Wandel wirksam umzusetzen.

🔹 The ADKAR Change Model

Ein individuenzentriertes Modell, das beschreibt, wie Menschen Veränderung erfolgreich durchlaufen. Besteht aus fünf aufeinander aufbauenden Schritten:

Awareness – Bewusstsein für die Notwendigkeit
Desire – Wunsch zur Mitwirkung
Knowledge – Wissen über das Wie
Ability – Fähigkeit, die Veränderung umzusetzen
Reinforcement – Verstärkung zur Sicherung des Erfolgs

➡️ Besonders nützlich im Change Management auf Mitarbeiterebene.

Nennen und beschreiben Sie 3 gängige Projekt- und Change-Tools.

Stakeholderanalyse:

Change Management Plan / Gantt Chart

Was sind KPIs und wie werden sie angewandt?

KPIs sind quantifizierbare Messungen

● Datengesteuert

● Standardformel mit spezifischen Maßeinheiten

● Handlungsfähig

● Richtungsweisend

● KPIs spiegeln die kritischen Erfolgsfaktoren der Unternehmensziele wider

SMARTe Ziele, abgeleitet von der Mission der Organisation

● Specific

● Measurable

● Achievable

● Relevant

● Time Bound

KPIs vs OKRs:

- Key Performance Indicators (KPIs) sind quantitative Erfolgskennzahlen, mit denen sich Unternehmensziele oder Projekte nachverfolgen lassen. Anhand von KPIs können Sie Projekte, Programme oder jede andere Unternehmensinitiative nachverfolgbar machen.

- Bei den Objectives and Key Results (OKRs) werden Unternehmensziele mit messbaren Maßnahmen zur Erreichung dieser Ziele verknüpft. OKRs können für nahezu jedes beliebige Ziel genutzt werden, egal ob es sich dabei um ein langfristiges Karriereziel, ein vierteljährliches Teamziel oder ein persönliches Ziel handelt.

Was besagt der AI Act und warum ist dieser für Data Scientists relevant? Wie lautet die Definition von KI im AI Act?

🧠 Was ist der AI Act?

Der EU AI Act (EU-Gesetz über Künstliche Intelligenz) ist die erste umfassende KI-Regulierung weltweit. Er wurde 2024 von der EU verabschiedet und soll Vertrauen, Sicherheit und Transparenz im Umgang mit KI-Systemen schaffen.

🎯 Ziel:

Risiken durch KI begrenzen
Innovation in der EU fördern
Rechte von Menschen schützen

⚖️ Warum ist der AI Act für Data Scientists relevant?

Data Scientists entwickeln, trainieren oder betreiben KI-Systeme – genau das regelt der AI Act. Wichtig ist:

Risikoklassifizierung: Der Act teilt KI-Systeme in vier Risikostufen ein:
Verbotene KI (z. B. Social Scoring wie in China)
Hochriskante KI (z. B. für Medizin, Justiz, Personalwesen)
Begrenztes Risiko (z. B. Chatbots – Kennzeichnungspflicht)
Minimales Risiko (z. B. Spamfilter)
Pflichten für Hochrisiko-KI:
Datenqualität sicherstellen
Transparente Dokumentation
Risikoanalyse & Monitoring
Menschliche Kontrolle ermöglichen

➡️ Data Scientists müssen prüfen, ob ihr System in eine Risikoklasse fällt – und ggf. gesetzliche Anforderungen erfüllen.

Definition KI (lt. AI Act):

Die Verordnung ist sachlich anwendbar auf „KI-Systeme“, deren Begriff sehr weit definiert ist.

Danach bezeichnet ein KI-System „Software, die mit einem oder mehreren der in einem Annex I zur Verordnung aufgeführten Techniken und Ansätze entwickelt wurde und für einen durch den Menschen vorgegebenen Satz an vordefinierten Zielen Ausgaben wie Inhalte, Vorhersagen, Empfehlungen oder Entscheidungen erzeugen kann, die Umgebungen beeinflussen, mit denen sie interagieren“.

Der Kommission wird die Befugnis eingeräumt, die Liste in Annex I

zukünftig zu ändern (Artikel 4).

Welche Standards und Normen? Erklären Sie warum diese notwendig sind anhand eines ISO Standards (zB. ISO 26262 - Road vehicles – Functional safety).

📏 Standards und Normen – warum sind sie notwendig?

Standards und Normen stellen sicher, dass Produkte, Prozesse oder Systeme sicher, verlässlich, kompatibel und qualitativ hochwertig sind. Sie dienen als gemeinsame Sprache für Unternehmen, Behörden und Entwickler – besonders in sicherheitskritischen Bereichen.

🛡️ Warum sind Standards wie ISO 26262 notwendig?

Standards wie ISO 26262 sind notwendig, um die funktionale Sicherheit von elektrischen und elektronischen Systemen (E/E-Systemen) in Serienfahrzeugen systematisch zu gewährleisten. Gerade in modernen Autos, die stark von Software und Sensorik abhängig sind (z. B. Fahrerassistenzsysteme), können Fehlfunktionen direkt zu Gefährdungen für Leben und Gesundheit führen.

📘 Was regelt ISO 26262 laut Abstract?

Der Abstract beschreibt ISO 26262 als Rahmenwerk für funktionale Sicherheit, das:

auf Sicherheitsrelevante E/E-Systeme in Serienfahrzeugen angewendet wird (außer z. B. bei Sonderfahrzeugen),
sich auf Gefahren durch Fehlverhalten technischer Systeme konzentriert (nicht z. B. auf Feuer oder elektrische Schläge, außer sie entstehen durch Fehlverhalten),
auch den Prozess der Systementwicklung umfasst – nicht nur das technische Produkt selbst,
die Integration funktionaler Sicherheit in bestehende Entwicklungsprozesse unterstützt,
und den Umgang mit bestehenden oder geänderten Systemen regelt (z. B. Nachrüstungen oder Re-Designs).

🎯 Relevanz der Norm (konkret):

Ein Unternehmen, das sicherheitsrelevante Elektronik im Auto entwickelt, muss durch ISO 26262:

mögliche Fehlfunktionen und ihre Folgen frühzeitig analysieren (Gefahrenanalyse),
klare technische und organisatorische Anforderungen erfüllen,
den gesamten Sicherheitslebenszyklus dokumentieren und nachvollziehbar machen,
und sicherstellen, dass auch Änderungen bestehender Systeme funktional sicher integriert werden.

✅ Fazit:

ISO 26262 ist notwendig, um sicherzustellen, dass sicherheitsrelevante elektronische Systeme in Fahrzeugen zuverlässig funktionieren und keine gefährlichen Fehlfunktionen verursachen. Der Standard hilft dabei, technische Sicherheit und Prozesse strukturiert abzusichern – das schützt nicht nur die Nutzer, sondern auch Unternehmen rechtlich und reputativ.

Was ist der Unterschied zwischen einer EU Richtlinie und einer EU Verordnung? Was besagt die EU Trustworthy AI Richtlinie?

🇪🇺 Unterschied: EU-Richtlinie vs. EU-Verordnung

🔹 EU-Richtlinie

Zielvorgabe für alle Mitgliedstaaten
Muss in nationales Recht umgesetzt werden
Gibt Spielraum, wie die Ziele erreicht werden
Beispiel: Datenschutz-Richtlinie (vor der DSGVO)

🔹 EU-Verordnung

Direkt geltendes Recht in allen Mitgliedstaaten
Muss nicht umgesetzt, sondern sofort angewendet werden
Einheitlich in der ganzen EU
Beispiel: DSGVO, AI Act

➡️ Kurz:

Richtlinie = Zielvorgabe mit Umsetzungspflicht,

Verordnung = sofort geltendes, einheitliches EU-Recht

🤖 Was besagt die EU-Richtlinie zu Trustworthy AI?

Die sogenannte "EU Trustworthy AI" Richtlinie ist keine eigene offizielle Richtlinie, sondern bezieht sich meist auf die Leitlinien der EU-Kommission für vertrauenswürdige KI (z. B. die Ethics Guidelines for Trustworthy AI, 2019) – sie sind nicht rechtlich bindend, aber beeinflussen die Politik stark.

🔑 Die Leitlinien definieren 7 zentrale Anforderungen an vertrauenswürdige KI:

Menschliches Handeln und Aufsicht
Technische Robustheit und Sicherheit
Datenschutz und Daten-Governance
Transparenz
Diversität, Nicht-Diskriminierung und Fairness
Gesellschaftliches und ökologisches Wohlergehen
Rechenschaftspflicht

Diese Prinzipien dienen als ethischer Rahmen für KI-Entwicklung und sind Grundlage für gesetzliche Regelungen wie den AI Act.

Was besagt die DSGVO und warum benötigt man einen Datenmanagementplan? Wie sieht ein Datenmanagementplan aus?

📜 Was besagt die DSGVO?

Die DSGVO (Datenschutz-Grundverordnung) ist eine EU-Verordnung, die seit Mai 2018 gilt. Sie regelt den Schutz personenbezogener Daten und gilt für alle Organisationen, die Daten von EU-Bürgern verarbeiten – unabhängig vom Standort.

🔑 Kernaussagen der DSGVO:

Recht auf Information, Zugriff und Löschung ("Recht auf Vergessenwerden")
Einwilligungspflicht bei Datenerhebung
Zweckbindung: Daten dürfen nur für den angegebenen Zweck genutzt werden
Datensicherheit: Technische und organisatorische Maßnahmen erforderlich
Rechenschaftspflicht: Nachweis der DSGVO-Konformität ist Pflicht

📂 Warum braucht man einen Datenmanagementplan (DMP)?

Ein Datenmanagementplan beschreibt, wie mit Daten im Rahmen eines Projekts umgegangen wird – von der Erhebung über Speicherung bis zur Archivierung oder Löschung.

Gründe für einen DMP:

Erfüllung von rechtlichen Anforderungen (z. B. DSGVO)
Transparenz und Nachvollziehbarkeit im Umgang mit sensiblen Daten
Sicherstellung von Datenqualität, Sicherheit und Zugriffskontrolle
Wichtig in Forschungsprojekten, z. B. bei EU- oder DFG-Förderung

📝 Wie sieht ein Datenmanagementplan aus? (Beispielstruktur)

Ein typischer DMP enthält:

Beschreibung der Daten
– Welche Daten werden erhoben? (z. B. Text, Bild, personenbezogen)
Zweck der Datennutzung
– Warum werden diese Daten verarbeitet?
Rechtsgrundlage & Einwilligung
– Auf welcher rechtlichen Basis erfolgt die Verarbeitung?
Speicherung & Zugriff
– Wo werden die Daten gespeichert? Wer hat Zugriff?
Sicherheitsmaßnahmen
– z. B. Verschlüsselung, Zugriffskontrollen
Weitergabe an Dritte
– Werden Daten an externe Partner übermittelt?
Aufbewahrungsdauer & Löschung
– Wie lange werden Daten gespeichert, und wie werden sie gelöscht?
Archivierung / Nachnutzung (v. a. in der Forschung)
– Können Daten später weiterverwendet werden?

Nennen und beschreiben Sie die 6 Dimensionen von Trustworthiness. Wie garantiert man Trustworthiness über den ganzen Lifecycle einer KI Applikation?

✅ Die 6 Dimensionen von Trustworthiness bei KI

Rechtmäßigkeit (Lawfulness)→ Die KI muss geltende Gesetze und Vorschriften (z. B. DSGVO, AI Act) einhalten.Beispiel: Datenschutzkonforme Datenerhebung und -verarbeitung.
Ethik (Ethics)→ Die KI muss mit ethischen Grundwerten wie Menschenwürde, Autonomie und Fairness im Einklang stehen.Beispiel: Kein diskriminierendes Verhalten bei Entscheidungen.
Robustheit und Sicherheit (Technical Robustness & Safety)→ Die KI muss technisch zuverlässig, fehlertolerant und gegen Angriffe abgesichert sein.Beispiel: Tests auf fehlerhafte Vorhersagen oder adversarial attacks.
Transparenz→ Entscheidungen der KI sollen nachvollziehbar, erklärbar und dokumentiert sein.Beispiel: Einsatz von erklärbarer KI (XAI), verständliche Modelle und Logs.
Datenschutz und Daten-Governance→ Daten müssen sicher, kontrolliert und im Einklang mit Datenschutzregeln verarbeitet werden.Beispiel: Pseudonymisierung, Zugriffskontrollen, Datenminimierung.
Rechenschaftspflicht (Accountability)→ Es muss klar sein, wer für welche Entscheidungen und Funktionen der KI verantwortlich ist.Beispiel: Rollen- und Verantwortlichkeitsdefinition im Entwicklungsteam.

🔁 Wie garantiert man Trustworthiness über den gesamten KI-Lifecycle?

Planung & Konzeption

Risikoanalyse (z. B. Risiko durch Bias oder Fehler)
Auswahl geeigneter Datenquellen
Festlegung ethischer Leitlinien

Datenmanagement

DSGVO-konforme Datenverarbeitung
Qualitätssicherung und Daten-Governance
Dokumentation der Datenherkunft

Modellentwicklung

Einsatz fairer, erklärbarer Algorithmen
Validierung und Testen auf Bias & Robustheit
Dokumentation von Annahmen und Trainingsdaten

Deployment (Bereitstellung)

Zugriffskontrollen und Monitoring
Technische Absicherung (z. B. gegen Manipulation)

Nutzung & Monitoring

Logging von Entscheidungen
Performance-Überwachung und Fehlermeldung
Feedback-Mechanismen für Benutzer

Wartung & Weiterentwicklung

Regelmäßige Updates und Re-Evaluation
Anpassung an neue rechtliche Anforderungen
Offenlegung von Änderungen

Welche Metriken gibt es zur Evaluierung von Machine Learning? Beschreiben Sie diese.

Zur Evaluierung von Machine-Learning-Modellen gibt es je nach Aufgabentyp (Klassifikation, Regression, Clustering etc.) verschiedene Metriken. Hier sind die wichtigsten:

🔍 1. Klassifikation (z. B. Spam vs. Nicht-Spam)

🔹 Accuracy (Genauigkeit)

Anteil korrekt klassifizierter Beispiele:

Accuracy = (TP + TN) / (TP + TN + FP + FN)

⚠️ Achtung bei unausgewogenen Klassen! (z. B. 95 % „Nicht-Spam“ → hohe Accuracy trotz schlechtem Modell)

🔹 Precision (Positiver Vorhersagewert)

Wie viele der als „positiv“ klassifizierten Beispiele sind wirklich positiv?

Precision = TP / (TP + FP)

🔹 Recall (Sensitivität, Trefferquote)

Wie viele der tatsächlich positiven Beispiele wurden erkannt?

Recall = TP / (TP + FN)

🔹 F1-Score

Harmonisches Mittel aus Precision und Recall – nützlich bei Klassifizierungsproblemen mit unausgewogenen Klassen.

F1 = 2 × (Precision × Recall) / (Precision + Recall)

🔹 AUC-ROC (Area Under Curve – Receiver Operating Characteristic)

Bewertet die Trennschärfe eines Modells unabhängig vom Schwellenwert – je näher an 1, desto besser.

📈 2. Regression (z. B. Hauspreisvorhersage)

🔹 MSE (Mean Squared Error)

Durchschnittlicher quadrierter Fehler – bestraft große Fehler stärker:

MSE = (1/n) × Σ(yᵢ – ŷᵢ)²

🔹 RMSE (Root Mean Squared Error)

Wurzel des MSE – wieder auf Originaleinheit skaliert (z. B. Euro):

RMSE = √MSE

🔹 MAE (Mean Absolute Error)

Durchschnittlicher absoluter Fehler – robuster gegen Ausreißer als MSE:

MAE = (1/n) × Σ|yᵢ – ŷᵢ|

🔹 R² (Bestimmtheitsmaß)

Erklärt, wie viel Varianz im Zielwert durch das Modell erklärt wird.

R² = 1 – (Residuenvarianz / Gesamtvarianz)

Werte zwischen 0 und 1 (bzw. auch < 0 bei schlechten Modellen)

🧩 3. Clustering (z. B. Kundensegmentierung)

🔹 Silhouette Score

Misst, wie gut ein Punkt zu seinem Cluster passt im Vergleich zu anderen Clustern.

Werte zwischen –1 (falsch zugeordnet) und 1 (gut zugeordnet).

Beschreiben Sie ein Single-Layer Perceptron. Beschreiben Sie Multi-Layer Perceptrons.

Single-Layer Perceptron (SLP):

Ein SLP ist das einfachste künstliche neuronale Netz. Es besteht aus einer Eingabeschicht und einer Ausgabeschicht – ohne versteckte Schichten.

Funktionsweise:

Jede Eingabe x_i wird mit einem Gewicht w_i multipliziert.
Alle Produkte werden aufsummiert: z = w1 * x1 + w2 * x2 + ... + wn * xn + b
Diese Summe z wird durch eine Aktivierungsfunktion (z. B. eine Schwellenwertfunktion) geschickt.
Das Ergebnis ist eine binäre Entscheidung (z. B. 0 oder 1).

Einschränkung:

Ein SLP kann nur lineare Probleme lösen – z. B. UND- oder ODER-Verknüpfungen, aber nicht das XOR-Problem.

Multi-Layer Perceptron (MLP):

Ein MLP erweitert das SLP um eine oder mehrere versteckte Schichten (Hidden Layers). Es besteht aus:

Eingabeschicht
Eine oder mehrere versteckte Schichten
Ausgabeschicht

Merkmale:

Jedes Neuron ist mit allen Neuronen der nächsten Schicht verbunden.
Verwendet Aktivierungsfunktionen wie ReLU oder Sigmoid, um auch nichtlineare Zusammenhänge zu lernen.
Wird mit Backpropagation trainiert – ein Verfahren, das Fehler im Netzwerk rückwärts verteilt und die Gewichte anpasst.

Vorteil:

MLPs können auch komplexe, nichtlineare Probleme lösen und sind die Grundlage vieler moderner KI-Anwendungen wie Sprach- oder Bilderkennung.

Kurz gesagt:

SLP = einfach, nur für lineare Probleme

MLP = leistungsfähiger, auch für komplexe Aufgaben geeignet

Welche Aktivierungsfunktionen bei neuronalen Netzen kennen Sie? Beschreiben Sie diese.

Sigmoid, TanH, RelU, GelU, Softmax

Welche Loss Functions haben Sie kennengelernt? Beschreiben Sie diese. Wie sehen die Output Layers von Neurale Netze für jeder diese Loss Functions aus?

MSE-Loss, Binary-Cross Entropy, Cartegorical Cross Entropy, Contrastive Loss

Rest Video

Welche Deep Learning Architekturen haben Sie kennengelernt? Beschreiben Sie diese.

🔹 1. Feedforward Neural Networks (FNN / MLP)

Einfachste Form neuronaler Netze
Daten fließen nur vorwärts, ohne Schleifen
Bestehen aus Input-, Hidden- und Output-Schichten
Eingesetzt für einfache Klassifikation und Regression
➡️ Grundlage aller anderen Architekturen

🔹 2. Convolutional Neural Networks (CNN)

Speziell für bildbasierte Daten
Nutzen Faltungsschichten (Convolutions) zur automatischen Merkmalsextraktion
Vorteil: Erkennen lokal bedeutender Muster wie Kanten, Formen etc.
➡️ Anwendungen: Bilderkennung, Objekterkennung, medizinische Bildanalyse

🔹 3. Recurrent Neural Networks (RNN)

Entwickelt für sequenzielle Daten (z. B. Text, Sprache, Zeitreihen)
Verwenden Schleifen, um Informationen aus früheren Zeitschritten zu behalten
Problem: Vanishing Gradient bei langen Sequenzen

🔹 4. Long Short-Term Memory (LSTM) / GRU (Gated Recurrent Unit)

Erweiterung von RNNs mit Gedächtnismechanismus
Können langfristige Abhängigkeiten speichern und verarbeiten
➡️ Anwendungen: Maschinelle Übersetzung, Sprachmodellierung, Zeitreihenanalyse

🔹 5. Autoencoder

Netzwerk zur Datenkompression und -rekonstruktion
Besteht aus Encoder (verdichtet Daten) und Decoder (stellt sie wieder her)
Wird unüberwacht trainiert
➡️ Anwendungen: Anomalieerkennung, Merkmalsextraktion, Bildrauschen entfernen

🔹 6. Generative Adversarial Networks (GANs)

Bestehen aus zwei Netzen: Generator und Discriminator
Generator erzeugt Daten, Discriminator prüft, ob sie real oder künstlich sind
Trainieren sich im „Wettkampf“ gegenseitig
➡️ Anwendungen: Bilderzeugung, Deepfakes, Datenaugmentation

🔹 7. Transformer

Architekturen mit Self-Attention, ursprünglich für NLP
Kein rekursives oder sequentielles Rechnen wie bei RNNs
Sehr leistungsfähig bei großen Sprachmodellen (z. B. GPT, BERT)
➡️ Anwendungen: Übersetzung, Textverständnis, Chatbots, neuerdings auch Bilder

✅ Fazit:

Du wählst die Architektur je nach Datenart und Aufgabe:

CNNs für Bilder
RNNs / LSTM / GRU für Sequenzen
Transformer für Sprache (und zunehmend andere Bereiche)
Autoencoder / GANs für Generierung und Kompression
MLPs für einfache Aufgaben und als Basistechnologie

Was versteht man unter Fairness im Bereich der KI. Nennen und beschreiben Sie unterschiedliche Arten von Bias.

Fairness in der KI bedeutet, dass KI-Systeme keine systematische Benachteiligung oder Bevorzugung bestimmter Gruppen oder Individuen verursachen – etwa basierend auf Geschlecht, Herkunft, Alter oder anderen sensiblen Merkmalen.

Ziel ist es, diskriminierungsfreie, gerechte und nachvollziehbare Entscheidungen durch KI-Modelle zu ermöglichen – besonders in sensiblen Bereichen wie Bewerbungsverfahren, Kreditvergabe, Strafverfolgung oder Medizin.

📉 Arten von Bias in KI-Systemen

🔹 1. Data Bias (Datenbias)

Entsteht durch unausgewogene oder unvollständige Trainingsdaten.

Beispiel: Wenn ein Gesichtserkennungssystem überwiegend mit Bildern weißer Männer trainiert wurde, erkennt es andere Gruppen schlechter.

🔹 2. Label Bias

Tritt auf, wenn die Zuordnung der Zielwerte (Labels) fehlerhaft, verzerrt oder subjektiv ist.

Beispiel: In Polizeidaten könnten Verhaftungen häufiger dokumentiert sein für bestimmte Bevölkerungsgruppen – nicht unbedingt objektiv gerechtfertigt.

🔹 3. Measurement Bias (Messfehler)

Entsteht, wenn die Messmethoden selbst verzerrt sind oder für alle Gruppen unterschiedlich wirken.

Beispiel: Ein Online-Test für Intelligenz könnte kultur- oder sprachspezifisch sein.

🔹 4. Selection Bias (Stichprobenverzerrung)

Tritt auf, wenn die Trainingsdaten nicht repräsentativ für die Realität sind.

Beispiel: Ein KI-Modell für Kredite wurde nur mit Daten von Großstädten trainiert – Landbewohner werden schlechter beurteilt.

🔹 5. Algorithmic Bias

Ein Bias, der durch Modellstruktur oder Lernmethoden entsteht – auch wenn die Daten korrekt sind.

Beispiel: Ein Modell minimiert nur den Gesamtfehler und bevorzugt damit automatisch die Mehrheit.

🔹 6. Societal Bias

Reflektiert gesellschaftliche Vorurteile, die in Daten oder Modellen unkritisch übernommen werden.

Beispiel: Ein Sprachmodell reproduziert stereotype Aussagen über Geschlechterrollen.

✅ Fazit:

Fairness in KI bedeutet, systematische Ungleichbehandlung zu erkennen und zu vermeiden.

Bias kann auf vielen Ebenen entstehen – im Datensatz, bei der Modellierung oder durch gesellschaftliche Einflüsse– und muss durch sorgfältige Analyse, Tests und Transparenzmaßnahmen aktiv adressiert werden.

Welche Mitigating Bias Methoden haben Sie kennengelernt? Beschreiben Sie diese.

Hier ist eine Übersicht über wichtige Methoden zur Bias-Minderung (Mitigating Bias) in KI-Systemen – sortiert nach dem Zeitpunkt, an dem sie im Machine-Learning-Prozess angewendet werden können:

🛠️ 1. Preprocessing-Methoden (vor dem Training)

Diese Methoden verändern oder verbessern die Trainingsdaten, um Fairness zu fördern.

🔹 Rebalancing / Resampling

Über- oder Unterrepräsentierte Gruppen werden ausgeglichen (z. B. durch Oversampling, SMOTE).
Ziel: Gleichverteilung der Klassen bzw. Gruppen.

🔹 Fairness-aware Data Transformation

Anpassung sensibler Merkmale (z. B. Alter, Geschlecht), um Korrelation mit dem Zielwert zu reduzieren.
Beispiel: „Disparate Impact Remover“

🔹 Data Augmentation

Erzeugen zusätzlicher Datenpunkte für unterrepräsentierte Gruppen.
Z. B. synthetische Bilder für benachteiligte Ethnien bei Gesichtserkennung.

🧠 2. In-processing-Methoden (während des Modelltrainings)

Diese Methoden verändern das Lernverfahren oder die Ziel-Funktion, um Fairness zu fördern.

🔹 Fairness Constraints im Lernalgorithmus

Zusätzliche Nebenbedingungen im Optimierungsziel, z. B.:
„Gleich hohe False Positive Rate für alle Gruppen“.

🔹 Adversarial Debiasing

Es wird ein zweites Modell (Adversary) trainiert, das versucht, sensible Merkmale zu erraten.
Das Hauptmodell wird so optimiert, dass diese Merkmale nicht vorhersagbar sind → weniger Bias.

📊 3. Postprocessing-Methoden (nach dem Modelltraining)

Diese Methoden verändern die Ausgaben des Modells, ohne das Modell selbst zu ändern.

🔹 Threshold Adjustment

Setzen von unterschiedlichen Schwellenwerten für verschiedene Gruppen, um faire Ergebnisse zu erzielen.
Z. B. gleiche True Positive Rate für Männer und Frauen.

🔹 Equalized Odds Postprocessing

Ziel: Modell so anpassen, dass es gleiche Fehlerquoten (False Positive/Negative) für alle Gruppen hat.

🔹 Reject Option Classification

Wenn das Modell unsicher ist, wird bei sensiblen Gruppen zugunsten der Fairness angepasst.

Was versteht man unter Erklärbarkeit und Transparenz im Bereich Machine Learning. Wie kann man diese beiden Konzepte umsetzen?

Erklärbarkeit (Explainability) und Transparenz (Transparency) sind zentrale Konzepte im Bereich verantwortungsvoller KI – insbesondere bei komplexen oder sicherheitskritischen Anwendungen wie Medizin, Finanzen oder Justiz.

🧠 Was bedeutet Erklärbarkeit?

Erklärbarkeit bezeichnet die Fähigkeit eines KI-Modells, nachvollziehbar zu machen, warum es eine bestimmte Entscheidung getroffen hat.

Beispiel: Warum wurde einem Kunden kein Kredit gewährt?

🔍 Was bedeutet Transparenz?

Transparenz bezieht sich auf die Offenlegung der Struktur, Daten und Prozesse eines Modells – also wie es aufgebaut ist, wie es trainiert wurde und welche Annahmen gemacht wurden.

Beispiel: Welche Merkmale wurden im Modell verwendet? Wurde das Modell fair trainiert?

🔧 Wie kann man Erklärbarkeit und Transparenz umsetzen?

1. Modellwahl

Einfache, intrinsisch erklärbare Modelle verwenden, z. B.:
Entscheidungsbäume
Lineare Regression
Regelbasierte Systeme

2. Post-hoc-Erklärungen (bei komplexen Modellen wie Deep Learning)

LIME (Local Interpretable Model-agnostic Explanations):
Erklärt lokal, welche Merkmale zur Entscheidung beigetragen haben.
SHAP (SHapley Additive exPlanations):
Berechnet den Beitrag jedes Merkmals zur Vorhersage – fair und mathematisch fundiert.
Feature Importance:
Zeigt, welche Eingabegrößen das Modell am stärksten beeinflussen.

3. Visualisierung

Entscheidungspfade (bei Entscheidungsbäumen)
Heatmaps (z. B. Grad-CAM bei Bildklassifikation)
Diagramme zur Modellstruktur und Datenflüssen

4. Dokumentation & Modellkarten

Modellkarten (Model Cards for Model Reporting):
Zusammenfassungen mit Infos zu Training, Datenquellen, Einsatzgrenzen, Fairness und Performance.
Offenlegung von Trainingsdaten, Vorverarbeitung, verwendeten Algorithmen

Auf was muss man achten, um KI-Applikationen sicher zu entwickeln? Welche Standards haben Sie in diesem Bereich kennengelernt?

1. Datensicherheit und Datenschutz

DSGVO/GDPR-Konformität sicherstellen: Personenbezogene Daten müssen geschützt, minimiert und zweckgebunden verarbeitet werden.
Anonymisierung & Pseudonymisierung von Trainingsdaten.
Sicherer Datenzugriff und -speicherung, inkl. Verschlüsselung und Zugriffskontrollen.

2. Modellsicherheit

Schutz vor Adversarial Attacks (gezielte Manipulation von Eingabedaten).
Erkennung und Begrenzung von Model Inversion oder Membership Inference Attacks.
Einsatz von Differential Privacy oder Federated Learning, wo möglich.

3. Transparenz und Erklärbarkeit

Einsatz von Explainable AI (XAI)-Techniken, um Entscheidungen nachvollziehbar zu machen (z. B. LIME, SHAP).
Dokumentation der Modellarchitektur, Datenquellen und Trainingsprozesse (z. B. Model Cards, Data Sheets for Datasets).

4. Bias, Fairness und Ethik

Vermeidung diskriminierender Entscheidungen durch Bias-Audits.
Regelmäßige Fairness-Analysen in verschiedenen Nutzergruppen.
Berücksichtigung ethischer Richtlinien (z. B. „Ethics Guidelines for Trustworthy AI“ der EU).

5. Monitoring und Auditierbarkeit

Kontinuierliches Monitoring der Modellperformance und -sicherheit im Betrieb.
Versionierung von Modellen und automatisierte Re-Trains mit dokumentierter Nachvollziehbarkeit.

6. Robuste Entwicklungsprozesse

Einsatz sicherer Softwareentwicklungspraktiken (z. B. OWASP Secure SDLC).
Automatisierte Tests, CI/CD-Pipelines, Security-Scans (Code, Daten, Modelle).
Einsatz von Threat Modeling speziell für KI (z. B. STRIDE angepasst für ML).

Standards und Richtlinien:

ISO 26262
EU-AI-Akt: Gesetzliche Vorgaben für Hochrisiko-KI-Systeme, inkl. Sicherheits-, Transparenz- und Robustheitsanforderungen.
DSGVO

Beschreiben Sie die AI Threat Taxonomy nach ENISA. Welche möglichen Attacken auf KI- Systeme haben Sie kennengelernt. Beschreiben Sie diese.

Die AI Threat Taxonomy der ENISA (European Union Agency for Cybersecurity) beschreibt Bedrohungen für KI-Systeme entlang des gesamten Lebenszyklus – von der Datenbeschaffung über das Training bis hin zum produktiven Betrieb. Sie unterscheidet dabei zwischen klassischen IT-Bedrohungen (wie Datenlecks oder unzureichende Zugriffskontrollen) und spezifischen Angriffen, die sich gezielt gegen KI-Modelle richten.

In der Phase der Datenbeschaffung kann es zu sogenannten Data Poisoning-Angriffen kommen. Dabei schleusen Angreifer manipulierte oder falsche Daten in den Trainingsdatensatz ein, mit dem Ziel, das Verhalten des Modells gezielt zu verzerren. Eine andere Bedrohung ist der Datenabfluss (Data Leakage), bei dem sensible Informationen aus Trainingsdaten ungewollt ins Modell übernommen werden.

Während des Trainings kann es zu Backdoor-Angriffen kommen. Dabei wird das Modell mit bestimmten Mustern trainiert, die es später – etwa durch ein spezielles Symbol im Bild – zu einer falschen Entscheidung verleiten. Auch Model Stealing fällt in diese Phase: Ein Angreifer versucht, über gezielte API-Abfragen ein Modell nachzubilden und so geistiges Eigentum zu stehlen.

In der Test- und Validierungsphase sind insbesondere unzureichende Prüfungen auf Robustheit und Fairness ein Risiko. Angreifer könnten gezielt Lücken im Testspektrum ausnutzen, um Fehlverhalten im realen Betrieb zu provozieren.

Im Deployment, also im produktiven Einsatz, drohen sogenannte Adversarial Attacks. Dabei werden Eingaben minimal manipuliert – etwa bei Bildern, Texten oder Sprache – sodass das Modell bewusst falsche Ausgaben produziert, obwohl die Veränderung für Menschen kaum wahrnehmbar ist. Ein klassisches Beispiel: Ein leicht verändertes Bild eines Stoppschilds wird als Geschwindigkeitsbegrenzung erkannt.

Weitere bekannte Angriffsformen in dieser Phase sind Model Inversion und Membership Inference. Bei Model Inversion versuchen Angreifer, aus den Antworten des Modells Rückschlüsse auf die Trainingsdaten zu ziehen – etwa auf ein Gesichtsbild. Membership Inference zielt darauf ab zu erkennen, ob bestimmte Daten (z. B. Patientendaten) Teil des Trainingsdatensatzes waren, was eine Datenschutzverletzung darstellen kann.

Auch im laufenden Betrieb sind KI-Modelle anfällig. Etwa durch Model Drift Exploits, bei denen Veränderungen im Umfeld oder in der Datenlage bewusst genutzt werden, um die Modellleistung zu verschlechtern. In komplexeren Szenarien werden sogar Shadow Models erstellt – heimliche Parallelmodelle, die legitime Entscheidungen beeinflussen oder überwachen können.

Insgesamt zeigt die ENISA-Taxonomie, dass KI-Systeme neue Angriffsflächen bieten, die über klassische IT-Risiken hinausgehen. Besonders kritisch ist, dass viele dieser Angriffe schwer zu erkennen sind und nicht mit herkömmlichen Sicherheitsmechanismen abgefangen werden können. Daher ist es essenziell, KI-spezifische Schutzmaßnahmen zu integrieren – etwa adversarial training, explainability, Datenschutzmechanismen wie Differential Privacy oder Monitoring auf Abweichungen im Modellverhalten.

Was versteht man unter Human-Centered AI und was sind die Herausforderungen dabei? Beschreiben Sie diese.

Merkmale: Benutzerzentrierung, Transparenz und Erklärbarkeit, Verantwortlichkeit, Partizipation.

Herausforderungen bei der Umsetzung von Human-Centered AI

Die Umsetzung dieses Konzepts ist komplex und mit zahlreichen Herausforderungen verbunden:

1. Erklärbarkeit vs. Modellkomplexität

Moderne KI-Modelle wie Deep Learning oder Transformer-Modelle sind extrem leistungsfähig, aber oft nicht verständlich. Es ist schwierig, ihre Entscheidungen transparent und nachvollziehbar zu machen, ohne ihre Genauigkeit zu beeinträchtigen. Explainable AI (XAI) steckt noch in den Kinderschuhen und liefert oft nur approximative Erklärungen.

2. Fairness und Bias

KI-Modelle übernehmen häufig Vorurteile aus Trainingsdaten, die gesellschaftliche Ungleichheiten widerspiegeln. Diese Verzerrungen aufzudecken und zu korrigieren ist technisch und ethisch anspruchsvoll. Gleichzeitig kann es Zielkonflikte geben: Was als "fair" gilt, hängt vom gesellschaftlichen Kontext ab.

3. Nutzervertrauen und Kontrolle

Viele Menschen vertrauen KI-Systemen entweder zu wenig (Skepsis) oder zu viel (blinder Gehorsam). Eine Herausforderung ist, genau die richtige Balance zu finden: Die Systeme müssen vertrauenswürdig sein, aber der Mensch soll die letzte Entscheidungsinstanz bleiben.

4. Gestaltung intuitiver Mensch-Maschine-Interaktion

Damit KI-Systeme wirklich menschenzentriert sind, müssen sie für verschiedene Zielgruppen zugänglich sein – unabhängig von Bildung, Sprache oder Technikverständnis. Die Gestaltung intuitiver, barrierefreier Benutzeroberflächen ist jedoch oft vernachlässigt.

5. Verantwortung und Haftung

Wer ist verantwortlich, wenn ein KI-System eine falsche Entscheidung trifft? Der Entwickler? Der Nutzer? Der Betreiber? Die Klärung dieser Fragen ist nicht nur rechtlich schwierig, sondern auch entscheidend für das Vertrauen in KI.

6. Datenschutz und ethische Grenzen

HCAI erfordert oft eine hohe Personalisierung, was in Konflikt mit dem Datenschutz stehen kann. Die Herausforderung liegt darin, individuelle Unterstützung zu ermöglichen, ohne private Daten auszubeuten.

Erklären Sie Active Learning.

Active Learning ist eine Methode im maschinellen Lernen, bei der ein Lernalgorithmus gezielt entscheidet, welche Daten er als Nächstes lernen möchte, um seine Leistung mit möglichst wenig gelabelten Daten zu maximieren. Das Ziel ist es, die Effizienz des Trainings zu steigern, insbesondere in Fällen, in denen das Labeln von Daten teuer oder zeitaufwendig ist (z. B. in der Medizin, bei Bild- oder Textklassifikation).

Wie funktioniert Active Learning?

Beim klassischen supervised learning wird das Modell mit einer großen Menge bereits gelabelter Daten trainiert. Beim Active Learning hingegen:

Startet man mit einem kleinen, gelabelten Datensatz.
Das Modell wird damit vorläufig trainiert.
Anschließend entscheidet das Modell selbstständig, welche unlabeled Daten besonders informativ wären, um seine Leistung zu verbessern.
Diese "informativen" Daten werden dann von einem menschlichen Experten gelabelt.
Das Modell wird mit den neu gelabelten Daten erneut trainiert.
Der Zyklus wiederholt sich.

Auswahlstrategien (Query Strategies)

Es gibt verschiedene Methoden, mit denen das Modell entscheidet, welche Daten am wertvollsten sind:

Uncertainty Sampling: Das Modell wählt die Datenpunkte aus, bei denen es sich am unsichersten ist (z. B. bei einer Klassifikation, wo die Wahrscheinlichkeit fast 50/50 ist).
Diversity Sampling: Es werden möglichst unterschiedliche, repräsentative Datenpunkte ausgewählt.

Vorteile von Active Learning

Spart Kosten und Zeit beim Labeln.
Bessere Leistung mit weniger gelabelten Beispielen.
Besonders nützlich bei großen Mengen unlabeled Data und wenigen Expert:innen.

Herausforderungen

Kann fehleranfällig sein, wenn das Modell anfangs schlechte Schätzungen macht.
Der Aufbau einer aktiven Lernpipeline ist komplexer als beim klassischen Training.
Braucht oft enge Zusammenarbeit mit menschlichen Annotatoren.

Erklären Sie Semi-Supervised Learning.

Semi-Supervised Learning (SSL) ist eine Methode des maschinellen Lernens, bei der ein Modell mit einer kleinen Menge gelabelter Daten und einer großen Menge unbeschrifteter Daten trainiert wird. Ziel ist es, die unbeschrifteten Daten sinnvoll zu nutzen, um die Lernleistung des Modells zu verbessern – insbesondere dann, wenn das Labeln teuer, aufwendig oder zeitlich begrenzt ist.

Wie funktioniert Semi-Supervised Learning?

Im Gegensatz zu Supervised Learning, das ausschließlich gelabelte Daten nutzt, oder Unsupervised Learning, das völlig ohne Labels auskommt, kombiniert Semi-Supervised Learning beides. Die Grundidee:

Ein Modell lernt Strukturen und Muster aus den unbeschrifteten Daten und nutzt die gelabelten Daten, um diese Muster mit konkreten Ausgaben (Klassenzuordnungen etc.) zu verknüpfen.

Beispiel: In einem Datensatz mit 10.000 Bildern von Tieren sind nur 500 Bilder korrekt mit Labels versehen (z. B. „Hund“, „Katze“, „Pferd“). Semi-Supervised Learning nutzt diese 500 Labels und die verbleibenden 9.500 unbeschrifteten Bilder, um ein leistungsfähiges Klassifikationsmodell zu trainieren.

Typische Methoden

Self-Training

Das Modell wird zunächst auf den gelabelten Daten trainiert. Anschließend wird es auf die unbeschrifteten Daten angewendet, um Pseudolabels (also Vorhersagen) zu erzeugen. Nur die sichersten Vorhersagen werden dem Trainingsdatensatz wieder hinzugefügt.

Consistency Regularization

Hierbei wird das Modell dazu gebracht, robust gegenüber Störungen (z. B. Bildrauschen, Textveränderung) zu sein. Die Idee: Wenn ein unbeschrifteter Datensatz leicht verändert wird, sollte die Vorhersage des Modells trotzdem gleich bleiben.

Graph-Based Learning

Datenpunkte werden als Knoten in einem Graphen dargestellt, und ähnliche Punkte werden verbunden. Die Labels „propagieren“ dann durch den Graphen – basierend auf Ähnlichkeiten zwischen gelabelten und unlabelten Punkten.

Vorteile

Weniger gelabelte Daten notwendig, was Ressourcen spart.
Nutzt die große Menge an unbeschrifteten Daten, die in der Praxis oft leicht verfügbar ist.
Kann die Generalisierung des Modells verbessern, weil es mehr über die Datenverteilung lernt.

Herausforderungen

Fehlerhafte Pseudolabels können sich negativ auf das Modell auswirken.
Die Methode ist empfindlich gegenüber Datenrauschen und unbalancierten Klassen.
Erfordert sorgfältiges Design, z. B. welche unbeschrifteten Beispiele einbezogen werden.

Erklären Sie Efficient Supervised Learning.

Efficient Supervised Learning (effizientes überwachtes Lernen) bezeichnet Ansätze, bei denen klassische Supervised-Learning-Modelle so gestaltet oder trainiert werden, dass sie mit weniger Ressourcen – insbesondere weniger gelabelten Daten, Rechenleistung oder Trainingszeit – dennoch eine hohe Leistung erzielen. Ziel ist es, die Effizienz im gesamten Lernprozess zu erhöhen, ohne signifikante Einbußen bei der Modellqualität hinzunehmen.

Was macht Efficient Supervised Learning aus?

Der Begriff ist nicht einheitlich definiert, wird aber oft in folgenden Kontexten verwendet:

Dateneffizienz

Modelle lernen aus wenigen, aber besonders informativen Beispielen. Dadurch sinkt der Bedarf an teuren, umfangreichen Labels.

Recheneffizienz

Das Training und die Inferenz werden durch kleinere Modelle, Sparsity oder Komprimierung beschleunigt – oft relevant für Edge-Devices oder Echtzeitanwendungen.

Speichereffizienz

Reduzierung des Speicherbedarfs für Modellparameter und Trainingsdaten.

Typische Methoden für Efficient Supervised Learning

Pretraining + Fine-Tuning

Ein Modell wird auf großen allgemeinen Daten (z. B. Sprachdaten, Bilder) vortrainiert und dann mit wenigen gelabelten Beispielen für eine spezifische Aufgabe feinjustiert.

Transfer Learning

Wissen aus einer Quelle (z. B. ein Modell für medizinische Bilder) wird auf eine andere, ähnliche Aufgabe übertragen – oft mit weniger neuen Daten.

Few-Shot Learning & Zero Shot Learning

Das Modell lernt, mit nur wenigen Beispielen pro Klasse generalisierbare Konzepte zu erfassen.

Data Augmentation

Künstliches Erzeugen zusätzlicher Trainingsdaten durch Transformationen, z. B. bei Bildern (Drehung, Helligkeit) oder Text (Synonymaustausch).

Model Compression

Reduktion von Modellgröße durch Pruning, Quantisierung oder Knowledge Distillation, um kleinere, schnellere Modelle zu erzeugen.

Curriculum Learning

Das Modell lernt zuerst einfache Beispiele und steigert dann die Schwierigkeit – ähnlich wie Menschen lernen.

Vorteile

Reduzierter Bedarf an gelabelten Daten.
Geringere Kosten für Training und Infrastruktur.
Schnellere Entwicklungszyklen – besonders nützlich für Start-ups oder Forschung.

Herausforderungen

Gefahr von Overfitting bei zu kleinen Datensätzen.
Nicht jede Methode funktioniert in jeder Domäne gleich gut.
Komplexere Trainingsstrategien können zusätzlichen Entwicklungsaufwand bedeuten.

Was versteht man unter einer Human-Agent Explainability Architecture und wofür benötigt man diese?

Eine Human-Agent Explainability Architecture ist ein konzeptioneller oder technischer Rahmen, der sicherstellt, dass künstliche Agenten (z. B. KI-Systeme, autonome Systeme, Entscheidungsalgorithmen) ihre Entscheidungen und Handlungen verständlich, nachvollziehbar und erklärbar für Menschen machen können. Ziel ist es, eine sinnvolle Interaktion und Kooperation zwischen Mensch und KI zu ermöglichen – insbesondere in sicherheitskritischen oder komplexen Anwendungen.

Was versteht man genau darunter?

Der Begriff bezeichnet eine Architektur oder Struktur, die die Erklärungskomponente eines KI-Systems integriert. Dabei wird berücksichtigt:

Was erklärt werden soll (z. B. Entscheidung, Unsicherheit, Absicht).
Wem es erklärt werden soll (z. B. Nutzer, Entwickler, Regulierer).
Wie es erklärt werden soll (z. B. visuell, verbal, interaktiv).
Wann die Erklärung erforderlich ist (z. B. vor einer Aktion, nach einem Fehler, auf Anfrage).

Sie ist damit eine Schnittstelle zwischen dem inneren Zustand des KI-Systems und der menschlichen Wahrnehmung.

Wofür wird eine solche Architektur benötigt?

Vertrauensaufbau

Menschen sind eher bereit, mit KI-Systemen zusammenzuarbeiten, wenn sie deren Entscheidungen verstehen und ihnen vertrauen können.

Transparenz und Verantwortung

In regulierten Bereichen wie Medizin, autonomem Fahren oder Justiz müssen Entscheidungen nachvollziehbar und überprüfbar sein – auch rechtlich.

Fehlerdiagnose und Debugging

Entwickler benötigen verständliche Einsichten in das Verhalten der KI, um sie zu verbessern oder unerwünschte Effekte zu beseitigen.

Nutzerunterstützung bei Entscheidungsfindung

In Systemen mit Mensch-in-der-Schleife (z. B. medizinische Assistenzsysteme) helfen erklärbare Agenten, bessere gemeinsame Entscheidungen zu treffen.

Akzeptanz in der Gesellschaft

Eine erklärbare KI reduziert Ängste vor „Black-Box-Systemen“ und ermöglicht informierte Diskussionen über deren Einsatz.

Herausforderungen bei der Umsetzung

Komplexität der Modelle: Viele moderne KI-Modelle (z. B. Deep Learning) sind schwer zu interpretieren.
Zielgruppenangepasste Erklärungen: Entwickler brauchen andere Erklärungen als Endnutzer.
Trade-off zwischen Genauigkeit und Verständlichkeit: Einfachere Modelle sind oft besser erklärbar, aber weniger leistungsfähig.
Zeitliche Anforderungen: In Echtzeitsystemen muss die Erklärung schnell und prägnant sein.

Erklären Sie den Human-Centered AI Canvas.

Jobs to be done: identifiziere das Problem das man adressieren möchte
AI-Promise: Wo sind die Anwedungsfälle und die Benefits im vorhandenen Kontext
Benefits für Menschen: Welche "Probleme" der Menschen werden gelöst
Machine Activities: Was übernimmt die Machine?
Human Activities: Was übernimmt der Mensch?
Collaboration: Hybrid-Aufgaben, in denen Mensch & Maschine gemeinsam arbeiten
Human Reinforcement: Wie können Menschen vom Maschine-Output profitieren im bezug auf Produktivität
Critical Thinking and Biases: Hinterfragen der Ergebnisse und Messungen um Blind-Spots zu erkennen.
Considerations & Implications
Change Management

Was ist eine Innovation? Welche unterschiedlichen Formen einer Innovation gibt es (Beschreibung & Unterschiede)?

Eine Innovation umfasst die Weiterentwicklung einer Lösung für bestehende Probleme oder eine erhebliche Ergänzung zu bestehenden Lösungen.

Innovation = Idee + Invention & Diffusion

Beispiele für Innovationen wären die Produktinnovation (besseres Produkt), Marktinginnovation (z.b. neue Verpackung, Prozessinnovation (Fertigungsoptimierung), ...

Man unterscheidet den Innovationsgegenstand, den Innovationsgrad (disruptiv oder inkrementell)

Vergleichen Sie bitte folgende beiden Innovationsprozesse und erläutern Sie, welchen Sie aufgrund welcher Aspekte bevorzugen würden.

Prozess 1: Innovationsprozess nach Cooper (Stage-Gate)

Prozess 2: Innovationsprozess nach Brockhoff

Brockhoff ist flexibler aufgrund der Prüfungen, bei Cooper sind viel mehr Prüfungsetappen, die die Innovation wieder killen könnten.

Cooper ist eher für größerre Unternehmen da es hier striktere Abläufe benötigt um den Überblick zu behalten währen Brockhoff eher für kleinere Unternehmen geeignet ist, da hier schnelle Iterationm und Flexibilität im Vordergrund stehen sollten.

Beschreiben Sie den Produktlebenszyklus. Was differenziert diesen vom Marktlebenszyklus und wo im Prozess spielt Innovationsmanagement eine besonders zentrale Rolle?

Der Marktlebenszyklus bezieht sich auf die Entwicklung des gesamten Marktes (durchläuft dieselben Phasen, allerdings sind diese langsamer) im Gegensatz zum Produktlebenyzyklus der sich nur auf ein Produkt bezieht und damit einen kürzeren Lebenszyklus hat = die Phasen werden schneller durchlaufen.

Das Innovationmanagement ist besonders vor- und während der Einführung wichtig. Innovationsmanagemt sorgt dafür das die richtigen Produkte zur richtigen Zeit auf den Markt kommen.

Was differenziert Innovationsmanagement von F&E? Wo gibt es Gemeinsamkeiten?

1. Zielsetzung

Forschung & Entwicklung (F&E):
Fokussiert sich auf die wissenschaftlich-technische Generierung von neuem Wissen und die technische Realisierung neuer Lösungen (z. B. Prototypen, neue Materialien, Algorithmen).
Innovationsmanagement:
Hat das Ziel, ideenbasierte Neuerungen strategisch, wirtschaftlich und marktorientiert umzusetzen. Es umfasst den gesamten Innovationsprozess – von der Ideenfindung bis zur Markteinführung und Verwertung.

2. Fokus und Aufgaben

F&E:
Technischer Fokus – Entwicklung neuer Technologien, Methoden, Verfahren. Meist im Labor oder Entwicklungsteam angesiedelt.
Innovationsmanagement:
Strategisch-unternehmerischer Fokus – Identifikation von Chancen, Auswahl, Finanzierung, Schutz (z. B. Patente), Projektsteuerung, Markteinführung, Kundenfeedback.

3. Zeithorizont

F&E:
Oft langfristig ausgerichtet (z. B. Grundlagenforschung, Technologieentwicklung ohne unmittelbaren Marktbezug).
Innovationsmanagement:
Kurz- bis mittelfristig orientiert – schneller Nutzen und Wertschöpfung stehen im Vordergrund.

4. Integration im Unternehmen

F&E:
Häufig eine eigene Abteilung mit spezialisierten Ingenieuren, Wissenschaftlern oder Entwicklern.
Innovationsmanagement:
Bereichsübergreifend – koordiniert verschiedene Funktionen wie F&E, Marketing, Vertrieb, Strategie und externe Partner (z. B. Open Innovation, Start-ups).

Welche Dimensionen einer Innovation kann man unterscheiden? Beschreiben Sie diese.

Welche Wege zur Produktinnovation gibt es? Beschreiben Sie diese und erläutern sie Vor- und Nachteile.

„Wer braucht eigentlich diese Silberscheibe?" Jan Timmer (1982), Vorstand Philips - bitte stellen Sie folgende Aussage in Hinblick auf Innovation und Innovationsmanagement dar.

Die Aussage von Jan Timmer, damaliger Vorstand von Philips – „Wer braucht eigentlich diese Silberscheibe?“ (1982) – bezieht sich auf die Einführung der Compact Disc (CD), die damals als technologische Innovation neu auf den Markt kam. Diese Aussage lässt sich als klassisches Beispiel für die Unsicherheit und Herausforderung im Innovationsmanagement deuten.

📌 Bedeutung der Aussage im Kontext von Innovation

Zweifel an der Marktrelevanz neuer Technologien
Die "Silberscheibe" – also die CD – war eine technologische Neuheit mit vielen Vorteilen gegenüber der Schallplatte oder Kassette. Trotzdem war zu Beginn unsicher, ob der Markt sie akzeptieren würde. Diese Unsicherheit ist typisch für Innovationen:
Technisch machbar bedeutet nicht automatisch marktfähig.
Innovationen brauchen Vision, nicht nur Technologie
Die Aussage zeigt, dass selbst Führungskräfte in innovativen Unternehmen manchmal Schwierigkeiten haben, das Potenzial von Neuerungen zu erkennen. Erfolgreiches Innovationsmanagement erfordert daher nicht nur F&E, sondern auch Marktkenntnis, Kundenverständnis und Vorstellungskraft.
Widerstand gegen Wandel
Oft gibt es eine Zurückhaltung oder Skepsis gegenüber disruptiven Veränderungen – besonders wenn diese bestehende Geschäftsmodelle infrage stellen. Die CD bedrohte etablierte Technologien wie die Schallplatte, was interne Konflikte auslösen kann.

Nennen Sie mindestens drei unterschiedliche Sustainable Development Goals (SDGs) und erklären Sie, wie KI-Projekte helfen könnten, diese SDGs zu erreichen.

1. SDG 3 – Gesundheit und Wohlergehen

Ziel: Ein gesundes Leben für alle Menschen jeden Alters gewährleisten und ihr Wohlergehen fördern.

Beitrag von KI-Projekten:

Früherkennung von Krankheiten: KI kann auf Basis medizinischer Bilddaten (z. B. Röntgen, MRT) frühzeitig Anzeichen von Krebs oder anderen Krankheiten erkennen – oft genauer und schneller als der Mensch.
Epidemievorhersage: Durch Analyse von Gesundheitsdaten, Reisebewegungen und Klimafaktoren kann KI helfen, Ausbrüche von Krankheiten (z. B. Malaria, COVID-19) frühzeitig zu prognostizieren.
Digitale Gesundheitsassistenten: KI-Chatbots oder Sprachsysteme können in ländlichen Regionen grundlegende medizinische Beratung bieten, wo Ärzte fehlen.

2. SDG 13 – Maßnahmen zum Klimaschutz

Ziel: Umgehend Maßnahmen zur Bekämpfung des Klimawandels und seiner Auswirkungen ergreifen.

Beitrag von KI-Projekten:

Optimierung von Energieverbrauch: KI kann den Energieeinsatz in Gebäuden, Städten oder Industrien effizient steuern – z. B. durch Smart Grids oder vorausschauende Wartung.
Emissionsanalyse und -prognose: KI analysiert Satellitenbilder, Sensordaten und Verkehrsströme, um CO₂-Ausstoß zu messen und Trends vorherzusagen.
Klimarisiken modellieren: Mit Machine Learning lassen sich Überschwemmungen, Dürren oder Hitzewellen regional besser vorhersagen, um rechtzeitig Gegenmaßnahmen zu planen.

3. SDG 2 – Kein Hunger

Ziel: Den Hunger beenden, Ernährungssicherheit und eine bessere Ernährung erreichen sowie nachhaltige Landwirtschaft fördern.

Beitrag von KI-Projekten:

Ertragsschätzung und Frühwarnsysteme: KI-gestützte Analysen von Satellitenbildern und Wetterdaten helfen, Missernten früh zu erkennen.
Präzisionslandwirtschaft: KI hilft Landwirten, Saat, Bewässerung und Düngung effizienter zu steuern – was Erträge steigert und Ressourcen schont.
Optimierte Lieferketten: KI kann helfen, Nahrungsmittelverschwendung zu reduzieren, indem sie Transport, Lagerung und Verteilung besser plant.

Der/Die Prüfer*in wird zwei Sustainable Development Goals (SDGs) aus der Liste der UN auswählen. Bitte skizzieren Sie für eines dieser beiden SDGs, wie ein Projekt aussehen könnte, das mit Hilfe von KI versucht, etwas für dieses SDG zu erreichen.

Alles klar—hier ist eine LLM-fokussierte Vertiefung: Für jedes SDG nenne ich konkrete Aufgaben + geeignete LLM-Verfahren/Algorithmen, typische Prompt-/RAG-Muster, Strukturierung (JSON-Schemas), Evaluation und kurz Deployment-Hinweise. Ich konzentriere mich bewusst auf LLMs (inkl. RAG, Tool-Use/Function Calling, Extraktion, Klassifikation, Agenten) und setze klassische ML nur dort ein, wo’s wirklich hilft.

Wiederkehrende LLM-Bausteine (gelten fast überall)

RAG-Pipeline: Domainkorpus → Chunking (200–600 Tokens, Overlap 10–20%) → Embeddings (multilingual, z. B. bge-m3/all-MiniLM) → Vektor-DB (HNSW/IVF) → ReRanker (Cross-Encoder) → LLM mit Zitatzwang.
Funktionelles Tool-Use: Structured function calling (JSON Schema) zu: Wetter-API, GIS, FHIR, ERP/PLM, Routing-Solver (OR-Tools), Optimierer (Pyomo), Zeitreihen-Forecast (extra Service), IoT-Gateways.
Extraktion/IE: NER + Relation Extraction via In-Context-Learning oder leichte LoRA-Anpassung; Ausgabe als pydantic/JSON mit strikter Validierung.
Planung/Agentik: ReAct / Toolformer-Stil (Plan → Evidence → Act), Self-Consistency (n>3), CRFM-Style Critic oder Verifier-Model für Qualitätssicherung.
Kalibrierung: Logprob-basiertes Confidence-Scoring, Absturzsicherung via Refusal/Don’t-Know + Majority/SC.
Sicherheit & Governance: PII-Redaktion, Policy-Guardrails, Fairness-Checklisten, Model Cards, Drift-Monitoring (Retrieval-Hit-Rate, Answer-Faithfulness, ECE).

SDG-spezifische LLM-Algorithmen

1) Keine Armut

Aufgaben: Bedürftigkeitsprüfung, Maßnahmenselektion, Text-Formulare vereinfachen. LLM-Verfahren:

Klassifikation & Uplift-Screening via LLM few-shot (Eligibility Label + Begründung, JSON).
RAG über Sozialrechtskorpus; Tool-Use für Regel-Engines (Eligibility calculators).
Counterfactual Explanations: Prompt „Welche minimalen Änderungen …?“ Eval: F1 der Eligibility-Labels, Policy-Konformität (rule-consistency), Human override-Rate.

2) Kein Hunger

Aufgaben: Beratungs-Copilot für Anbauentscheidungen, Marktinfo-Zusammenfassungen. LLM-Verfahren:

Multimodales RAG (Satelliten-Analysen als Textbefund + Bilder-Kurzbeschreibung).
Tool-Use: Wetter-API, Preis-Feeds, separater Zeitreihen-Service; LLM plant „Nächste 7 Tage: Säen/Düngen/Ernten“.
Low-Literacy UX: Voice-IO + Chain-of-Thought intern, Self-Consistency für robuste Empfehlungen. Eval: Task-success (Erntefenster-Treffer), ökonomischer Impact, Nutzerzufriedenheit.

3) Gesundheit & Wohlergehen

Aufgaben: Triage-Chat, Arztbrief-Summarization, Medikationsabgleich. LLM-Verfahren:

Clinician-in-the-loop RAG über Leitlinien (FHIR/HL7) + Evidence-Citations.
Structured IE: Symptome/Allergien/Medikation → FHIR JSON.
Contraindication Checker via Tool-Use (Drug-DB). Eval: Recall kritischer Warnungen, Halluzinations-Rate, klinische Review-Scores.

4) Hochwertige Bildung

Aufgaben: Tutor, Aufgaben-Generator, Bewertung mit Feedback. LLM-Verfahren:

Socratic Tutor Prompting, Knowledge Tracing via LLM-IE (Schwachstellen extrahieren).
Item-Generation mit kontrollierter Difficulty (Bloom-Level), Rubric-Scoring.
RAG auf Curriculum/Kontext; Critic-Pass zur Fehlerreduktion. Eval: Lernzuwachs, Korrelation mit Lehrkraft-Noten, Halluzinationen < x%.

5) Geschlechtergleichheit

Aufgaben: Bias-Scan von Texten, inklusives Umschreiben, HR-Screening-Erklärungen. LLM-Verfahren:

Toxicity/Bias Classifier per LLM (few-shot) + Span-Highlighting.
Counterfactual Debiasing: Prompt generiert neutralen Re-Write + Begründung.
Fair-RAG (Policies/Guides) + Risk-Scoring. Eval: Bias-Metriken (WEAT-ähnlich), Human review acceptance, A/B auf Bewerberquote.

6) Sauberes Wasser

Aufgaben: Leitungsalarme erklären, Wartungsberichte strukturieren. LLM-Verfahren:

Event Summarization aus Sensor-Alerts (aus Zeitreihe kommt extern).
Root-Cause Reasoning via ReAct + Wissens-RAG (Hydraulik-Handbuch).
Work-Order-IE: Extrahiere Ort/Schacht/Dringlichkeit → CMMS JSON. Eval: Zeit bis Ticket, Korrektheit der Ursachenhypothese.

7) Saubere Energie

Aufgaben: Dispatch-Erklärer, Flex-Potenzialdialog, Regel-Empfehlungen. LLM-Verfahren:

Tool-Use zum Optimierer (LP/MILP) → LLM erklärt Ergebnis in Alltagssprache.
Policy-RAG (Netzregeln), What-if Planer mit Self-Consistency.
Structured Advice mit Constraints (z. B. §-konform, Peak-Shaving <x kW). Eval: Regelkonformität, Einsparungen, Nutzer-Trust.

8) Menschenwürdige Arbeit

Aufgaben: CV↔Job-Matching, Skill-Gap-Analyse, Weiterbildungs-Empfehlungen. LLM-Verfahren:

Semantic Matching per LLM-Embeddings + ReRanker; IE extrahiert Skills/Level/Dauer.
Path-Planning: Sequenz von Kursen (Agent mit Tools: Kurs-Katalog, Förderungen).
Explainable Match: rationale + Highlight-Spans. Eval: Placement-Rate, Match-Akzeptanz, Zeit bis Interview.

9) Industrie/Innovation/Infrastruktur

Aufgaben: Schichtübergaben, Störfall-Analyse, Handbuch-Q&A. LLM-Verfahren:

Procedure-RAG (SOPs, P&ID-Texte), Tool-Use zu CMMS/Historians.
Fault Tree Reasoning mit Verifier-Pass (kritische Anlagen).
Ticket-Auto-Draft + Teileliste-IE. Eval: MTTR-Reduktion, Erstlösungsquote, SOP-Konformität.

10) Weniger Ungleichheiten

Aufgaben: Barrierenberichte, sprachliche Vereinfachung, zielgruppengerechte Hinweise. LLM-Verfahren:

Controlled Simplification (Lesbarkeitsgrad), Mehrsprach-Lokalisierung.
Policy-Advisor RAG + Counterfactual Policy Notes (Auswirkungen je Gruppe).
Sensitive Attribute Redaction vor Weitergabe. Eval: Nutzungsanstieg marginalisierter Gruppen, Lesbarkeits-Scores, Beschwerderate.

11) Nachhaltige Städte

Aufgaben: Bürger-Chat zu Abfall/Rad/ÖPNV, Maßnahmen-Erklärer. LLM-Verfahren:

Geo-RAG (Satzung, Fahrpläne) + Tool-Use (Routing-Solver, GTFS-API).
IE aus Bürgeranliegen → Ticket (Kategorie/Ort/Foto-Caption).
Delib-Summaries: Viele Stimmen → abgestufte Zusammenfassung pro Stakeholder. Eval: First-Contact-Resolution, Ticket-Quality, Zufriedenheit.

12) Nachhaltiger Konsum/Produktion

Aufgaben: Produktpass-Extraktion, Eco-Design-Vorschläge, Lieferanten-Vergleich. LLM-Verfahren:

Document IE (BOM, Material, Zertifikate) → harmonisiertes JSON.
RAG über Normen (ISO/EN), Tool-Use zu LCA-Engine; LLM erklärt Hotspots.
Similarity Search für Wiederverwendungsteile. Eval: Extraktions-F1, LCA-Konsistenz, Re-use-Quote.

13) Klimaschutz

Aufgaben: Emissionsbericht-Copilot, Maßnahmenkatalog, Auditfragen beantworten. LLM-Verfahren:

RAG auf GHG-Protocol/SFDR/CSRD; Tool-Use zu Carbon-Calc (Scope 1–3).
Scenario Writer: „Wenn Preis X, dann Maßnahme Y…“ mit Self-Check.
Citation-Strict Mode (Antworten nur mit Belegen). Eval: Prüfbarkeit (Citations OK), KPI-Verbesserung, Auditor-Akzeptanz.

14) Leben unter Wasser

Aufgaben: Sichtungsberichte zusammenführen, Schutzgebiets-Begründungen. LLM-Verfahren:

Multimodales RAG (CV-Model liefert Objekte → LLM schreibt Bericht).
Policy-RAG (Fischerei-Regeln), Tool-Use (Strömungsmodell API für Drift).
Priority Planner: Einsatzplan mit Gründen + Unsicherheiten. Eval: Precision der Befundtexte, Einsatzeffizienz.

15) Leben an Land

Aufgaben: Kamerafallen-Befunde, Entwaldungs-Alerts erklären, Ranger-Briefings. LLM-Verfahren:

IE aus CV-Ergebnissen (Art/Zeit/Ort) → konsolidierter JSON-Befund.
Rule-Aware RAG (Schutzstatus, CITES), Counterfactual: „Was spricht dagegen?“
Few-shot für Arten-Namensnormalisierung. Eval: Konsistenz mit Expertenlabels, Fehlalarmreduktion.

16) Frieden, Gerechtigkeit, starke Institutionen

Aufgaben: Vergabe-Transparenz, Interessenkonflikte, Whistleblower-Reports strukturieren. LLM-Verfahren:

Graph-RAG: Firmennetze + RAG über Ausschreibungsdokumente.
Risk-Reasoning: ReAct + Verifier, Evidence-Tables mit Quellen.
IE: UBOs, Betragsfelder, Fristen → normalisiertes JSON. Eval: True-Positive-Rate bei Flags, juristische Belastbarkeit (Evidence-score).

17) Partnerschaften zur Zielerreichung

Aufgaben: Projekt-Matchmaking, Förderantrag-Copilot, Best-Practice-Suche. LLM-Verfahren:

Hybrid Search (BM25 + Embeddings) + Reranking;
Schema-feste Match-Erklärung: Ziele, Regionen, TRL, Budget-Fit → Score + Begründung.
Drafting-Agent: Antrag aus Bulletpoints, Citation-enforced Best Practices. Eval: Match-Conversion, Gutachter-Score, Zitattreue.

Prompt-/Schema-Vorlagen (kurz)

System-Prompt (Policy-konform & zitierpflichtig):

Du bist ein fachlicher Copilot. Antworte knapp, nenne Quellenpassagen aus dem Retrieval, gib JSON gemäß Schema aus. Wenn unsicher: “unknown”.

JSON-Schema-Beispiel (universell):

{ "type": "object", "properties": { "recommendations": { "type": "array", "items": { "type": "object", "properties": { "action": {"type": "string"}, "rationale": {"type": "string"}, "constraints": {"type": "array", "items": {"type":"string"}}, "confidence": {"type": "number", "minimum": 0, "maximum": 1}, "citations": {"type": "array", "items": {"type":"string"}} }, "required": ["action","rationale","confidence"] } } }, "required": ["recommendations"] }

Self-Check-Prompt (Critic-Pass):

Prüfe die obige Ausgabe auf Regelverletzungen, fehlende Belege, zu starke Behauptungen. Gib eine korrigierte Version des gleichen JSON zurück.

Deployment-Hinweise (LLM-first)

Mehrsprachig (DE/EN/…): Embeddings + LLM multilingual, Terminologie-Normalisierung.
LoRA-Feintuning für domänenspezifische Extraktion (kleine, kuratierte Sätze reichen oft).
Citations-or-Silence: Wenn Retrieval-Score < Schwelle → knappes „unbekannt / brauche Quelle“.
Metriken: Retrieval Hit-Rate, Faithfulness-Score, JSON-Valid-Rate, Human-override, Task-Success.
Ops: Canary-Rollout, Red-Team-Prompts, PII-Filter (Pre-/Post-), Kosten-Budget pro Anfrage.

Wenn du möchtest, picke ein konkretes SDG + Use Case, und ich schreibe dir eine präzise End-to-End-LLM-Architektur inkl. Beispiel-Prompts, Schemas, Guardrails und Evaluationsplan (1–2 Seiten, sofort einsetzbar).

Join Course

Preview

Author

Marcel D.

Information

Last changed
2 months ago

Report course

Masterprüfung

Was ist Wikidata?

Aufbau von Wikidata:

Model-View-Controller (MVC)

Layered Architecture (Schichtenarchitektur)

Lambda- und Kappa-Architektur

Lambda-Architektur

Kappa-Architektur

1. Architektur:

2. Datenhaltung:

3. Zugriff und Integration:

4. Zielsetzung:

Fazit:

Factory-Pattern – Konzept und Funktionalität:

Singleton-Pattern – Konzept und Funktionalität:

TensorFlow Federated (TFF):

Flower:

🔧 1. DevOps (Development & Operations)

📌 Definition:

🎯 Ziele:

🔨 Typische Tools:

📊 2. DataOps (Data Operations)

📌 Definition:

🎯 Ziele:

🔨 Typische Tools:

🤖 3. MLOps (Machine Learning Operations)

📌 Definition:

🎯 Ziele:

🔨 Typische Tools:

🤖 MLOps (Machine Learning Operations)

🧠 ModelOps (Model Operations)

🧠 Zusammengefasst:

Die W-Fragen des Datenjournalismus

🔹 Einsatzszenarien:

🔹 Vorteile:

☁️ Infrastructure-as-Code (IaC)

✅ Vorteile von IaC

❌ Nachteile von IaC

📌 Anwendungsszenarien

🔹 Lewin's Three Stage Change Model

🔹 The McKinsey 7S Framework

🔹 The ADKAR Change Model

🧠 Was ist der AI Act?

🎯 Ziel:

⚖️ Warum ist der AI Act für Data Scientists relevant?

📏 Standards und Normen – warum sind sie notwendig?

🛡️ Warum sind Standards wie ISO 26262 notwendig?

📘 Was regelt ISO 26262 laut Abstract?

🎯 Relevanz der Norm (konkret):

✅ Fazit:

🇪🇺 Unterschied: EU-Richtlinie vs. EU-Verordnung

🔹 EU-Richtlinie

🔹 EU-Verordnung

🤖 Was besagt die EU-Richtlinie zu Trustworthy AI?

🔑 Die Leitlinien definieren 7 zentrale Anforderungen an vertrauenswürdige KI:

📜 Was besagt die DSGVO?

🔑 Kernaussagen der DSGVO:

📂 Warum braucht man einen Datenmanagementplan (DMP)?

Gründe für einen DMP:

📝 Wie sieht ein Datenmanagementplan aus? (Beispielstruktur)

✅ Die 6 Dimensionen von Trustworthiness bei KI

🔁 Wie garantiert man Trustworthiness über den gesamten KI-Lifecycle?

🔍 1. Klassifikation (z. B. Spam vs. Nicht-Spam)

🔹 Accuracy (Genauigkeit)

🔹 Precision (Positiver Vorhersagewert)

🔹 Recall (Sensitivität, Trefferquote)

🔹 F1-Score

🔹 AUC-ROC (Area Under Curve – Receiver Operating Characteristic)

📈 2. Regression (z. B. Hauspreisvorhersage)

🔹 MSE (Mean Squared Error)

🔹 RMSE (Root Mean Squared Error)

🔹 MAE (Mean Absolute Error)

🔹 R² (Bestimmtheitsmaß)

🧩 3. Clustering (z. B. Kundensegmentierung)

🔹 Silhouette Score

🔹 1. Feedforward Neural Networks (FNN / MLP)

🔹 2. Convolutional Neural Networks (CNN)

🔹 3. Recurrent Neural Networks (RNN)

🔹 4. Long Short-Term Memory (LSTM) / GRU (Gated Recurrent Unit)

🔹 5. Autoencoder

🔍 1. Klassifikation (z. B. Spam vs. Nicht-Spam)

📈 2. Regression (z. B. Hauspreisvorhersage)

🧩 3. Clustering (z. B. Kundensegmentierung)