Ein Modell ist eine mathematische Abbildung von Eingaben (Daten) auf Ausgaben (Vorhersagen/Entscheidungen).
Es enthält Parameter/Gewichte, die im Training angepasst werden.
Ziel: Muster & Zusammenhänge aus Daten erfassen.
Beispiel: Lineare Regression, Neuronales Netz, Entscheidungsbaum.
👉 Kurz: Werkzeug, das aus Daten Regeln lernt und damit Vorhersagen trifft.
Wirklichkeit ist komplex, wir brauchen vereinfachte Abbildungen.
Modelle bilden nur die wesentlichen Strukturen & Muster ab.
Ziel: Vorhersagen treffen → auf Basis bisheriger Daten auch Unbekanntes einschätzen.
Annahme: Vergangenheit liefert Hinweise auf die Zukunft (Regelmäßigkeiten wiederholen sich).
Balance: Vereinfachung vs. Genauigkeit.
Modelle sind mathematische Abstraktionen → sie kennen physikalische Grenzen nur, wenn diese eingebaut werden.
Grenzen können über Constraints/Regeln berücksichtigt werden (z. B. keine negativen Wahrscheinlichkeiten, Energieerhaltung).
Ohne Vorgabe kann ein Modell unrealistische Ergebnisse liefern.
Physikalische Grenzen wirken wie ein Filter, der Lösungen einschränkt und realistischer macht.
Früher (klassische Modelle):
Feste, von Ingenieuren definierte Regeln (Wenn-Dann-Logik).
Modell = starre Abbildung von physikalischem Wissen und klaren Szenarien.
Heute (KI-Modelle):
Lernen aus großen Datenmengen (Sensoren, Kameras, Verkehrssituationen).
Modell = dynamisches, adaptives System, das Muster erkennt statt feste Regeln zu folgen.
Paradigmenwechsel:
Von regelbasierten, erklärbaren Modellen → zu lernenden, datengetriebenen Modellen.
Auto reagiert nicht nur auf vorher definierte Fälle, sondern generalisiert auf neue, komplexe Situationen.
Kernidee: Modellbildung wird zur selbstlernenden Abstraktion der Realität, nicht mehr rein menschlich vorgegeben.
Wofür Modelle genutzt werden:
Vorhersagen treffen (z. B. Wetter, Verkehr, Nachfrage).
Entscheidungsunterstützung in komplexen Situationen.
Simulation & Szenarioanalyse (Was-wäre-wenn-Fragen).
Mustererkennung in großen Datenmengen.
Prozessoptimierung (z. B. Produktionsabläufe).
Wofür Modelle nicht genutzt werden:
Exakte Realität abbilden → Modelle sind Vereinfachungen.
100 % Sicherheit → Unsicherheiten bleiben.
Menschliche Intuition oder Werte ersetzen → ethische Entscheidungen nur begrenzt.
Alle Einzelfälle perfekt erklären → Extremfälle können abweichen.
Modell:
Abbildung der Realität, oft vereinfachend & abstrahierend.
Kann mathematisch, statistisch oder algorithmisch sein.
Enthält Parameter, die angepasst werden können (z. B. durch Training).
Ziel: Vorhersagen, Entscheidungen, Simulationen.
Gleichung:
Feste mathematische Beziehung zwischen Variablen.
Keine Lernfähigkeit oder Anpassung – beschreibt konkretes, definiertes Gesetz.
Beispiele: F=m⋅a, y=mx+by=mx+b.
Kurz:
Modell = flexibles Werkzeug zur Abbildung der Realität.
Gleichung = starre, definierte mathematische Beziehung.
Mathematisch: Formeln, Gleichungen, Differentialgleichungen.
Grafisch/Visuell: Diagramme, Kurven, Flussdiagramme, Entscheidungsbäume, neuronale Netze.
Algorithmisch/Programmierbar: Code, Simulationen, Softwaremodelle.
Tabellarisch: Tabellen mit Daten, Lookup-Tabellen, statistische Zusammenfassungen.
Hybrid: Kombination aus mathematisch, grafisch und algorithmisch (z. B. KI-Modelle).
Schnellere Entwicklung: Digitale Tools ermöglichen Simulation, Design und Prototyping ohne physische Modelle.
Bessere Qualität: Fehler werden früh erkannt → weniger Nacharbeit.
Individualisierung: Produkte können leichter an Kundenwünsche angepasst werden (Mass Customization).
Datengetriebene Entscheidungen: Nutzung von Sensordaten, Kundenfeedback und Simulationsergebnissen.
Kollaboration: Teams weltweit arbeiten effizient zusammen über digitale Plattformen.
Innovationsfördernd: Neue Technologien (KI, IoT, 3D-Druck) ermöglichen Produkte, die früher nicht realisierbar waren.
Nicht immer möglich:
Wenn Daten fehlen oder zu unvollständig/ungenau sind.
Bei extremer Komplexität oder zu vielen Variablen → Modell wird unpraktikabel.
Wenn Zufälligkeit oder Chaos dominiert → Vorhersage kaum möglich.
Grundprinzip: Modelle sind Vereinfachungen der Realität → funktionieren nur, wenn Muster existieren.
Lösungsansatz: Grenzen akzeptieren, Approximationen oder stochastische Modelle nutzen.
Zieldefinition: Was soll das Modell leisten? Vorhersage, Simulation, Optimierung?
Datenverfügbarkeit prüfen: Sind ausreichend und qualitativ gute Daten vorhanden?
Relevante Variablen identifizieren: Welche Einflussgrößen sind wichtig?
Rahmenbedingungen & Grenzen klären: Physikalische, rechtliche, technische Grenzen berücksichtigen.
Modelltyp wählen: Mathematisch, statistisch, KI-basiert oder hybrid?
Bewertungskriterien festlegen: Wie wird die Güte/Genauigkeit des Modells gemessen?
Ein funktionsfähiges Modell, das:
Eingaben (Daten) auf Ausgaben (Vorhersagen, Entscheidungen) abbildet.
Muster, Zusammenhänge oder Gesetzmäßigkeiten der Realität beschreibt.
Anhand von Validierung/Datenprüfung auf Genauigkeit getestet wurde.
Optional: Visualisierungen, Parameterwerte, Regeln oder Algorithmen zur Nutzung.
Ziel: Entscheidungen, Simulationen oder Prognosen ermöglichen.
Modelle vereinfachen die Realität → viele Details werden nicht abgebildet.
Unsicherheiten & Störungen im realen System können nicht vollständig berücksichtigt werden.
Entscheidungen erfordern Zusatzinformationen, Erfahrungswissen oder Kontextwissen.
Validierung & Anpassung nötig: Modell muss regelmäßig überprüft und korrigiert werden.
Modelle zeigen mögliche Szenarien, garantieren aber kein exaktes Ergebnis.
Topologie = Struktur/Anordnung von Komponenten in einem System oder Netzwerk.
Beschreibt Verbindungen, Schnittstellen und Beziehungen zwischen Elementen (z. B. Sensoren, Server, Softwaremodule).
Wichtig für Datenflüsse, Effizienz und Stabilität digitaler Systeme.
Beispiele:
Netzwerk-Topologie (Stern, Ring, Mesh) für IT-Infrastruktur.
System-Topologie in Produktionsanlagen oder IoT-Plattformen.
Ziel: optimale Kommunikation, minimale Latenz, zuverlässige Abläufe.
PLM (Product Lifecycle Management):
Modell dient als zentraler Wissens- und Datenanker über den gesamten Produktlebenszyklus.
Unterstützt Simulation, Design, Optimierung und spätere Anpassungen.
PDM (Product Data Management):
Modell speichert strukturierte Produktinformationen (Baugruppen, Teile, Parameter).
Ermöglicht Versionierung, Nachvollziehbarkeit und Zusammenarbeit zwischen Teams.
Zentrale Funktion:
Modell ist Quelle der Wahrheit für alle Entwicklungs- und Fertigungsprozesse.
Verknüpft digitale Daten mit realer Produktentwicklung.
Im IoT:
Digitaler Zwilling = virtuelles Abbild physischer Geräte/Prozesse.
Verknüpft Sensordaten mit digitalem Modell → Echtzeit-Überwachung & Analyse.
Als Cyber-physikalisches System (CPS):
Ermöglicht Rückkopplung zwischen digitaler und physischer Welt.
Anpassung und Steuerung von physischen Prozessen basierend auf digitalen Simulationen.
Im Kontext Industrie 4.0:
Unterstützt vorausschauende Wartung (Predictive Maintenance).
Optimiert Produktion, Effizienz und Ressourceneinsatz.
Fördert flexible, datengetriebene Fertigung und Mass Customization.
Zeilen (Records/Datensätze): Jede Zeile repräsentiert einen Eintrag oder Fall.
Spalten (Attribute/Felder): Jede Spalte repräsentiert eine Eigenschaft oder Variable.
Zellen: Schnittpunkte von Zeilen und Spalten → enthalten die eigentlichen Werte.
Header/Kopfzeile: Beschriftung der Spalten für bessere Orientierung.
Optional: Primärschlüssel → eindeutige Identifikation jeder Zeile.
Nutzen der Dimensionsreduzierung:
Vereinfacht Datenanalyse & Visualisierung.
Entfernt irrelevante oder redundante Variablen → Modell wird schneller und robuster.
Reduziert Überanpassung (Overfitting) bei ML-Modellen.
Hilft, Kernmuster in den Daten sichtbar zu machen.
Warum Dimensionalität erhöhen kann sinnvoll sein:
Neue Dimensionen (Features) können mehr Informationen oder bessere Trennbarkeit liefern.
Feature Engineering → Erzeugung von Kombinationen/Transformationen, die Performance von Modellen verbessern.
Hilft, komplexe Zusammenhänge abzubilden, die in den Originaldaten nicht sichtbar sind.
Datenfitting (gutes Fitten):
Modell passt sich an die Daten an, ohne Muster zu verlieren.
Ziel: allgemeine Gesetzmäßigkeiten erfassen, die auch auf neue Daten anwendbar sind.
Ergebnis: robuste Vorhersagen, kein Auswendiglernen einzelner Datenpunkte.
Overfitting:
Modell passt sich zu stark an Trainingsdaten an, auch an Zufälligkeiten/Rauschen.
Ergebnis: schlechte Generalisierung, Vorhersagen für neue Daten unzuverlässig.
Typisches Anzeichen: sehr niedriger Trainingsfehler, hoher Testfehler.
Erkennung von Overfitting:
Sehr niedriger Fehler auf Trainingsdaten, aber hoher Fehler auf Test-/Validierungsdaten.
Modell reagiert überempfindlich auf kleine Schwankungen in den Trainingsdaten.
Übermäßig komplexe Modelle (zu viele Parameter) für einfache Daten.
Vermeidung von Overfitting:
Mehr Trainingsdaten sammeln.
Regularisierung (z. B. L1, L2, Dropout bei neuronalen Netzen).
Einfachere Modelle wählen (weniger Parameter).
Cross-Validation zur Modellbewertung verwenden.
Frühes Stoppen (Early Stopping) beim Training.
Big Data wird typischerweise durch die „5 Vs“ charakterisiert:
Volume (Menge): Sehr große Datenmengen, die klassische Systeme überfordern.
Velocity (Geschwindigkeit): Daten werden in Echtzeit oder nahezu Echtzeit erzeugt und verarbeitet.
Variety (Vielfalt): Unterschiedliche Datenarten: strukturiert (Tabellen), unstrukturiert (Texte, Bilder, Videos), semi-strukturiert (Logs, Sensoren).
Veracity (Verlässlichkeit): Datenqualität und Unsicherheiten variieren stark.
Value (Wert): Ziel ist, aus den Daten nützliche Erkenntnisse zu gewinnen.
Methode zur Bewertung der Generalisierungsfähigkeit eines Modells.
Datensatz wird in K Teile (Folds) geteilt.
Modell wird K-mal trainiert, jeweils auf K-1 Teilen, getestet auf dem übrigen Teil.
Ergebnis: durchschnittliche Modellleistung über alle Folds → robustere Einschätzung.
Vorteil: Verhindert zufällige Verzerrung durch bestimmte Trainings-/Testaufteilung.
Mustererkennung: Trends, Ausreißer und Zusammenhänge werden sofort sichtbar.
Kommunikation: Ergebnisse verständlich für andere darstellen (nicht nur Zahlen).
Entscheidungsunterstützung: Schnelleres Erfassen von wichtigen Informationen.
Datenqualität prüfen: Inkonsistenzen oder Fehler leichter erkennen.
Effizienz: Komplexe Daten auf einen Blick erfassbar, Zeitersparnis gegenüber rohen Tabellen.
Übersichtlich & klar: Wichtige Informationen sofort erkennbar.
Angemessener Visualisierungstyp: Diagramm oder Grafik passend zu den Daten (z. B. Zeitreihe → Linienchart).
Lesbarkeit: Achsen, Legenden, Farben gut gewählt.
Vermeidung von Verzerrung: Daten korrekt und unverfälscht dargestellt.
Fokus auf Kernaussage: Überflüssige Details vermeiden.
Interaktivität (optional): Filter, Zoom oder Hervorhebung bei komplexen Daten.
Komplexität: Maß für Ressourcenverbrauch eines Algorithmus (Zeit, Speicher) in Abhängigkeit von der Eingabemenge.
Zeitkomplexität: Wie lange ein Algorithmus läuft → oft in Big-O-Notation angegeben (z. B. O(n), O(n²)).
Speicherkomplexität: Wie viel Speicher benötigt wird.
Messung:
Theoretisch: Analyse der Schleifen, Rekursionen, Datenstrukturen → Funktionsabhängigkeit von Eingabegröße.
Praktisch: Laufzeittest auf verschiedenen Datensätzen.
Modulare Produktarchitektur: Produkt in standardisierte Module/Baugruppen zerlegen.
Variantengeneration: Verschiedene Kombinationen der Module → unterschiedliche Varianten.
Konfigurationssysteme: Software unterstützt Auswahl und Zusammenstellung der Varianten.
Parametrisches Design: Anpassung von Maßen, Farben oder Funktionen durch Parameteränderungen.
Ziel: Mass Customization – flexible, effiziente Produktion vieler Varianten ohne komplettes Neudesign.
Zentrale Aufgabe: Verwaltung aller Produktvarianten, Komponenten und Versionen.
Strukturierte Datenbasis: Alle Module, Teile und Varianten werden digital erfasst (z. B. in PDM/PLM-Systemen).
Regelbasierte Konfiguration: Kunden- oder interne Anforderungen → passende Variante automatisch generiert.
Versionierung & Nachverfolgbarkeit: Jede Variante und Änderung wird dokumentiert, um Fehler zu vermeiden.
Integration in Entwicklung & Fertigung: Sicherstellung, dass richtige Teile in Produktion & Lieferung kommen.
Verwendete Produktdaten:
Stammdaten: Teile, Module, Baugruppen, Material, Maße.
Versionsinformationen: Historie, Revisionen, Freigaben.
Varianteninformationen: Optionen, Ausstattungsmerkmale, Konfigurationsregeln.
Dokumentation: Stücklisten (BOM), technische Zeichnungen, Anleitungen.
Steuerung der Varianz:
Modularisierung: Produkte in wiederverwendbare Module aufteilen.
Konfigurationsregeln: Abhängigkeiten und Ausschlüsse definieren (z. B. Farbe A nur mit Ausstattung B).
Softwaregestützte Konfiguration: Automatische Generierung von Varianten aus den Regeln.
Parametrische Anpassung: Flexible Anpassung von Maßen, Leistung, Farbe etc.
Konjunktive Normalform (KNF):
Formel ist eine Konjunktion (UND-Verknüpfung) von Klauseln.
Jede Klausel ist eine Disjunktion (ODER-Verknüpfung) von Literalen.
Beispiel: (A∨B)∧(¬C∨D)(A∨B)∧(¬C∨D)
Disjunktive Normalform (DNF):
Formel ist eine Disjunktion (ODER-Verknüpfung) von Termen.
Jeder Term ist eine Konjunktion (UND-Verknüpfung) von Literalen.
Beispiel: (A∧¬B)∨(C∧D)(A∧¬B)∨(C∧D)
KNF = UND von ODERn
DNF = ODER von UNDn
Nein, nicht immer möglich.
Gründe:
Zu viele Variablen / Wechselwirkungen: Modell wird unpraktikabel oder unüberschaubar.
Datenmangel: Ohne ausreichend Daten keine verlässlichen Muster erkennbar.
Zufälligkeit / Chaos: Hohe Komplexität kann Vorhersagen unmöglich machen.
Rechenaufwand: Extrem komplexe Modelle können nicht effizient berechnet werden.
Lösung: Vereinfachung, Approximation oder Fokussierung auf relevante Kernaspekte.
Abstraktion der Realität, beschreibt Zusammenhänge zwischen Eingaben und Ausgaben.
Ziel: Vorhersagen, Simulation oder Mustererkennung.
Kann statisch oder lernend sein (z. B. KI- oder physikalisches Modell).
Algorithmus:
Schritt-für-Schritt-Anleitung zur Lösung eines Problems.
Ziel: Berechnung / Umsetzung / Verarbeitung von Daten.
Führt Modell aus oder bearbeitet Daten, liefert konkretes Ergebnis.
Modell = Werkzeug zum Verstehen/Prognostizieren
Algorithmus = Verfahren, das das Modell oder Daten verarbeitet
Knoten (Vertices/Nodes): Grundelemente des Graphen, z. B. Orte, Objekte oder Zustände.
Kanten (Edges/Links): Verbindungen zwischen Knoten, können Gewichtungen oder Richtungen haben.
Optional: Gewicht/Label auf Kanten → z. B. Entfernung, Kosten, Kapazität.
Ungerichteter Graph: Kanten haben keine Richtung, Verbindung gilt beidseitig.
Gerichteter Graph (Digraph): Kanten haben Richtung, z. B. A → B, A erhält Verbindung zu B, nicht umgekehrt.
Kurz: Ungerichtet = Symmetrisch, Gerichteter Graph = Asymmetrisch / Richtung wichtig.
Verbindungen & Pfade: Gibt es einen Weg von Knoten A zu Knoten B?
Beispiel: Navigationssystem → schnellster Weg von Hamburg nach Berlin.
Kürzester Pfad / minimale Kosten: Welche Route ist am effizientesten?
Beispiel: Paketlieferung → Route mit geringsten Lieferkosten.
Netzwerkstruktur & Zentralität: Welche Knoten sind besonders wichtig?
Beispiel: Social Media → einflussreichste Personen in einem Netzwerk.
Flussoptimierung: Wie kann der maximale Durchsatz erzielt werden?
Beispiel: Verkehrsplanung → maximale Anzahl Autos pro Straße.
Konnektivität / Clusterbildung: Wie stark sind Knoten untereinander verbunden?
Beispiel: Stromnetz → Erkennen von Risikogruppen bei Ausfall.
Kostenfunktion = Gewicht der Kanten (z. B. Entfernung, Zeit, Preis, Energie).
Mit ihr lassen sich optimale Pfade berechnen:
Kürzester Weg: Minimiert die Gesamtkosten von Start- zu Zielknoten.
Minimaler Spannbaum: Alle Knoten verbinden bei minimalen Gesamtkosten.
Flussoptimierung: Maximiert Durchsatz bei minimalem Aufwand.
Unterstützt Entscheidungen in Transport, Logistik, Netzplanung.
Beispiel 1 – Straßennetz:
Knoten: Städte (A, B, C, D)
Kanten: Straßen zwischen Städten
Kostenfunktion: Entfernung in km oder Fahrtzeit in Minuten
A ---10km--- B | | 15km 20km | | C ---25km--- D
Optimierung: Kürzester Weg von A nach D
Beispiel 2 – Paketlieferung:
Knoten: Lager, Kundenstandorte
Kanten: Lieferwege
Kostenfunktion: Lieferkosten oder Zeit
Ziel: Minimale Gesamtkosten für alle Lieferungen
Beispiel 3 – Stromnetz:
Knoten: Kraftwerke, Umspannwerke
Kanten: Stromleitungen
Kostenfunktion: Leitungsverlust oder Baukosten
Ziel: Minimale Gesamtkosten bei maximaler Versorgung
Implementierung eines Graphen:
Adjazenzmatrix:
Zeilen/Spalten = Knoten
Zellen = Kosten oder Gewicht der Kante zwischen Knoten
Hauptdiagonale: meist 0, da Knoten nicht zu sich selbst führen (keine Selbstkante).
Keine Beziehung zwischen Knoten: meist ∞ oder ein spezieller Wert (unendlich/unbesetzt), um „nicht verbunden“ zu markieren.
Adjazenzliste:
Jeder Knoten führt eine Liste der verbundenen Nachbarn + Gewicht.
Keine Verbindung → kein Eintrag in der Liste.
Hauptdiagonale = 0
Keine Verbindung = ∞ (oder spezieller Platzhalter)
Darstellung: Adjazenzmatrix oder -liste
Floyd-Algorithmus = All-Pairs Shortest Path Algorithmus
Berechnet die kürzesten Wege zwischen allen Knotenpaaren in einem gewichteten Graphen.
Berücksichtigt direkte und indirekte Wege zwischen Knoten.
Ergebnis: Matrix mit minimalen Kosten für alle Knotenpaare.
Anwendung: Verkehrsplanung, Netzwerkoptimierung, Logistik.
Industrie 4.0 = vierte industrielle Revolution
Kernidee: Vernetzung von physischen Produktionssystemen mit digitalen Informationssystemen (Cyber-physische Systeme).
Merkmale:
Echtzeitdatenerfassung und -verarbeitung (IoT, Sensoren)
Selbststeuernde, flexible Produktion
Digitale Zwillinge für Simulation und Optimierung
Vernetzte Lieferketten und intelligente Produkte
Ziel: Effizienzsteigerung, Individualisierung, Ressourcenschonung, schnelle Reaktion auf Marktänderungen
Technologien, die Industrie 4.0 vorantreiben:
Internet of Things (IoT): Sensorik und Vernetzung von Maschinen und Produkten
Künstliche Intelligenz / Machine Learning: Automatisierte Entscheidungen und Optimierungen
Cloud Computing & Edge Computing: Speicherung, Verarbeitung und Analyse großer Datenmengen
Cyber-physische Systeme: Integration von digitalen Modellen und physischen Prozessen
Big Data & Datenanalyse: Erkennen von Mustern, Optimierung und Vorhersagen
Robotik & autonome Systeme: Flexible Fertigung und Automatisierung
Technologien, die durch Industrie 4.0 ermöglicht oder beschleunigt werden:
Digitale Zwillinge: Echtzeit-Modelle von Produktionsanlagen oder Produkten
Additive Fertigung (3D-Druck): Flexible, individuelle Produktion auf Knopfdruck
Predictive Maintenance: Vorhersage von Wartungsbedarf durch Echtzeitdaten
Smart Logistics & Supply Chains: Echtzeitverfolgung, automatisierte Planung
👉 Kurz: Industrie 4.0 = Synergie von IoT, KI, CPS, Big Data etc., ermöglicht neue Technologien wie digitale Zwillinge, 3D-Druck und predictive Maintenance.
Allgemein – Künstliche Intelligenz (KI):
Simulation menschlicher Intelligenz durch Maschinen.
Ziel: Problemlösen, Lernen, Wahrnehmen, Entscheiden.
Kann regelbasiert oder lernbasiert sein.
Machine Learning (ML):
Teilgebiet der KI.
Algorithmen lernen aus Daten, statt dass Regeln manuell programmiert werden.
Ziel: Vorhersagen, Klassifikationen, Mustererkennung.
Beispiele: Spam-Filter, Empfehlungssysteme.
Deep Learning (DL):
Unterbereich von ML.
Nutzt tiefe neuronale Netze (viele Schichten) für komplexe Mustererkennung.
Besonders geeignet für Bilder, Sprache, Sensor- oder Zeitreihendaten.
Beispiel: Bilderkennung, Sprachassistenten, selbstfahrende Autos.
KI = Oberbegriff für intelligente Maschinen
ML = Lernen aus Daten
DL = Lernen komplexer Muster mit tiefen neuronalen Netzen
1. Inhalte / Kernkonzepte:
Daten: Grundlage für Lernen (trainings-, test- und validierungsdaten)
Features / Merkmale: Eingabedaten, die Muster beschreiben
Labels / Zielgrößen: Gewünschte Ausgabe bei überwachten Aufgaben
Modelle: Mathematische oder algorithmische Strukturen zur Mustererkennung
2. Fragestellungen:
Überwachtes Lernen (Supervised Learning): Vorhersage / Klassifikation anhand gelabelter Daten
Unüberwachtes Lernen (Unsupervised Learning): Muster / Strukturen erkennen ohne Labels (Clustering, Dimensionalitätsreduktion)
Bestärkendes Lernen (Reinforcement Learning): Agent lernt durch Belohnung / Bestrafung optimale Aktionen
Semi-supervised Learning: Kombination aus gelabelten und ungelabelten Daten
3. Methoden / Algorithmen:
Lineare Modelle: Lineare Regression, Logistische Regression
Baumbasierte Methoden: Entscheidungsbäume, Random Forest, Gradient Boosting
Neuronale Netze / Deep Learning: Convolutional Neural Networks (CNN), Recurrent Neural Networks (RNN)
Clustering-Methoden: K-Means, Hierarchisches Clustering
Dimensionalitätsreduktion: PCA, t-SNE, Autoencoder
Reinforcement Learning: Q-Learning, Deep Q-Networks
4. Evaluierung & Validierung:
Trainings- vs. Testdaten: Vermeidung von Overfitting
Metriken: Genauigkeit, Precision, Recall, F1-Score, ROC-AUC
Cross-Validation: Robuste Bewertung der Modellleistung
1. Überwachtes Lernen (Supervised Learning):
Daten mit Labels (Eingabe → gewünschte Ausgabe)
Modell lernt, vorhergesagte Ausgaben an Labels anzupassen
Beispiele: Klassifikation, Regression (z. B. Spam-Filter, Hauspreisvorhersage)
2. Unüberwachtes Lernen (Unsupervised Learning):
Keine Labels vorhanden
Modell erkennt Strukturen, Muster oder Gruppen selbstständig
Beispiele: Clustering, Dimensionsreduktion (z. B. Kundensegmentierung, PCA)
3. Bestärkendes Lernen (Reinforcement Learning):
Agent lernt durch Interaktion mit Umgebung
Belohnung / Bestrafung steuert Lernprozess
Ziel: optimale Entscheidungen / Handlungen
Beispiele: Robotersteuerung, Spiele (Schach, Go, Videospiele)
4. Semi-supervised Learning:
Mischung aus gelabelten und ungelabelten Daten
Reduziert den Aufwand für Datenerfassung
Beispiele: Textklassifikation, medizinische Diagnose
Supervised: Lernen aus bekannten Lösungen
Unsupervised: Mustererkennung ohne Vorgaben
Reinforcement: Lernen durch Belohnung/Bestrafung
Semi-supervised: Kombination aus beiden
1. Supervised Learning (überwacht):
Daten mit Labels
Ziel: Vorhersage oder Klassifikation
Spam-Filter (E-Mail = Spam oder Nicht-Spam)
Hauspreisvorhersage anhand von Größe, Lage etc.
Bilderkennung (Katze/Hund)
Merkmal: Modell lernt aus bekannten Ausgaben
2. Unsupervised Learning (unüberwacht):
Daten ohne Labels
Ziel: Muster, Strukturen oder Cluster finden
Kundensegmentierung im Marketing
Themenanalyse in Texten
Dimensionsreduktion (PCA, t-SNE)
Merkmal: Modell erkennt selbständig Zusammenhänge
3. Reinforcement Learning (bestärkend):
Lernen durch Interaktion mit Umgebung
Ziel: Optimale Handlungen zur Maximierung von Belohnung
Robotersteuerung (z. B. Balancieren eines Roboters)
Spiele: Schach, Go, Videospiele
Optimierung von Lagerlogistik oder Energieverbrauch
Merkmal: Lernen über Belohnung/Bestrafung, nicht direkt aus Datenpaaren
Warum Spiele geeignet sind:
Klare Regeln & Ziele: Belohnungs- und Erfolgskriterien gut definiert → ideal für Reinforcement Learning.
Simulierbare Umgebung: Schnelles Testen und Lernen ohne reale Konsequenzen.
Messbare Ergebnisse: Punktestand, Sieg/Niederlage, Zeit → einfaches Feedback für Lernen.
Hohe Komplexität bei kontrollierter Umgebung: Optimale Balance zwischen Herausforderung und Lernbarkeit.
Welche Spiele besonders geeignet sind:
Strategiespiele: Schach, Go → komplexe Entscheidungsbäume, RL-Algorithmen wie AlphaGo.
Videospiele: Atari-Spiele, Echtzeit-Strategiespiele → Deep Q-Networks (DQN) geeignet.
Simulationen / Brettspiele: Tic-Tac-Toe, Poker → RL, Q-Learning.
Eignung: klare Regeln, messbare Belohnung, simulierbare Umgebung
Besonders geeignet: Strategiespiele, Videospiele, Simulationen, Brettspiele
Komplexe Zusammenhänge: Wenn klassische Algorithmen oder Regeln die Problemstellung nicht effizient lösen können.
Große Datenmengen: Ausreichend Trainingsdaten vorhanden, um Muster zuverlässig zu erkennen.
Variabilität der Daten: Daten ändern sich dynamisch oder enthalten viele Ausnahmen.
Vorhersagebedarf: Ziel ist Prognose, Klassifikation oder Mustererkennung.
Automatisierung von Entscheidungen: Menschliche Entscheidungen sollen unterstützt oder ersetzt werden.
Unklare Regeln: Kein einfach formulierbares mathematisches Modell vorhanden.
Kurz: Machine Learning = sinnvoll bei komplexen, datenreichen, dynamischen Problemen mit Vorhersage- oder Automatisierungsbedarf.
Grundprinzip:
Maschine passt internes Modell an, um Eingaben auf gewünschte Ausgaben abzubilden.
Lernen = Anpassung von Parametern basierend auf Erfahrung / Daten.
Schritte beim Lernen:
Datensammlung: Trainingsdaten mit Features (Eingaben) und ggf. Labels (Zielwerte).
Modellauswahl: Wahl eines Algorithmus oder Modells (z. B. lineares Modell, neuronales Netz).
Training:
Modell vergleicht Vorhersage mit tatsächlichem Ergebnis.
Fehler wird berechnet (z. B. MSE, Kreuzentropie).
Parameter werden angepasst (z. B. Gewichte im neuronalen Netz).
Evaluation: Testdaten prüfen, wie gut das Modell generalisiert.
Iteratives Verbessern: Lernen wiederholen, Hyperparameter anpassen, ggf. Daten erweitern.
Lernen = Erfahrung sammeln + Fehler korrigieren → Modell verbessert Vorhersage/Funktion.
Nominalskala (Kategorien, Namen)
Beschreibung: Klassifikation ohne natürliche Reihenfolge
Beispiele: Geschlecht, Farbe, Nationalität
Operationen: Gleichheit / Ungleichheit prüfen
Ordinalskala (Rangordnung)
Beschreibung: Daten mit Reihenfolge, Abstände nicht interpretierbar
Beispiele: Platzierung in Wettkampf, Zufriedenheitsstufen
Operationen: Größer/Kleiner vergleichen, Rangfolge bestimmen
Intervallskala (gleich große Abstände)
Beschreibung: Reihenfolge + gleiche Abstände zwischen Werten, kein absoluter Nullpunkt
Beispiele: Temperatur in °C oder °F, IQ-Wert
Operationen: Addition, Subtraktion möglich, Verhältnis nicht sinnvoll
Verhältnisskala (Ratioskala)
Beschreibung: Reihenfolge, gleiche Abstände, absoluter Nullpunkt vorhanden
Beispiele: Gewicht, Länge, Preis
Operationen: Addition, Subtraktion, Multiplikation, Division
Absolutskala
Beschreibung: Zählbare, diskrete Werte mit absolutem Nullpunkt
Beispiele: Anzahl Personen, Anzahl Autos
Operationen: Alle mathematischen Operationen möglich
Nominal: Kategorien
Ordinal: Rangordnung
Intervall: Abstände, kein Nullpunkt
Verhältnis: Abstände + Nullpunkt
Absolut: Zählbare Werte + Nullpunkt
Definition: Maß für den Abstand oder die Ähnlichkeit zwischen Objekten oder Datenpunkten.
Eigenschaften einer Metrik:
Nichtnegativität: Abstand ≥ 0
Identität: Abstand = 0 ↔ gleiche Objekte
Symmetrie: Abstand(A, B) = Abstand(B, A)
Dreiecksungleichung: Abstand(A, C) ≤ Abstand(A, B) + Abstand(B, C)
Anwendungsbeispiele:
Euklidische Distanz in 2D/3D-Raum
Manhattan-Distanz (Stadtblock-Abstand)
Cosinus-Ähnlichkeit bei Texten oder Vektoren
Zweck: Vergleich, Clustering, Klassifikation, Suche nach ähnlichen Objekten
Kurz: Metrik = Maß für Abstand oder Ähnlichkeit zwischen Objekten mit klar definierten Eigenschaften.
Definition: Allgemeine Norm zur Berechnung des Abstands eines Vektors im n-dimensionalen Raum.
Formel:
∥x∥p=(∑i=1n∣xi∣p)1/p∥x∥p=(i=1∑n∣xi∣p)1/p
Spezialfälle:
p=1p=1: Manhattan-Norm → Summe der Beträge (Taxi-Kabinen-Distanz)
p=2p=2: Euklidische Norm → klassische Luftlinien-Distanz
p→∞p→∞: Maximum-Norm → größter Betrag der Komponenten
Anwendung: Abstandsmessung, Clustering, Klassifikation, Optimierung
Kurz: p-Norm = verallgemeinerte Abstandsberechnung eines Vektors, abhängig vom Parameter p.
Definition: Zuordnung von Objekten oder Datenpunkten zu vordefinierten Klassen.
Ziel: Vorhersage der Kategorie eines neuen, unbekannten Datenpunkts anhand von Trainingsdaten.
Überwachtes Lernen (Labels bekannt)
Modell lernt Unterschiede zwischen Klassen
E-Mail → Spam oder Nicht-Spam
Bilderkennung → Katze, Hund, Auto
Kreditwürdigkeit → gut / schlecht
Methoden: Entscheidungsbäume, k-Nearest Neighbors, Naive Bayes, neuronale Netze
Kurz: Klassifikation = automatisches Einordnen von Objekten in vordefinierte Kategorien anhand gelernter Muster.
Definition: Gruppierung von Objekten oder Datenpunkten in Cluster, sodass Punkte innerhalb eines Clusters ähnlicher zueinander sind als zu Punkten anderer Cluster.
Ziel: Muster, Strukturen oder natürliche Gruppen in unbeschrifteten Daten erkennen.
Unüberwachtes Lernen (Labels nicht bekannt)
Distanz- oder Ähnlichkeitsmaß entscheidet über Clusterzugehörigkeit
Bild- oder Textanalyse
Genanalyse / Bioinformatik
Methoden: K-Means, Hierarchisches Clustering, DBSCAN
Kurz: Clustering = automatisches Gruppieren von ähnlichen Objekten in unbeschrifteten Daten.
Definition: Vorhersage kontinuierlicher Zielgrößen anhand von Eingabedaten.
Ziel: Modelliert den Zusammenhang zwischen Eingaben (Features) und Ausgabe (Target).
Schätzung einer Funktion y=f(x)y=f(x)
Minimierung eines Fehlers (z. B. mittlere quadratische Abweichung)
Hauspreisvorhersage anhand von Größe, Lage, Zimmerzahl
Prognose von Temperaturen, Aktienkursen oder Stromverbrauch
Methoden: Lineare Regression, Polynomial Regression, Ridge/Lasso, neuronale Netze
Kurz: Regression = Vorhersage kontinuierlicher Werte aus Eingabedaten durch Schätzung von Zusammenhängen.
Definition: Unüberwachtes Lernverfahren, das Daten in eine hierarchische Baumstruktur (Dendrogramm)gruppiert.
Ziel: Erkennen von verschachtelten Clusterstrukturen.
Vorgehensweisen:
Agglomerativ (Bottom-Up):
Jeder Punkt startet als eigenes Cluster
Ähnliche Cluster werden schrittweise zusammengeführt
Divisiv (Top-Down):
Alle Punkte starten in einem Cluster
Schrittweise Aufspaltung in kleinere Cluster
Ähnlichkeitsmaß: Distanz- oder Ähnlichkeitsmetriken bestimmen Fusion/Trennung
Genanalyse → verwandte Gene clustern
Marktsegmentierung → Kunden nach Kaufverhalten gruppieren
Kurz: Hierarchisches Clustering = Gruppierung von Daten in verschachtelte Cluster, visualisiert als Baum (Dendrogramm), Bottom-Up oder Top-Down.
1. Bottom-Up Clustering (Agglomeratives Clustering):
Vorgehen: Start mit jedem Datenpunkt als eigenes Cluster → schrittweise Zusammenführung der ähnlichsten Cluster.
Endergebnis: Baumstruktur / Dendrogramm, große Cluster durch Fusion kleiner Cluster.
Beispiele: Hierarchisches Clustering von Genen oder Kunden.
2. Top-Down Clustering (Divisives Clustering):
Vorgehen: Start mit allen Datenpunkten in einem großen Cluster → schrittweise Aufspaltung in kleinere Cluster basierend auf Ungleichheiten.
Endergebnis: Dendrogramm, große Cluster werden in Untergruppen aufgeteilt.
Beispiele: Segmentierung von Märkten oder Dokumenten in Unterkategorien.
Bottom-Up = Zusammenführen → kleiner zu größer
Top-Down = Aufspalten → größer zu kleiner
Definition: Unüberwachtes Lernverfahren, das die Daten direkt in eine feste Anzahl von Clustern (k Cluster)aufteilt.
Vorgehen:
Anzahl der Cluster kk vorgeben
Initialisierung der Clusterzentren (z. B. zufällig)
Zuweisung jedes Punktes zum nächsten Clusterzentrum
Aktualisierung der Clusterzentren
Iteration bis Konvergenz (keine oder minimale Änderungen)
Bekannte Methoden: K-Means, K-Medoids
Flache Clusterstruktur (kein Dendrogramm)
Effizient für große Datensätze
Kundensegmentierung in 3–5 Zielgruppen
Bildsegmentierung in Farbregionen
Kurz: Partitionierendes Clustering = direkte Aufteilung der Daten in k flache Cluster durch iterative Optimierung der Clusterzentren.
Definition: Unüberwachtes Lernverfahren, das Cluster als Regionen hoher Punktdichte erkennt.
Vorgehensweise:
Dichte = Anzahl der Punkte innerhalb eines definierten Radius (εε)
Punkte in dichten Regionen → Cluster
Punkte in dünn besiedelten Regionen → Rauschen / Ausreißer
Bekannte Methoden: DBSCAN, OPTICS
Anzahl der Cluster muss nicht vorgegeben werden
Robust gegenüber Ausreißern
Kann Cluster beliebiger Form erkennen
Erkennung von Hotspots in GPS-Daten
Anomalieerkennung in Netzwerken oder Sensoren
Kurz: Dichtebasiertes Clustering = Bildung von Clustern durch Regionen hoher Punktdichte, erkennt beliebig geformte Cluster und isoliert Ausreißer.
Definition: Maß für Unordnung, Unsicherheit oder Informationsgehalt in einem Datensatz.
Zweck / Anwendung:
Bestimmung, wie informativ eine Variable für Vorhersagen ist
Entscheidungsbaum-Algorithmen (z. B. ID3, C4.5) nutzen Entropie zur Auswahl der besten Splits
Erkennung von Datenheterogenität und Unregelmäßigkeiten
Interpretation:
Hohe Entropie → große Unsicherheit / heterogene Daten
Niedrige Entropie → geringe Unsicherheit / homogene Daten
Formel (für Klassifikation):
H(X)=−∑ip(xi)log2p(xi)H(X)=−i∑p(xi)log2p(xi)
Kurz: Datenentropie = Maß für Informationsgehalt oder Unordnung, genutzt z. B. zur Auswahl von Splits in Entscheidungsbäumen.
Definition:
ID3 = „Iterative Dichotomiser 3“, Entscheidungsbaum-Algorithmus für überwachtes Lernen.
Ziel: Baum bauen, der Datenpunkte korrekt klassifiziert.
Datenanalyse: Ausgangsdaten mit Features und Labels vorbereiten
Entropie berechnen: Für jedes Feature den Informationsgehalt (Entropie) ermitteln
Feature-Auswahl: Wähle das Feature mit dem höchsten Informationsgewinn als Split
Aufteilung der Daten: Teile Datensatz in Untergruppen entsprechend Feature-Werten
Rekursion: Wiederhole Schritte 2–4 für jede Untergruppe, bis:
Alle Knoten homogen (nur eine Klasse)
Keine weiteren Features übrig
Baum erzeugen: Endknoten = Klassen, innere Knoten = Features
Nutzt Entropie & Informationsgewinn zur Entscheidungsfindung
Baum kann leicht interpretiert werden
Kurz: ID3 = Entscheidungsbaum-Algorithmus, der Features mit höchstem Informationsgewinn auswählt, um Daten in Klassen zu unterteilen.
Definition: Maß dafür, wie viel Unsicherheit (Entropie) durch die Aufteilung nach einem Feature reduziert wird.
Zweck:
Bestimmt, welches Feature am besten zur Aufteilung der Daten geeignet ist
Feature mit höchstem Informationsgewinn → oberster Knoten im Entscheidungsbaum
Informationsgewinn(S,A)=H(S)−∑v∈Values(A)∣Sv∣∣S∣H(Sv)Informationsgewinn(S,A)=H(S)−v∈Values(A)∑∣S∣∣Sv∣H(Sv)
H(S)H(S) = Entropie des aktuellen Datensatzes
SvSv = Teilmenge der Daten mit Featurewert vv
Hoher Gewinn → Feature trennt die Daten gut, reduziert Unordnung
Niedriger Gewinn → Feature liefert kaum neue Informationen
Kurz: Informationsgewinn = Maß für den Nutzen eines Features bei der Reduktion der Entropie im Entscheidungsbaum.
Definition: Ein Entscheidungsbaum, der die Trainingsdaten klassifiziert.
Merkmale des Baums:
Innere Knoten: Repräsentieren die ausgewählten Features (mit höchstem Informationsgewinn)
Kanten / Zweige: Repräsentieren Feature-Werte, die zu den Unterknoten führen
Blätter / Endknoten: Repräsentieren die Klassen oder Vorhersagen
Nutzen:
Kann neue, unbekannte Datenpunkte klassifizieren
Leicht interpretierbar → zeigt logische Entscheidungsregeln
Ergebnis = baumartige Struktur, die Daten nach Features aufteilt und Klassenzugehörigkeiten angibt
Merkmal
Klassifikation
Clustering
Lernart
Überwacht
Unüberwacht
Daten
Mit Labels (Zielklassen bekannt)
Ohne Labels (keine Zielklassen)
Ziel
Neue Daten korrekt einer Klasse zuordnen
Daten in ähnliche Gruppen einteilen
Ergebnis
Entscheidungsbaum, Modell für Vorhersage
Cluster / Gruppen von ähnlichen Objekten
Beispiele
Spam-Filter, Kreditwürdigkeitsprüfung
Kundensegmentierung, Bildgruppen
Merkmale
Lernt bestehende Klassen
Erkennt Strukturen selbstständig
Klassifikation = Daten in bekannte Klassen einordnen
Clustering = Daten ohne Klassen in Gruppen nach Ähnlichkeit zusammenfassen
1. Entscheidungsbaum (z. B. ID3, C4.5)
Beschreibung: Baumstruktur, innere Knoten = Features, Blätter = Klassen
Vorteile:
Leicht interpretierbar
Keine Annahmen über Verteilungen der Daten nötig
Nachteile:
Kann überfitten (Overfitting)
Kleine Änderungen in Daten können Baum stark verändern
2. k-Nearest Neighbors (kNN)
Beschreibung: Klassifiziert neue Punkte nach den k nächsten Nachbarn in Feature-Raum
Einfach zu verstehen und zu implementieren
Flexibel für beliebige Klassenzahl
Langsam bei großen Datensätzen
Sensitiv gegenüber irrelevanten Features und Skalierung
3. Naive Bayes
Beschreibung: Wahrscheinlichkeitsbasiertes Modell, Annahme: Features unabhängig
Schnell und effizient
Funktioniert gut bei vielen Features
Annahme der Unabhängigkeit oft unrealistisch
Schlechter bei komplexen nichtlinearen Zusammenhängen
Entscheidungsbaum: interpretierbar, aber overfitting-anfällig
kNN: flexibel, aber rechenintensiv
Naive Bayes: schnell, aber starke Annahmen über Daten
Problem: Datenpunkte der Klassen können nicht durch eine gerade Linie (Hyperplane) getrennt werden.
Lösungsansätze:
Transformation in höheren Dimensionsraum:
Kernelmethoden (z. B. SVM mit RBF-Kernel)
Nichtlineare Trennung im Originalraum wird linear im höheren Raum
Fehler-/Weichheitsansatz (Soft Margin):
Einige Fehlklassifikationen werden toleriert
Balanciert zwischen Trennung und Generalisierung
Nichtlineare Modelle:
Entscheidungsbäume, neuronale Netze
Lernen komplexer Trennflächen direkt aus den Daten
XOR-Problem (klassisches Beispiel für nicht linear separierbare Daten)
Bilderkennung, wo Klassen überlappende Merkmale haben
Kurz: Nicht linear separierbare Daten → Klassifikator nutzt Transformationen, Soft Margin oder nichtlineare Modelle, um Klassen zu trennen.
1. Datenqualität verbessern:
Mehr Trainingsdaten sammeln
Rauschen und Ausreißer entfernen
Feature-Engineering: relevante Merkmale auswählen / transformieren
2. Modellwahl und -anpassung:
Komplexere oder passendere Modelle wählen (z. B. neuronale Netze, Random Forest)
Hyperparameter optimieren (z. B. Lernrate, Tiefe des Baums, k bei kNN)
3. Regularisierung:
Overfitting vermeiden → L1/L2 Regularisierung, Pruning bei Entscheidungsbäumen
4. Ensemble-Methoden:
Mehrere Modelle kombinieren → Bagging, Boosting, Voting
5. Cross-Validation:
Modell robust auf verschiedenen Teilmengen testen → Überprüfung der Generalisierung
Kurz: Güte verbessern = bessere Daten + geeignetes Modell + Regularisierung + Ensembles + Cross-Validation.
1. Fehlende Daten (Missing Values):
Entfernen: Zeilen oder Spalten löschen (nur bei wenigen fehlenden Werten sinnvoll)
Imputieren: Fehlende Werte schätzen
Mittelwert / Median / Modus
Vorherige / nächste Beobachtung (Time Series)
Modellbasierte Imputation (z. B. kNN-Imputation)
2. Falsche / fehlerhafte Daten (Outliers / Noise):
Erkennen: Statistische Methoden, Boxplots, Z-Score, Interquartilsabstand
Behandeln:
Entfernen oder korrigieren, falls Fehler eindeutig
Transformation / Winsorizing (extreme Werte begrenzen)
Robustere Modelle wählen
3. Vorbeugung:
Datenvalidierung bei Erfassung
Sensor- oder Eingabeüberprüfung
Kurz: Fehlende Daten → löschen oder imputieren; falsche Daten → erkennen, korrigieren oder robuste Modelle nutzen.
Definition: Teilbereich des Machine Learning, der tiefe neuronale Netze (mehrere Schichten) nutzt, um komplexe Muster in Daten zu erkennen.
Automatische Feature-Extraktion aus Rohdaten
Lernprozesse über viele Schichten (Hidden Layers)
Besonders geeignet für große, unstrukturierte Daten (Bilder, Texte, Audio)
Methoden / Architekturen:
Convolutional Neural Networks (CNN): Bild- und Videodaten
Recurrent Neural Networks (RNN): Sequenzdaten, Zeitreihen
Transformers: Texte, Sprache, große Modelle (z. B. GPT)
Kann sehr komplexe nichtlineare Zusammenhänge modellieren
Wenig manuelles Feature-Engineering nötig
Braucht große Datenmengen
Hohe Rechenleistung erforderlich
Interpretierbarkeit oft schwierig
Kurz: Deep Learning = Machine Learning mit tiefen neuronalen Netzen → lernt komplexe Muster automatisch aus großen Datenmengen.
Vorbild: Biologisches Neuron im Gehirn
Struktur im Biologischen:
Dendriten: Empfangen Signale von anderen Neuronen
Zellkörper (Soma): Verarbeitet Signale
Axon: Leitet Ausgangssignal weiter
Übertragung auf künstliches Neuron:
Inputs = Dendriten → Signale aus anderen Neuronen oder Datenpunkten
Gewichte = Synapsenstärke → Wichtigkeit des Inputs
Summation + Aktivierungsfunktion = Soma → verarbeitet Inputs
Output = Axon → weitergegeben an nächste Schicht
Künstliches neuronales Netz inspiriert vom Gehirn → Inputs gewichtet, summiert, aktiviert → Output
Biologisches Vorbild: Neuron feuert nur, wenn Schwelle überschritten → binäres Verhalten
Künstliches Neuron:
Nutzt kontinuierliche Aktivierungsfunktionen (z. B. Sigmoid, ReLU, Tanh)
Grund: Differenzierbarkeit für Gradientenverfahren / Backpropagation
Schwellenwert wie in echten Nervenzellen nicht differenzierbar → kein effizientes Lernen möglich
Vorteil:
Glatte Funktion → kontinuierliche Anpassung der Gewichte
Ermöglicht nichtlineare Abbildungen und komplexe Lernprozesse
Kurz: Kein harter Schwellenwert, weil kontinuierliche, differenzierbare Aktivierungsfunktionen für effizientes Lernen notwendig sind.
Sigmoid (logistische Funktion)
Bereich: (0, 1)
Eigenschaften: S-förmig, differenzierbar
Vorteil: Wahrscheinlichkeitsinterpretation
Nachteil: Vanishing-Gradient-Problem bei tiefen Netzen
2. Tanh (hyperbolische Tangens)
Bereich: (−1, 1)
Eigenschaften: Zentriert um 0, stärkerer Gradient als Sigmoid
Vorteil: Bessere Konvergenz als Sigmoid
Nachteil: Vanishing-Gradient bei großen Schichten
3. ReLU (Rectified Linear Unit)
Formel: f(x)=max(0,x)f(x)=max(0,x)
Bereich: [0, ∞)
Eigenschaften: Einfach, schnell, reduziert Vanishing-Gradient
Nachteil: „Dying ReLU“ → Neuronen können inaktiv werden
4. Varianten von ReLU: Leaky ReLU, Parametric ReLU (PReLU)
Verhindert „Dying ReLU“ durch kleinen positiven Gradient für negative Inputs
Kurz: Häufige Aktivierungsfunktionen: Sigmoid, Tanh, ReLU (+ Varianten) → entscheiden über Nichtlinearität und Lernfähigkeit.
Vorwärtspropagation (Forward Pass)
Eingabedaten → Schichten durchlaufen
Neuronen berechnen gewichtete Summe + Aktivierungsfunktion
Output entsteht
Fehlerberechnung
Output wird mit Zielwert (Label) verglichen
Loss-Funktion misst Abweichung (z. B. MSE, Cross-Entropy)
Rückwärtspropagation (Backpropagation)
Fehler wird rückwärts durchs Netz propagiert
Berechnung der Gradienten (Ableitungen der Gewichte)
Gewichtsaktualisierung
Optimierungsverfahren (z. B. Gradient Descent) passt Gewichte an
Ziel: Fehler (Loss) minimieren
Iterativer Prozess
Viele Wiederholungen (Epochen) mit Trainingsdaten
Netz generalisiert Muster und verbessert Vorhersagen
Kurz: Neuronales Netz lernt durch Vorwärtspropagation, Fehlerberechnung, Backpropagation und Anpassung der Gewichte.
Gewichte (Weights):
Stärke der Verbindungen zwischen Neuronen
Bestimmen, wie stark ein Input ein Neuron beeinflusst
Biases:
Schwellenwert-artige Anpassung pro Neuron
Ermöglicht Verschiebung der Aktivierungsfunktion
Lernprozess:
Backpropagation + Optimierung passt Gewichte und Biases iterativ an
Muster und Zusammenhänge in Daten werden in diesen Parametern codiert
Kurz: Das Wissen eines neuronalen Netzes ist in den Gewichten und Biases gespeichert.
1. Einschichtiges Perzeptron (Single-Layer Perceptron)
Struktur: Eine Eingabeschicht → eine Ausgabeschicht
Fähigkeit: Kann nur linear separierbare Probleme lösen
Beispiel: AND, OR-Funktion
2. Mehrschichtiges Perzeptron (Multi-Layer Perceptron, MLP)
Struktur: Eingabeschicht + eine oder mehrere versteckte Schichten (Hidden Layers) + Ausgabeschicht
Fähigkeit: Kann nichtlineare Probleme lösen
Beispiel: XOR-Funktion, komplexe Klassifikationen
Lernverfahren: Backpropagation, Gradient Descent
Einschichtig = linear, einfach
Mehrschichtig = nichtlinear, komplexe Muster erkennbar
1. Lernregeln
Feste, vorgegebene Regeln zur Anpassung von Parametern
Keine eigenständige Mustererkennung
Perzeptron-Lernregel
Hebb’sches Lernen
Vorteil: einfach, erklärbar
Nachteil: begrenzt, kann nur einfache Probleme lösen
2. Maschinelles Lernen (ML)
Algorithmischer Ansatz, der aus Daten selbstständig Muster lernt
Optimierung von Gewichten / Parametern durch Fehler-Feedback
Beispiele: Entscheidungsbäume, neuronale Netze, SVM
Vorteil: flexibel, kann komplexe, nichtlineare Probleme lösen
Nachteil: oft weniger interpretierbar, benötigt Daten
Lernregeln = starre, einfache Anpassungsregeln
Maschinelles Lernen = selbstständiges Lernen aus Daten mit Optimierung
1. Overfitting
Modell passt sich zu stark an Trainingsdaten an → schlechte Generalisierung auf neue Daten
2. Vanishing / Exploding Gradients
Gradienten bei Backpropagation werden zu klein oder zu groß → langsames oder instabiles Lernen
3. Hoher Rechenaufwand
Training tiefen Netzen benötigt viel Speicher und Rechenleistung (GPUs)
4. Große Datenmengen erforderlich
Deep Learning benötigt viele Trainingsdaten, sonst schlechte Leistung
5. Interpretierbarkeit / Black Box
Schwer nachzuvollziehen, warum das Modell bestimmte Vorhersagen trifft
6. Hyperparameter-Abhängigkeit
Leistung stark abhängig von Netztiefe, Lernrate, Batchgröße, Aktivierungsfunktion
Kurz: Probleme = Overfitting, Gradientenprobleme, hoher Rechenaufwand, viele Daten nötig, Black Box, Hyperparameter-Sensitivität.
Definition: Regularisierungstechnik für neuronale Netze, um Overfitting zu reduzieren
Während des Trainings werden zufällig einzelne Neuronen „ausgeschaltet“ (temporär deaktiviert)
Netz kann nicht auf einzelne Neuronen fixiert lernen, muss robuste Merkmale entwickeln
Effekt:
Verbessert Generalisation auf neue Daten
Wirkt wie Training mehrerer leicht unterschiedlicher Netzwerke gleichzeitig
Anwendung:
Häufig in MLP, CNN, RNN
Dropout-Rate z. B. 0,2–0,5 → 20–50 % der Neuronen werden pro Trainingsschritt deaktiviert
Kurz: Dropout = zufälliges Deaktivieren von Neuronen beim Training, um Overfitting zu verhindern.
Überwachtes Lernen (Supervised Learning)
Daten mit bekannten Labels (Zielwerten)
Ziel: Vorhersage / Klassifikation neuer Daten
Beispiele: Entscheidungsbaum, kNN, lineare Regression
Unüberwachtes Lernen (Unsupervised Learning)
Ziel: Struktur / Muster / Cluster in Daten erkennen
Beispiele: K-Means, Hierarchisches Clustering, PCA
Bestärkendes Lernen (Reinforcement Learning)
Ziel: Maximierung einer Belohnung (Reward)
Beispiele: Spiele (Schach, Go), Robotersteuerung
Kurz: Drei Lernverfahren = Supervised (gelabelt), Unsupervised (ungelabelt), Reinforcement (durch Belohnung lernen).
Nur lineare Trennbarkeit
Kann nur linear separierbare Probleme lösen (z. B. AND, OR)
Komplexe nichtlineare Probleme (z. B. XOR) nicht lösbar
Begrenzte Modellkapazität
Keine verborgenen Schichten → kann keine nichtlinearen Muster lernen
Keine Feature-Extraktion möglich
Geringe Flexibilität
Anpassung an unterschiedliche Datenverteilungen schwierig
Überfitting / Unterfitting
Bei wenigen Features oft Unterfitting
Bei vielen Features + linearem Modell → Overfitting möglich
Kurz: Einschichtige Netze = nur linear, geringe Modellkapazität, keine komplexen Muster erlernbar.
Definition: Softmax wandelt die Ausgaben eines Neuronennetzes in Wahrscheinlichkeiten um
Summe aller Ausgaben = 1
Jeder Wert ∈ (0, 1)
Verwendung:
Mehrklassige Klassifikation (Multiclass Classification)
Ausgangsschicht eines neuronalen Netzes → jedes Neuron repräsentiert eine Klasse
Beispiel:
Bildklassifikation mit 10 Klassen (Ziffernerkennung MNIST)
Ausgabe = Wahrscheinlichkeit, dass Bild zu Klasse 0–9 gehört
Eindeutige Zuordnung von Datenpunkten zu einer Klasse
Einfache Interpretation als Wahrscheinlichkeiten
Kurz: Softmax = Aktivierungsfunktion für Ausgangsschicht bei Mehrklassen-Klassifikation, liefert Wahrscheinlichkeiten für jede Klasse.
Definition: Hyperparameter, der bestimmt, wie stark die Gewichte eines neuronalen Netzes bei jedem Schritt angepasst werden
Funktion:
Steuert die Schrittweite im Gradientenabstieg
Zu hohe Lernrate → Lernen instabil, Sprünge über Minimum
Zu niedrige Lernrate → Lernen sehr langsam, Gefahr im lokalen Minimum zu hängen
Optimierung von neuronalen Netzen
Kann adaptiv angepasst werden (z. B. Adam, RMSProp)
Kurz: Lernrate = Schrittgröße beim Anpassen der Gewichte während des Trainings.
Bild- und Videoverarbeitung:
Objekterkennung, Gesichtserkennung, medizinische Bildanalyse
Spracherkennung und Verarbeitung:
Sprachassistenten, Übersetzung, Transkription
Autonomes Fahren:
Objekterkennung, Spurhalte- und Abstandsregelung
Finanzwesen:
Kreditwürdigkeitsprüfung, Betrugserkennung, Aktienprognosen
Empfehlungssysteme:
Filme, Musik, Produkte auf Streaming- oder Shoppingplattformen
Robotik:
Bewegungsplanung, Greif- und Navigationsaufgaben
Spiele & KI-Agenten:
Go, Schach, Computerspiele, RL-Agenten
Kurz: Neuronale Netze = ideal für komplexe, nichtlineare Muster in Bildern, Sprache, Finanzdaten, autonomen Systemen und Empfehlungen.
Können komplexe nichtlineare Zusammenhänge modellieren
Automatische Feature-Extraktion möglich
Flexibel → für Bilder, Sprache, Text, Zeitreihen geeignet
Gut skalierbar bei großen Datenmengen
Black Box → schwer interpretierbar
Hoher Rechenaufwand → Training kann sehr ressourcenintensiv sein
Viele Daten erforderlich → kleine Datensätze oft problematisch
Hyperparameter-sensitiv → Lernrate, Anzahl Schichten, Neuronen usw. stark einflussreich
Gefahr von Overfitting bei zu komplexen Netzen
Kurz: Neuronale Netze = mächtig & flexibel, aber daten- und rechenintensiv sowie schwer interpretierbar.
Definition: Test zur Bewertung künstlicher Intelligenz auf Grundlage von Kommunikation
Funktionsweise:
Menschlicher Prüfer unterhält sich über Text mit einem Menschen und einer Maschine
Prüfer weiß nicht, wer Mensch / Maschine ist
Ziel: Prüfer soll nicht unterscheiden können, wer die Maschine ist
Misst Intelligenz oder menschenähnliches Verhalten einer Maschine
Keine Messung von "Verständnis", sondern Täuschungsfähigkeit
Bedeutung:
Historisch: Alan Turing, 1950, „Computing Machinery and Intelligence“
Heute: eher philosophisches Konzept, KI-Bewertung oft spezifischer
Kurz: Turing-Test = Prüfung, ob eine Maschine durch ihr Verhalten einen Menschen täuschen kann; misst menschenähnliche Intelligenz.
Definition: Virtuelles Abbild eines realen Produkts oder Systems, das laufend mit Echtzeitdaten aktualisiert wird
Anwendungsbereiche:
Simulation & Testen: Verhalten von Produkten unter verschiedenen Bedingungen prüfen
Optimierung: Design, Leistung, Energieverbrauch verbessern
Fehlerdiagnose / Predictive Maintenance: Frühzeitiges Erkennen von Verschleiß oder Störungen
Variantenmanagement: Verschiedene Produktversionen virtuell abbilden und vergleichen
Produktlebenszyklusmanagement (PLM): Von der Entwicklung bis zum Betrieb Daten nutzen
Verkürzt Entwicklungszeit
Reduziert physische Prototypen
Bessere Entscheidungsgrundlage durch Echtzeitdaten
Kurz: Digitale Zwillinge = virtuelle Abbilder, die Simulation, Optimierung, Wartung und Variantenmanagement in der Produktentwicklung ermöglichen.
Entwicklungsphase:
Virtuelle Prototypen für Simulation & Designoptimierung
Tests unter verschiedenen Bedingungen ohne physische Prototypen
Produktionsphase:
Überwachung der Fertigungsprozesse
Qualitätssicherung durch Vergleich von realem Produkt und digitalem Zwilling
Betriebsphase / Nutzung:
Echtzeit-Daten aus Sensoren → Überwachung & Predictive Maintenance
Leistung optimieren und Verschleiß frühzeitig erkennen
Service- & Wartungsphase:
Fehlerdiagnose und Wartungsplanung basierend auf digitalen Zwillingen
Simulation von Reparaturmaßnahmen
Variantenmanagement / Lebenszyklusmanagement:
Verschiedene Produktversionen virtuell abbilden
Entscheidungen über Upgrades oder Anpassungen unterstützen
Kurz: Digitale Zwillinge begleiten Produkte durch Entwicklung, Produktion, Betrieb und Service, liefern Daten für Optimierung, Wartung und Variantenmanagement.
Sensorische Messwerte:
Temperatur, Druck, Drehzahl, Strom, Vibration, Feuchtigkeit
Betriebszustände:
Last, Geschwindigkeit, Laufzeit, Schaltzyklen
Historische Daten:
Früheres Verhalten, Fehlerprotokolle, Wartungshistorie
Umgebungsbedingungen:
Umgebungstemperatur, Luftfeuchtigkeit, Staub oder Schmutz
Abweichungen / Anomalien:
Signale, die von normalen Betriebswerten abweichen → Hinweis auf Verschleiß
Zusammenfassung:
Alle Daten, die Zustand, Leistung und Verschleiß eines Systems beschreiben
Grundlage für frühzeitige Fehlererkennung und Wartungsplanung
Kurz: Wertvolle Daten = Sensorwerte, Betriebszustände, historische Daten, Umweltinformationen, Abweichungen → Grundlage für Condition Monitoring & Predictive Maintenance.
Digitaler Zwilling
Autonomes System
Definition
Virtuelles Abbild eines realen Produkts oder Prozesses
System, das selbstständig Entscheidungen trifft und handelt
Zweck
Überwachung, Simulation, Optimierung, Vorhersage
Durchführung von Aufgaben ohne menschliches Eingreifen
Interaktion
Passiv → nutzt Daten aus realer Welt
Aktiv → beeinflusst Umwelt / führt Aktionen aus
Virtueller Motor zur Analyse von Verschleiß
Autonomes Fahrzeug, Roboter, Drohne
Abhängigkeit
Abhängig von realen Daten
Kann teilweise unabhängig handeln, evtl. auch auf Zwillinge basierend
Digitaler Zwilling = virtuelles Abbild für Analyse & Vorhersage
Autonomes System = handelt eigenständig in der realen Welt
Produkt-Zwilling (Product Digital Twin)
Abbild eines einzelnen Produkts oder Bauteils
Fokus auf Design, Funktion, Performance
Prozess-Zwilling (Process Digital Twin)
Modelliert Produktions- oder Geschäftsprozesse
Fokus auf Effizienz, Optimierung, Engpässe
System-Zwilling (System Digital Twin)
Gesamtsystem aus mehreren Komponenten
Fokus auf Zusammenspiel, Integration und Betrieb
Asset-Zwilling (Asset Digital Twin)
Konkretes physisches Objekt im Betrieb
Fokus auf Betriebszustand, Wartung, Lifecycle
Hybrid-Zwilling / Multi-Level-Zwilling
Kombination aus mehreren Zwillingstypen
Ermöglicht übergreifende Analyse von Produkt, Prozess und System
Kurz: Digitale Zwillinge = Produkt, Prozess, System, Asset, Hybrid → verschiedene Perspektiven für Design, Betrieb, Optimierung.
Automobilindustrie:
Simulation von Fahrzeugen, autonomes Fahren, Verschleißanalyse
Luft- und Raumfahrt:
Flugzeugwartung, Materialermüdung, Optimierung von Systemen
Produktion / Fertigung:
Prozessoptimierung, Qualitätskontrolle, Predictive Maintenance
Energie / Versorgungswesen:
Kraftwerke, Windturbinen, Netzüberwachung
Gebäudemanagement / Smart Cities:
Gebäudeautomation, Energieeffizienz, Verkehrsmanagement
Gesundheitswesen / Medizintechnik:
Simulation von Organen, Implantaten, Patientenüberwachung
Robotik / autonome Systeme:
Simulation und Test von Robotern und Drohnen
Kurz: Digitale Zwillinge = überall, wo Simulation, Optimierung, Wartung und Analyse von Produkten, Prozessen oder Systemen benötigt werden.
Ideengenerierung / Konzeptentwicklung:
Automatische Erstellung von Designvarianten, Konzeptskizzen, Prototypenideen
Simulation & Optimierung:
Generierung von Materialkombinationen, Bauteilformen unter definierten Anforderungen
Automatisiertes Design (CAD/CAE):
Vorschläge für 3D-Modelle oder Konstruktionsänderungen
Dokumentation & Berichtserstellung:
Automatisches Erstellen von Berichten, Spezifikationen, User Manuals
Personalisierung / Customization:
Individuelle Produktvarianten basierend auf Kundendaten oder Präferenzen
Training & Schulung:
Generative KI erzeugt Szenarien oder Daten für Tests und Simulationen
Kurz: Generative KI = Ideen, Designvarianten, Optimierung, Dokumentation, Personalisierung und Trainingsdaten in der Produktentwicklung.
Erzeugt neue Inhalte:
Texte, Bilder, Audio, Video, 3D-Modelle, Designs
Lernt aus Daten:
Analysiert Muster in Trainingsdaten, um neue, ähnliche Inhalte zu generieren
Nicht deterministisch:
Ergebnis kann bei gleicher Eingabe variieren
Kreativ & explorativ:
Kann Innovationen, Varianten und Vorschläge liefern, die Menschen inspirieren
Vielfältige Anwendungsbereiche:
Produktdesign, Marketing, Simulation, Text-/Bildgenerierung
Erfordert Steuerung & Kontrolle:
Qualitätsprüfung notwendig → nicht immer fehlerfrei oder realitätsgetreu
Kurz: Generative KI = kreativ, datengestützt, erzeugt neue Inhalte, nicht deterministisch, vielseitig einsetzbar.
1. Diskriminative Modelle
Lernen die direkte Abbildung von Input → Output
Ziel: Trennung/Klassifikation der Daten
Konzentrieren sich auf Grenzen zwischen Klassen
Logistische Regression, SVM, diskriminative neuronale Netze
Vorteil: Gute Klassifikationsleistung, weniger komplex
Nachteil: Können keine neuen Daten erzeugen
2. Generative Modelle
Lernen die wahrscheinliche Verteilung der Daten
Ziel: Neue Datenpunkte erzeugen, die der Trainingsverteilung ähneln
Modelliert gemeinsame Wahrscheinlichkeit P(Input, Output)
GANs, Variational Autoencoders (VAE), Naive Bayes
Vorteil: Kann neue Beispiele generieren, nützlich für Simulation & Kreativität
Nachteil: Meist komplexer, schwieriger zu trainieren
Diskriminativ = klassifizieren / trennen
Generativ = Daten erzeugen / Verteilung modellieren
1. Strukturoptimierung
Ziel: Optimale Materialverteilung / Form unter gegebenen Lasten und Randbedingungen
Prozess:
Ingenieur definiert Lasten, Kräfte, Materialeigenschaften
Algorithmus passt Struktur an → minimiert Gewicht / maximiert Stabilität
Ergebnis: meist funktionale, minimalistische Geometrie
Fokus: mechanische Effizienz & Funktionalität
Meist deterministisch und auf physikalische Gesetze begrenzt
2. Generative AI
Ziel: Kreative, neue Designvarianten basierend auf Trainingsdaten
KI lernt aus vorhandenen Designs, Normen oder Nutzerpräferenzen
Generiert neue Vorschläge, die teilweise physikalisch plausibel, teilweise kreativ sind
Ergebnis: vielfältige, innovative Designideen, nicht nur funktional optimiert
Fokus: Innovation, Exploration, Inspiration
Kann physikalische Simulationen ergänzen, aber ersetzt sie nicht vollständig
Strukturoptimierung = physikalisch & funktional optimiert
Generative AI = kreativ, datenbasiert, liefert neue Designideen
Zwei Netzwerke im Wettkampf:
Generator: erzeugt neue Daten, die echt wirken sollen
Discriminator: unterscheidet zwischen echten und generierten Daten
Adversarielles Lernen:
Beide Netzwerke trainieren gegeneinander, verbessern sich gegenseitig
Ziel:
Generator produziert Daten, die der Discriminator nicht mehr von echten unterscheiden kann
Bilderzeugung (Deepfakes, Kunst, Design)
Datenaugmentation, Simulation von Szenarien
Besonderheiten:
Sehr realistische Generierung möglich
Training instabil / schwierig, Balance zwischen Generator und Discriminator entscheidend
Kurz: GANs = Generator + Discriminator im Wettbewerb, erzeugen realistische Daten, Training oft instabil.
Gezielte Generierung:
Modell kann auf bestimmte Eigenschaften / Bedingungen reagieren (z. B. Farbe, Form, Kategorie)
Reduzierung von Zufälligkeit:
Höhere Kontrolle über Ausgabe → weniger unbrauchbare Ergebnisse
Bessere Nutzbarkeit:
Designs oder Inhalte können direkt an Anforderungen angepasst werden
Kombination mit Simulation / Constraints:
Physikalische Vorgaben oder Normen lassen sich einbeziehen
Komplexeres Training:
Konditionierung erhöht die Modellarchitektur und Rechenanforderungen
Eingeschränkte Kreativität:
Fokus auf Bedingungen kann explorative Vielfalt reduzieren
Datenabhängigkeit:
Konditionierte Trainingsdaten müssen ausreichend repräsentativ sein, sonst Bias oder schlechte Generalisierung
Kurz: Konditionieren = gezielt & kontrolliert, aber komplexer, datenabhängig und ggf. weniger kreativ.
1. Klassischer Autoencoder
Ziel: Eingabedaten komprimieren (Encoder) und wieder rekonstruieren (Decoder)
Latenter Raum: Deterministisch → jedes Input-Muster hat festen Code
Verwendung: Denoising, Dimensionsreduktion, Feature Extraction
Nachteil: Kann keine neuen, plausiblen Daten erzeugen, da latenter Raum nicht probabilistisch
2. Variational Autoencoder (VAE)
Ziel: Eingabedaten komprimieren + stochastisch neue Daten generieren
Latenter Raum: Probabilistisch → jeder Input wird als Verteilung (Mittelwert + Varianz) kodiert
Verwendung: Generative Modelle, neue Datenpunkte erzeugen, Simulation
Vorteil: Erzeugt neue, realistische Beispiele durch Sampling im latenten Raum
Klassischer AE = deterministisch, rekonstruiert Daten
VAE = probabilistisch, rekonstruiert + generiert neue Daten
Transformers / Vision Transformers (ViT):
Ursprung in NLP (Text), adaptiert für Bilddaten
Arbeiten mit Selbstaufmerksamkeit (Self-Attention), um globale Abhängigkeiten zu erfassen
Diffusionsmodelle (Diffusion Models):
Schrittweise Rauschen hinzufügen und entfernen, um Bilder zu generieren
Beispiele: DALL·E 2, Stable Diffusion
GANs (Generative Adversarial Networks):
Generator erzeugt Bild → Discriminator prüft Realismus
Historisch beliebt, heute teilweise durch Diffusionsmodelle ersetzt
Kurz: Viele Bildgenerierungstools = Transformer-basierte oder Diffusionsmodelle, früher häufig GANs.
Brauchen große, hochwertige Trainingsdatensätze → Bias oder schlechte Generalisierung bei unvollständigen Daten
Qualitätskontrolle:
Generierte Inhalte sind nicht immer korrekt oder realistisch
Rechenaufwand / Ressourcen:
Training und Inferenz erfordern oft starke GPUs / viel Speicher
Interpretierbarkeit / Black Box:
schwer nachvollziehbar, warum Modell bestimmte Inhalte erzeugt
Sicherheits- und ethische Risiken:
Deepfakes, Fake News, Urheberrechtsverletzungen
Konditionierung und Steuerung:
Schwierigkeit, Modelle gezielt zu kontrollieren → gewünschte Eigenschaften nicht garantiert
Integration in bestehende Prozesse:
Anpassung generativer Modelle an bestehende Workflows und Produktentwicklungsprozesse kann komplex sein
Kurz: Herausforderungen = Daten, Qualität, Rechenressourcen, Black Box, Ethik, Steuerbarkeit, Prozessintegration.
Textgenerierung / Content Creation:
Blogartikel, Zusammenfassungen, kreative Texte, Marketingtexte
Sprachassistenten / Chatbots:
Beantwortung von Fragen, Terminplanung, Kundensupport
Übersetzung & Sprachverarbeitung:
Maschinelle Übersetzungen, Rechtschreib- und Grammatikprüfung, Sentiment-Analyse
Kurz: Sprachmodelle = Texte generieren, Dialoge führen, Sprache analysieren und übersetzen.
Definition: Tokenisierung = Aufteilen von Text in kleinere Einheiten (Tokens) wie Wörter, Silben oder Subwörter
Verarbeitbarkeit: Modelle arbeiten nur mit Zahlen → Tokens werden in Vektoren / Einbettungenumgewandelt
Konsistenz: Gleiche Wörter / Satzstrukturen werden standardisiert repräsentiert
Effizienz: Ermöglicht Parallelverarbeitung und Sequenzmodellierung
Vokabularbildung: Modell lernt Wahrscheinlichkeiten für Token-Folgen → Grundlage für Vorhersage und Generierung
Beispiel: Satz „Das ist ein Test“ → Tokens = [„Das“, „ist“, „ein“, „Test“]
Kurz: Tokenisierung = Text in verarbeitbare Einheiten zerlegen, damit Sprachmodelle Vorhersagen treffen und Texte generieren können.
Definition: Tokens = kleinste verarbeitbare Einheiten eines Textes für ein Sprachmodell
Formen von Tokens:
Wörter („Haus“)
Subwörter / Silben („Hau“ + „s“)
Zeichen („H“, „a“, „u“, „s“)
Grundlage für Vektorisierung / Einbettung in Zahlen
Sprachmodell lernt Wahrscheinlichkeiten für Token-Folgen
Ermöglicht Textgenerierung, Vorhersage und Verständnis
Tokens = repräsentative Bausteine, die das Sprachmodell „versteht“
Definition: Embeddings = dichte Vektor-Darstellung von Tokens, die semantische Bedeutung kodiert
Numerische Repräsentation: Tokens → Zahlen, damit neuronale Netze sie verarbeiten können
Semantische Nähe abbilden: ähnliche Wörter / Konzepte liegen im Vektorraum nahe beieinander
Effizienz: Reduziert Dimensionalität im Vergleich zu One-Hot-Encoding
Grundlage für Sprachmodell-Aufgaben: Vorhersage, Klassifikation, Generierung, Übersetzung
Beispiel: „König“ – „Mann“ + „Frau“ ≈ „Königin“ im Vektorraum
Kurz: Embeddings = Zahlenvektoren, die Tokens semantisch abbilden und Verarbeitung durch Modelle ermöglichen.
Definition: Mechanismus, der entscheidet, auf welche Teile der Eingabe das Modell besonders achten soll
Gewichtung relevanter Tokens für Vorhersagen / Generierung
Kontextabhängige Verarbeitung: berücksichtigt Beziehungen zwischen Wörtern, unabhängig von Position
Erlaubt parallele Verarbeitung von Sequenzen (statt nur Schritt-für-Schritt)
Arten:
Self-Attention: jedes Token bezieht sich auf alle anderen Tokens in der Sequenz
Multi-Head Attention: mehrere Attention-Köpfe lernen unterschiedliche Beziehungen gleichzeitig
Verbesserung von Kontextverständnis und Genauigkeit bei langen Texten
Grundlage für Transformer-Architektur
Kurz: Attention = Mechanismus, der relevante Teile der Eingabe gewichtet, um bessere Vorhersagen in Sprachmodellen zu ermöglichen.
Kontextbezug herstellen:
Jedes Token kann andere Tokens der Sequenz beachten, um Bedeutung korrekt zu erfassen
Beispiel: „Die Katze, die der Hund jagt, ist schnell“ → Attention erkennt Bezug zwischen „Katze“ und „ist schnell“
Langstreckenabhängigkeiten verstehen:
Tokens weit auseinander in Text → trotzdem korrekt verknüpft
Wichtigkeit gewichten:
Relevanteste Wörter erhalten höhere Aufmerksamkeit → Modell fokussiert auf entscheidende Informationen
Effekt auf Vorhersage:
Bessere Genauigkeit bei Textgenerierung, Übersetzung, Zusammenfassung
Basis für Transformer-Architektur:
Self-Attention = zentrale Komponente für Verständnis komplexer Texte
Kurz: Attention verbessert Sprachverständnis, indem relevante Tokens gewichtet, Beziehungen erkannt und Kontext korrekt interpretiert wird.
Tokenisierung:
Eingabetext → kleine Einheiten (Tokens)
Grundlage für numerische Verarbeitung
Embedding:
Tokens → dichte Vektoren, die semantische Bedeutung kodieren
Kontextinformationen teilweise enthalten
Positionskodierung:
Reihung der Tokens wird kodiert → Reihenfolge im Satz erkennbar
Self-Attention / Multi-Head Attention:
Jedes Token bezieht sich auf alle anderen
Relevante Teile des Kontexts werden gewichtet
Feedforward-Netzwerke:
Verarbeitung der gewichteten Informationen → Abstraktion der Bedeutung
Residual Connections & Layer Normalization:
Stabilisieren Training, verbessern Informationsfluss
Output Layer / Softmax:
Wahrscheinlichkeitsverteilung über Vokabular → nächstes Token wird gewählt
Schrittweise Sequenzgenerierung (autoregressiv)
Kurz: Tokenisierung → Embedding → Positionskodierung → Attention → Feedforward → Output → nächste Token-Auswahl → Modell versteht Kontext, erkennt Zusammenhänge und generiert sinnvoll Text.
Temperatur (Temperature):
Steuert Zufälligkeit / Kreativität der Vorhersage
Niedrig: Modell wählt wahrscheinlichere Tokens → Text ist vorhersehbar, konservativ
Hoch: Modell wählt auch unwahrscheinliche Tokens → Text wird kreativer, variabler, evtl. fehleranfälliger
Top-k / Top-p Sampling:
Top-k: Beschränkt Auswahl auf die k wahrscheinlichsten Tokens
Top-p (nucleus sampling): Auswahl aus kleinster Menge von Tokens, deren kumulative Wahrscheinlichkeit ≥ p
Einfluss: Steuerung der Vielfalt vs. Kohärenz der generierten Texte
Verhindert extreme Zufälligkeit oder unpassende Tokens
Kurz: Temperatur = Zufälligkeit/Kreativität; Top-k / Top-p = Auswahlwahrscheinlichkeit → beeinflussen Stil, Varianz und Kohärenz des Textes.
Komplexität der Architektur:
Millionen bis Milliarden von Parametern → schwer nachzuvollziehen, wie jede Entscheidung getroffen wird
Nichtlineare Transformationen:
Mehrere Schichten, Aktivierungsfunktionen, Attention → Interaktionen sind schwer interpretierbar
Black-Box-Charakter:
Modell lernt Wahrscheinlichkeiten aus Daten → keine explizite Regel oder Logik sichtbar
Kontextabhängigkeit:
Vorhersagen hängen von globalem Kontext ab → einzelne Einflussfaktoren schwer isolierbar
Training auf großen Datenmengen:
Modell extrahiert Muster, die menschliche Logik übersteigen → Verhalten nicht immer intuitiv
Kurz: Sprachmodelle = komplex, nichtlinear, datenbasiert → Entscheidungen oft schwer nachvollziehbar → Black-Box.
Vertrauen & Akzeptanz:
Nutzer müssen verstehen, warum Modell eine bestimmte Antwort liefert
Fehleranalyse & Debugging:
Erkennen von Bias, Fehlinformationen oder systematischen Fehlern
Regulatorische Anforderungen / Compliance:
In sensiblen Bereichen (Medizin, Finanzen, Recht) müssen Entscheidungen nachvollziehbar sein
Sicherheitskritische Anwendungen:
Fehlentscheidungen können Risiken oder Schäden verursachen
Optimierung & Anpassung:
Funktionale Erklärung zeigt, welche Features oder Tokens Einfluss haben, ermöglicht gezielte Verbesserungen
Kurz: Funktionale Erklärbarkeit = Vertrauen, Fehlerkontrolle, Compliance, Sicherheit und Optimierung von Sprachmodellen.
Sprachmodell generiert falsche oder erfundene Informationen, die plausibel klingen
Inhalt wirkt realistisch, kohärent, ist aber nicht korrekt oder belegbar
Kann Fakten, Zahlen oder Zusammenhänge betreffen
Ursachen:
Trainingsdaten unvollständig oder fehlerhaft
Modell extrapoliert aus gelernten Mustern ohne Verifikation
Hohe Kreativität / Sampling-Parameter (z. B. hohe Temperatur)
Folgen:
Vertrauensverlust, Fehlinformation, falsche Entscheidungen in kritischen Anwendungen
Modell behauptet, ein Unternehmen existiere in einem Land, obwohl es dort nicht existiert
Kurz: Halluzination = plausibel klingende, aber falsche Ausgabe eines Sprachmodells.
Faktenprüfung:
Inhalte stimmen nicht mit verifizierbaren Quellen überein
Inkonsistenzen im Text:
Widersprüche, unlogische Zusammenhänge oder fehlerhafte Daten
Übertriebene oder unrealistische Angaben:
Zahlen, Orte oder Namen wirken plausibel, sind aber falsch
Unklare oder vage Formulierungen:
Modell versucht zu „füllen“, ohne exakte Informationen
Fehlende Quellenangaben:
Besonders bei behaupteten Fakten oder Studien
Kurz: Halluzinationen = falsche, unlogische oder unüberprüfbare Ausgaben; erkennbar durch Faktencheck, Konsistenzprüfung und Quellenprüfung.
Datenqualität verbessern:
Training auf verlässlichen, sauberen und aktuellen Daten
Konditionierung / Prompting:
Präzise, klare Eingaben → Modell fokussiert auf relevante Informationen
Fakten- oder Retrieval-gestützte Modelle:
Integration von externer Wissensdatenbank oder API → überprüfbare Fakten
Temperatur / Sampling regulieren:
Niedrigere Temperatur → weniger zufällige und erfundene Inhalte
Nachbearbeitung & Validierung:
Output prüfen, filtern oder von Menschen validieren lassen
Kontinuierliches Monitoring:
Halluzinationen systematisch identifizieren und Training anpassen
Kurz: Halluzinationen vermeiden = verlässliche Daten + gezieltes Prompting + Faktenprüfung + Parameterkontrolle.
Kombination aus Sprachmodell + externem Wissensretrieval, um Antworten zu generieren
Ziel: faktisch korrekte, aktuelle Informationen liefern
Input / Frage: Nutzer stellt Anfrage an das System
Retrieval: Modell sucht relevante Informationen in externer Datenbank / Dokumentensammlung
Integration: Gefundene Inhalte werden in den Generierungsprozess des Sprachmodells eingespeist
Output: Sprachmodell erstellt Antwort, die auf den abgerufenen Fakten basiert
Reduziert Halluzinationen
Nutzt aktuelles Wissen, nicht nur Trainingsdaten
Ermöglicht nachprüfbare Antworten
Chatbots mit Zugriff auf Firmenwissen
AI-Assistenten für wissenschaftliche oder juristische Recherchen
Kurz: RAG = Sprachmodell + Wissensretrieval → generiert faktenbasierte, überprüfbare Antworten.
Autonome Software-Systeme, die Ziele verfolgen, Entscheidungen treffen und Aktionen ausführen
Autonomie: handelt ohne ständige menschliche Steuerung
Wahrnehmung: sammelt Daten aus Umgebung oder Sensoren
Entscheidung: wählt Aktionen basierend auf Zielen oder Regeln
Interaktion: kann mit Umgebung, Menschen oder anderen Agenten kommunizieren
Chatbots und virtuelle Assistenten
Autonome Fahrzeuge
Robotik-Agenten in Produktion oder Logistik
Trading-Bots in Finanzmärkten
Kurz: KI-Agent = autonomer, wahrnehmungsfähiger, entscheidender Software-Akteur, der Aktionen zur Zielerreichung ausführt.
Wahrnehmung (Perception):
Erfassen von Informationen aus der Umgebung über Sensoren oder Datenquellen
Beispiel: Kamera in autonomen Fahrzeugen, Textinput bei Chatbots
Entscheidungsfindung (Reasoning / Decision Making):
Ableitung von Handlungen basierend auf Zielen, Regeln oder Wahrscheinlichkeiten
Beispiel: Route planen, Antwort auf Nutzeranfrage generieren
Handlung (Acting / Action):
Umsetzung von Entscheidungen durch Aktionen in der Umgebung
Beispiel: Roboterarm bewegt Bauteil, KI sendet Textantwort
Lernen (Learning / Adaptation):
Verbesserung von Verhalten basierend auf Erfahrung oder Feedback
Beispiel: Reinforcement Learning, Anpassung an Nutzerpräferenzen
Kommunikation / Interaktion:
Austausch mit Menschen, anderen Agenten oder Systemen
Beispiel: Chatbots, Multi-Agenten-Systeme in Logistik
Kurz: Fähigkeiten = Wahrnehmung, Entscheidung, Handlung, Lernen, Kommunikation → autonomes, adaptives und interaktives Verhalten.
Personalisierte Empfehlungen:
Analyse von Kaufverhalten, Vorlieben und Klickmustern
Vorschläge für Produkte, die Nutzer wahrscheinlich kaufen
Chatbots & virtuelle Assistenten:
Beratung und Support in Echtzeit
Reduzieren Unsicherheiten, erhöhen Kaufbereitschaft
Preis- und Promotion-Optimierung:
Dynamische Anpassung von Preisen oder Rabatten basierend auf Nachfrage, Nutzerprofil oder Wettbewerb
Gezieltes Marketing / Werbung:
E-Mail-, Banner- oder Social-Media-Kampagnen basierend auf Nutzersegmenten und Verhalten
User Experience verbessern:
Navigation, Produktsuche, Filterfunktionen personalisiert
Höhere Verweildauer → erhöhte Kaufwahrscheinlichkeit
Kurz: KI-Agenten steigern Verkäufe durch personalisierte Empfehlungen, Beratung, dynamische Preise, zielgerichtetes Marketing und verbesserte Nutzererfahrung.
Personalisierung:
KI analysiert Nutzerverhalten, Klicks, Watchtime und Likes
Vorschläge werden auf individuelle Interessen zugeschnitten
Recommender-Systeme:
Kombination aus Content-basiertem Filtering (ähnliche Videos)
und Collaborative Filtering (was ähnliche Nutzer sehen)
Optimierung auf Engagement:
Ziel: längere Verweildauer auf Plattform
KI wählt Inhalte, die Nutzer vermutlich weiterschauen
Lernfähige Algorithmen:
Modelle passen sich kontinuierlich an neue Präferenzen an
Vorschläge werden dynamisch aktualisiert
Psychologische Faktoren:
Überraschungsmomente, Trends, visuelle und emotionale Anreize
Verknüpft mit Interaktionsdaten, um Aufmerksamkeit zu maximieren
Kurz: YouTube-Vorschläge = KI-gesteuert, personalisiert, Engagement-optimiert, dynamisch lernend → sehr relevant & interessant für Nutzer.
Ereignisbasierte Prozesse = Abläufe, die durch bestimmte Ereignisse ausgelöst oder beeinflusst werden
Datenquellen:
Transaktionsdaten: Bestellungen, Zahlungen, Buchungen
Sensor- / IoT-Daten: Maschinenstatus, Messwerte, Warnungen
Log-Dateien / Systemevents: Nutzerinteraktionen, Systemmeldungen
Externe Ereignisse: Wetter, Marktbedingungen, Lieferketteninformationen
Modellierung:
Ereignis → Prozessschritt → Folgeaktion
Verwendung von Petri-Netzen, BPMN (Business Process Model and Notation), Event-Logs
Darstellung von Abhängigkeiten, Bedingungen und zeitlichen Abläufen
Ziele:
Analyse von Reaktionszeiten, Engpässen, Prozessoptimierung
Simulation von verschiedenen Szenarien basierend auf Ereignissen
Kurz: Ereignisbasierte Prozesse = modelliert aus Transaktions-, Sensor- und Log-Daten → visualisiert Abläufe, Abhängigkeiten und Reaktionen auf Events.
Transparenz schaffen:
Prozesse aus echten Event-Logs rekonstruieren
Abweichungen zwischen Soll- und Ist-Prozessen sichtbar machen
Prozessoptimierung:
Engpässe, Ineffizienzen und unnötige Schritte identifizieren
Verbesserung von Durchlaufzeiten und Ressourcenauslastung
Compliance & Auditing:
Sicherstellen, dass Prozesse Regeln und Vorschriften einhalten
Nachvollziehbare Dokumentation für Audits
Vorhersage & Simulation:
Prognose von Prozessverläufen und Auswirkungen von Änderungen
Unterstützung bei entscheidungsrelevanten Maßnahmen
Prozesse laufend überwachen → schnelle Reaktion auf Abweichungen
Kurz: Process Mining = Transparenz, Optimierung, Compliance, Prognose, kontinuierliches Monitoring von Prozessen.
Strukturierte, digitale Daten:
RPA arbeitet auf klar definierten, maschinenlesbaren Daten
Warum: Unstrukturierte Daten erschweren automatisierte Verarbeitung
Regelbasierte, standardisierte Prozesse:
Prozesse sollten vorhersagbar, wiederholbar und eindeutig definiert sein
Warum: Roboter können nur festgelegte Regeln zuverlässig ausführen
Stabile IT-Systeme / Schnittstellen:
Systeme sollten verlässlich und kompatibel sein
Warum: Änderungen in Anwendungen können RPA-Workflows unterbrechen
Klare Ziele und Erfolgskriterien:
Definierte KPIs und erwartete Effizienzsteigerungen
Warum: Messbarkeit und Nutzenbewertung erforderlich
Governance & Kontrolle:
Regeln für Überwachung, Sicherheits- und Berechtigungsmanagement
Warum: Minimierung von Risiken und Fehlern
Kurz: RPA benötigt strukturierte Daten, standardisierte Prozesse, stabile IT, klare Ziele und Governance → sonst fehleranfällig.
Process Mining:
Analyse bestehender Entwicklungsprozesse → Engpässe und Ineffizienzen erkennen
Optimierung von Freigabeprozessen, Fertigungsschritten oder Designzyklen
Robotic Process Automation (RPA):
Automatisierung wiederkehrender, regelbasierter Aufgaben
Beispiele: Datenaufbereitung, Dokumentation, Bestandsabgleiche
KI-Agenten / Machine Learning:
Vorhersage von Ausfallrisiken, Optimierung von Designs oder Materialeinsatz
Unterstützung bei Produktkonfiguration und Entscheidungsfindung
Generative KI / CAD-Optimierung:
Erstellung von Designvorschlägen, Prototypen, Strukturoptimierungen
Schnelleres Iterieren von Varianten und Innovationen
Digitaler Zwilling:
Simulation des Produkts virtuell über den gesamten Lebenszyklus
Testen von Performance, Wartung, Nutzungsszenarien → frühe Fehlererkennung
Kurz: Methoden = Prozessanalyse, Automatisierung, KI-gestützte Vorhersagen, generatives Design, virtuelle Simulation → schnellere, effizientere und innovativere Produktentwicklung.
Integration digitaler Technologien:
Einsatz von KI, digitalen Zwillingen, Simulationen, RPA in allen Entwicklungsphasen
Verkürzung der Entwicklungszyklen:
Schnellere Iterationen durch virtuelle Prototypen und generative Designmethoden
Personalisierung und Variantenmanagement:
Ermöglicht kundenindividuelle Produkte bei komplexen Produktlinien
Datengetriebene Entscheidungen:
Nutzung von Sensor- und Nutzungsdaten, Prozessdaten und KI-Analysen zur Optimierung
Effizienzsteigerung & Kostenreduktion:
Automatisierung repetitiver Aufgaben, Optimierung von Material- und Energieeinsatz
Innovation & Flexibilität:
Neue Technologien fördern kreative Lösungen und adaptive Prozesse
Kurz: Digitale Transformation = schnellere, datengetriebene, flexible und innovative Produktentwicklung mit digitaler Unterstützung.
Zuletzt geändertvor 12 Tagen