by Mathäus

Einführung in Computer Vision

Computer Vision ist ein Thema, das mehrere Disziplinen vereint.

Benenne die beiden Hauptdisziplinen.

Welche Aufgaben umfasst dir Computer Vision?

Wann begann die Forschung im Bereich der Computer Vision?

Informatik
Ingenierwissenschaften

Die Kalssifizierung von Objekten und die Bewegungserkennung

Die Forschung begann in den 1960er Jahren

Computer Vision

Typische Aufgaben

Welche vier Hauptkategorien gibt es in der Computer Vision?

Erkennungsaufgaben: Erkennen und Klassifizieren verschiedener Objekte oder Personen in Bildern;
Bewegungsanalyse: Erkennen und Verfolgen der Bewegung von Objekten, Personen oder der Kamera;
Bildwiederherstellung: Filtern und Entfernen von Rauschen aus Bildern und Videos; und
Geometrierekonstruktion: Schätzen eines 3D-Modells eines realen Objekts oder einer Szene.

Computer Vision

Erkennung

Benne die vier Arten der Erkennung in der Computer Vision

In der Computer Vision gibt es vier Arten von Erkennung:

🔹 Objekterkennung: Was ist auf dem Bild?
🔹 Identifizierung: Wer oder was genau ist es?
🔹 Posenabschätzung: Wo und wie ist das Objekt positioniert?
🔹 OCR: Welche Texte stehen auf dem Bild?

Alle diese Aufgaben helfen Computern dabei, die visuelle Welt zu verstehen und sinnvoll zu nutzen.

Computer Vision

Erkläre mit eigenen Worten womit sich die Bewegungsanalyse beschäftigt und wobei diese genuzt wird.

Die Bewegungsanalyse beschäftigt sich damit, wie sich Objekte im Laufe der Zeit bewegen.
In der Computer Vision wird sie genutzt, um z. B. Kameras, Fahrzeuge oder Personen zu verfolgen und ihre Bewegung zu verstehen.

Computer Vision

Es gibt zwei Methoden welche Computern helfen, Bewegungen in der realten Welt zu verstehen und nachzuvollziehen.

Benenne beide und erkläre diese.

Odometrie: misst oder schätzt die Bewegung und Position eines Objekts, entweder mit Sensoren oder durch Bildanalyse (visuelle Odometrie).
Tracking: verfolgt ein bestimmtes Objekt über mehrere Bilder hinweg – z. B. Menschen, Fahrzeuge oder Tiere in einem Video.

1. Odometrie

Odometrie bedeutet, dass man die Bewegung eines Objekts misst oder schätzt, also wie weit und in welche Richtung es sich bewegt hat.

Gib ein Beispiel aus der Praxis in denen die Odometrie genutzt wird.

Beispiel:

Ein autonomer Reinigungsroboter kann mithilfe der visuellen Odometrie einschätzen,wo er sich gerade im Raum befindet und welche Bereiche er schon gereinigt hat.

Verfolgungsaufgaben (Tracking)

Beim Tracking geht es darum, ein bestimmtes Objekt in einer Bildfolge zu verfolgen.

Gib ein Beispiel aus der Praxis in der Tracking genuzt wird.

Beispiel:

In einem Video kann ein System die Bewegung eines Autos verfolgen,um seine Richtung und Geschwindigkeit zu bestimmen.

Computer Vision

Worum geht es bei der Bildrekonstruktion?

Was ist das Ziel der dieser?

Bildrekonstruktion – einfach erklärt

Bei der Bildrekonstruktion geht es darum, Bilder zu verbessern oder wiederherzustellen, die verschwommen, verpixelt oder beschädigt sind.
Das Ziel ist, aus einem schlechten Bild wieder ein klareres und qualitativ besseres zu machen.

Computer Vision

Wie funktoniert die Geometrierekonstruktion?

Gib ein Beispiel aus der Praxis.

Hier wird aus mehreren Bildern ein 3D-Modell einer Szene oder eines Objekts erstellt.
In der Architektur oder im Film kann man ein Gebäude oder eine Figur digital rekonstruieren,indem man es aus verschiedenen Perspektiven fotografiert.

Computer Vision

Benenne die fünf Herausforderungen mit denen Computer Vision zu kämpfen hat.

Computer Vision hat mit fünf großen Herausforderungen zu kämpfen:

Lichtverhältnisse ☀️
Ähnliche Objekte 🔍
Größenunterschiede 📏
Drehungen 🔄
Verschiedene Positionen 📍

Was sind die typischen Aufgaben in der Computer Vision?

Erkennung
Bewegungsanalyse
Bildwiederherstellung
Geometrierekonstruktion

Computer Vision

Pixel

Was ist ein Pixel?

Aus welchen Wörtern setzt sich das Wort Pixel zusammen?

Was wid mit der Auflösung eines BIldes angegeben?

Ein Pixel ist die kleinste Einheit eines Bildes.
Das Wort setzt sich aus den beiden Begriffen „pictures“ (pix) und „element“ (el) zusammen
Mit der „Auflösung“ eines Bildes wird die Anzahl der Pixel angegeben. Je höher die Auflösung, desto mehr Details sind auf dem Bild zu erkennen

Computer Vision

Was muss ein Computer beim speichern eines Bildes machen, damit es digital verarbeitet werden kann?

🎨 Farbdarstellungen – einfach erklärt

Wenn ein Computer ein Bild speichert, muss er jede Farbe in Zahlen umwandeln, damit sie digital verarbeitet werden kann.

Diese Zahlen beschreiben, welche Farbe ein einzelner Pixel (Bildpunkt) hat.

Computer Vision

Was versteht man unter Monochromen Bildern?

⚫ Monochrome Bilder (Schwarz-Weiß)

Die einfachste Form der Farbdarstellung.
Jeder Pixel hat nur zwei mögliche Werte:
- 0 = Schwarz
- 1 = Weiß
Solche Bilder nennt man monochrom oder binär.

Computer Vision

Was sind True Color Bilder?

🌈 True Color (24-Bit-Farbdarstellung)

Hier wird jeder Pixel mit 24 Bits dargestellt.
Diese 24 Bits werden in 3 Gruppen à 8 Bits aufgeteilt:
- R = Rot
- G = Grün
- B = Blau
Jede dieser Farben kann zwischen 0 und 255 liegen.

👉 So entstehen über 16 Millionen Farben (256 × 256 × 256 = 16.777.216 mögliche Farbtöne).

Farbcode (RGB)	Ergebnis
RGB(0, 0, 0)	Schwarz
RGB(255, 255, 255)	Weiß
RGB(255, 0, 0)	Rot
RGB(0, 255, 0)	Grün
RGB(0, 0, 255)	Blau

💡 Merke:

RGB steht für Rot, Grün, Blau – die Grundfarben des Lichts.
Durch Kombination dieser drei Farben kann der Computer jede sichtbare Farbe darstellen.
Je mehr Bits pro Pixel verwendet werden, desto mehr Farben kann man anzeigen – das nennt man Farbtiefe.

Computer Vision

Eine weitere Möglichkeit, Farben darzustellen, ist das CMYK-Modell.

🎨 Was bedeutet CMYK?

CMYK steht für:

C = Cyan (Blaugrün)
M = Magenta (Pink)
Y = Yellow (Gelb)
K = Key = Schwarz

Diese vier Farben werden übereinander gedruckt, um alle anderen Farbtöne zu erzeugen. Das nennt man ein subtraktives Farbmodell – weil jede Farbschicht Licht wegnimmt (absorbiert), statt es zu addieren wie beim RGB-Modell.

Computer Vision

🖨️ Das CMYK-Farbmodell

Im welchen Bereich wird dieses Modell verwendet?

Es wird vor allem im Druckbereich verwendet – also z. B. für Zeitungen, Plakate oder Verpackungen.

Computer Vision

In der Computer Vision (also der Bildverarbeitung durch Computer) sind Filter sehr wichtig.

Wozu nutzt man Filter?

Man nutzt sie, um:

Effekte auf Bilder anzuwenden (z. B. Schärfen, Weichzeichnen),
Rauschen zu entfernen (Glättung),
fehlende Bereiche zu ergänzen (Inpainting),
oder wichtige Merkmale zu erkennen, wie Kanten oder Ecken.

Computer Vision

Was versteht man unter der 2D-Faltung?

🔲 Die 2D-Faltung (engl. Convolution)

Eine häufig verwendete Methode, um Filter auf Bilder anzuwenden, ist die 2D-Faltung.

So funktioniert sie:

Man hat ein Bild, das aus vielen Pixeln (kleinen Kästchen mit Farbwerten) besteht.
Dann nimmt man eine kleine Matrix, die man Kernel oder Faltungsmatrix nennt. – Diese ist meist 3×3 oder 5×5 groß.
Der Kernel wird Schritt für Schritt über das ganze Bild geschoben.
An jeder Position werden die Pixelwerte des Bildes mit den Werten des Kernels multipliziert und addiert. Das ergibt einen neuen Pixelwert im gefilterten Bild.

Computer Vision

🧱 Auffülltechniken (Padding)

Wofür wird Padding genutzt?

Welches Problem verursacht das nutzen von Padding?

🧱 Auffülltechniken (Padding) – einfach erklärt

Wenn man ein Bild mit einer Faltungsmatrix (Kernel) bearbeitet, entsteht ein Problem an den Bildrändern:

Am Rand fehlen Pixel, die der Kernel für seine Berechnung eigentlich braucht.
Damit das Bild trotzdem vollständig verarbeitet werden kann, werden an den Rändern zusätzliche Pixel eingefügt.

Dieser Vorgang heißt Padding (oder Auffüllen).

Computer Vision

📸 Warum braucht man Padding?

Ohne Padding wird das Bild bei jeder Faltung kleiner, weil an den Rändern keine vollständige Berechnung möglich ist.

Padding sorgt also dafür, dass:

das Bild gleich groß bleibt,
und die Randbereiche ebenfalls richtig verarbeitet werden.

Computer Vision

Benenne drei Arten von Padding.

🧩 Drei häufige Arten von Padding:

🟦 Constant Padding (Konstantes Auffüllen)
- → Die leeren Felder werden mit einem festen Wert gefüllt – meistens 0 (also Schwarz). Beispiel: gut geeignet, wenn man einfach neutrale Ränder möchte.
🟩 Replication Padding (Nachbarschaftsauffüllen)
- → Der Wert der angrenzenden Pixel wird kopiert, um die leeren Felder am Rand zu füllen. Beispiel: Der äußerste Pixelwert einer Zeile wird nach außen hin wiederholt.
🟨 Reflection Padding (Spiegelauffüllen)
- → Die Randbereiche werden gespiegelt. Beispiel: Der Pixel links neben dem Rand wird durch den Pixel auf der gegenüberliegenden Seite ersetzt. So entsteht ein symmetrischer Rand um das Bild.

Computer Vision

Verzeichnung

📷 Was bedeutet Verzeichnung?

Wenn eine Kamera ein Bild aufnimmt, sollte sie die Realität möglichst genau abbilden. Das heißt:
- Gerade Linien in der echten Welt sollten auch gerade auf dem Foto erscheinen.

In der Praxis passiert das aber oft nicht, weil Kameraobjektive (vor allem Weitwinkel- oder günstige Linsen) das Bild verzerren.

Diese Bildfehler nennt man Verzeichnungen (engl. distortions).

Computer Vision

Verzeichnung

Benne die zwei Arten von Verzeichnungen.

🔵 1. Radiale Verzeichnung

🟣 2. Tangentiale Verzeichnung

Computer Vision

Verzeichnung

Wodurch entstehen radiale Verzeichnungen?

Wovon hängt die Stärke der Verformung ab?

🔵 1. Radiale Verzeichnung

Die radiale Verzeichnung entsteht durch die rundliche Form des Kameraobjektivs. Dabei werden gerade Linien zum Rand hin gebogen.

Die Stärke dieser Verformung hängt von der Objektivgröße ab:

Kleine oder Weitwinkelobjektive → stärkere Verzeichnung
Große oder Teleobjektive → geringere Verzeichnung

Computer Vision

Verzeichnung

Radiale Verzeichnung

Benenne die vier typischen Arten der Radialen Verzeichnungen.

Art der Verzeichnung	Beschreibung	Beispiel
Tonnenförmig (positive Verzeichnung)	Linien biegen sich nach außen – das Bild wirkt aufgebläht.	Typisch bei Actioncams
Kissenförmig (negative Verzeichnung)	Linien biegen sich nach innen – das Bild wirkt zusammengedrückt.	Oft bei Teleobjektiven
Komplex / Schnurrbart-Verzeichnung	Kombination aus beidem – mal nach innen, mal nach außen gebogen.	Mischformen bei Zoomobjektiven
Fischaugen-Verzeichnung	Sehr starke Krümmung, besonders bei Ultraweitwinkelobjektiven.	Z. B. bei Türspionen oder GoPros

Computer Vision

Verzeichnung

🟣 2. Tangentiale Verzeichnung

Wodurch entstehen Tangentiale Verzeichnungen?

🟣 2. Tangentiale Verzeichnung

Die tangentiale Verzeichnung entsteht nicht durch die Form des Objektivs, sondern durch eine schiefe Ausrichtung zwischen:

dem Kameraobjektiv und
dem Bildsensor.

Wenn beide nicht exakt parallel sind, werden Linien im Bild verschoben oder verzogen – das Bild wirkt leicht geneigt oder verzerrt.

Computer Vision

Verzeichnung

🧮 Wie kann man Verzeichnungen korrigieren?

Welche beiden Parameter werden dazu benötigt?

Korrektur → mithilfe mathematischer Modelle und Kamerakalibrierung

Damit diese Korrektur funktioniert, braucht man:

die intrinsischen Parameter der Kamera (z. B. Brennweite, Bildmittelpunkt)
und die extrinsischen Parameter (z. B. Position und Ausrichtung der Kamera).

Computer Vision

Kamerakalibrierung

🎯 Was bedeutet Kamerakalibrierung?

Die Kamerakalibrierung ist ein wichtiger Schritt in der Computer Vision,um herauszufinden, wie eine Kamera die reale Welt "sieht".

Sie hilft uns zu verstehen, wie 3D-Punkte aus der echten Welt auf ein 2D-Bild (Foto) abgebildet werden. Nur wenn diese Beziehung bekannt ist, kann man:

Verzeichnungen (Bildfehler) korrigieren,
Abstände und Größen im Bild richtig messen,
und 3D-Modelle aus Fotos rekonstruieren.

Computer Vision

Kamerakalibrierung

Man unterscheidet zwischen zwei Arten von Kameraparametern:

Benenne beide.

1. Intrinsische Parameter (kameraintern)

2. Extrinsische Parameter (kameraposition)

Computer Vision

Kamerakalibrierung

Man unterscheidet zwischen zwei Arten von Kameraparametern:

Benenne beide.

1. Intrinsische Parameter (kameraintern)

2. Extrinsische Parameter (kameraposition)

Was beschreiben die Intrinsischen Parameter?

Intrinsische Parameter (kameraintern)

Diese beschreiben die Eigenschaften der Kamera selbst, z. B.:

Brennweite (wie stark das Objektiv vergrößert),
optisches Zentrum (wo die Mitte des Bildes liegt),
Verzeichnungsparameter (wie stark das Objektiv das Bild verzerrt).

Computer Vision

Kamerakalibrierung

Man unterscheidet zwischen zwei Arten von Kameraparametern:

Benenne beide.

1. Intrinsische Parameter (kameraintern)

2. Extrinsische Parameter (kameraposition)

Was beschreiben die Estrinsischen Parameter?

Extrinsische Parameter (kameraposition)

Diese geben an, wo und wie die Kamera in der realen Welt positioniert ist:

Rotation → in welche Richtung die Kamera zeigt,
Translation → wo sie sich im Raum befindet.

Computer Vision

Kamerakalibrierung

🧮 Wie funktioniert der Kalibrierungsprozess?

Damit man berechnen kann, wie 3D-Punkte aus der realen Welt auf 2D-Pixel im Bild abgebildet werden, nutzt man Koordinatensysteme:

Benne die drei Koordinatensysteme.

3D-Koordinatensystem der realen Welt → beschreibt die tatsächliche Position von Punkten im Raum.
3D-Kamerakoordinatensystem → zeigt, wo die Kamera steht und wohin sie schaut.
2D-Koordinatensystem des Bildes → beschreibt, wo die Punkte im aufgenommenen Foto liegen.

Computer Vision

Kamerakalibrierung

🧮 Wie funktioniert der Kalibrierungsprozess?

Damit man berechnen kann, wie 3D-Punkte aus der realen Welt auf 2D-Pixel im Bild abgebildet werden, nutzt man Koordinatensysteme:

3D-Koordinatensystem der realen Welt
3D-Kamerakoordinatensystem
2D-Koordinatensystem des Bildes

Benenne die beiden Schritte in denen die Abbildung erfolgt.

Die Abbildung geschieht in zwei Schritten:

3D-Welt → Kamera (mit extrinsischen Parametern)
Kamera → 2D-Bild (mit intrinsischen Parametern)

Computer Vision

Kamerakalibrierung

Welches ist ein einfaches und verbreitetes Verfahren zur Kalibrierung?

Und von wem stammt es?

Eine Praktische Kalibrierung mit einem Schachbrettmuster
Es stammt von Zhang

Feature Engineering

Was bedeutet Feature Engineering?

Feature Engineering

🔍 Was sind Merkmale (Features)?

Ein Merkmal ist ein Punkt von Interesse in einem Bild,

der wichtige Informationen für eine bestimmte Aufgabe enthält.

Das kann z. B. eine Ecke, eine Kante oder eine gleichmäßig gefärbte Fläche (Blob) sein.

Feature Engineering

Benenne die drei Hauptschritte des Feature Engineerings

🧱 Die drei Hauptschritte des Feature Engineerings

1. Merkmalserkennung

2. Merkmalsbeschreibung / -extraktion

3. Merkmalsabgleich (Feature Matching)

Feature Engineering

Benenne die drei Hauptschritte des Feature Engineerings

1. Merkmalserkennung

2. Merkmalsbeschreibung / -extraktion

3. Merkmalsabgleich (Feature Matching)

Beschreibe die Merkmalserkennung.

1. Merkmalserkennung

Hier werden interessante Punkte im Bild gefunden — z. B. Ecken, Kanten oder auffällige Flächen. Beispiele:

Blobs → Bereiche mit ähnlicher Farbe oder Helligkeit.
Kanten → dort, wo sich die Helligkeit stark ändert (Jain et al., 1995).
Ecken → Übergänge zwischen zwei Kanten.

➡️ Beispiel: Wenn man Tomaten auf einem Bild erkennen will, könnten Blobs helfen, da sie runde, gleichfarbige Flächen beschreiben.

Feature Engineering

Benenne die drei Hauptschritte des Feature Engineerings

1. Merkmalserkennung

2. Merkmalsbeschreibung / -extraktion

3. Merkmalsabgleich (Feature Matching)

Beschreibe die Mekmalbeschreibung

2. Merkmalsbeschreibung / -extraktion

Sobald Merkmale erkannt sind, werden ihre Eigenschaften numerisch beschrieben. Der entstehende Merkmalsdeskriptor enthält Informationen über:

die Farbe,
die Textur,
oder das lokale Muster der Pixel rund um das Merkmal.

➡️ Beispiel: Ein Deskriptor einer Tomate könnte rötliche Farbwerte und eine runde Struktur beschreiben.

Feature Engineering

Benenne die drei Hauptschritte des Feature Engineerings

1. Merkmalserkennung

2. Merkmalsbeschreibung / -extraktion

3. Merkmalsabgleich (Feature Matching)

Beschreibe die Mekmalsabgleich?

3. Merkmalsabgleich (Feature Matching)

Die extrahierten Deskriptoren können mit anderen Bildern verglichen werden, um ähnliche Merkmale zu finden. So kann man z. B. erkennen, ob dieselbe Tomate oder Gurke in verschiedenen Bildern vorkommt.

➡️ Beispiel: Wenn man einen Merkmalsdeskriptor einer Gurke hat, kann man ihn mit anderen Deskriptoren vergleichen, um alle Gurkenstücke im Bild zu erkennen.

Semantische Segmentierung

Was passiert bei der Semantischen Segmentierung?

Semantische Segmentierung (vereinfacht erklärt)

Bei der semantischen Segmentierung – auch Bildsegmentierung genannt –

wird ein Bild so analysiert, dass jedes Pixel einer bestimmten Kategorie (z. B. Hintergrund, Auto, Mensch) zugeordnet wird.
Das bedeutet: Der Computer erkennt, welche Teile des Bildes zusammengehören, und färbt sie entsprechend ein.

Semantische Segmentierung

Wie funktioniert das technisch?

Algorithmen zur semantischen Segmentierung basieren häufig auf Convolutional Neural Networks (CNNs), also speziellen neuronalen Netzen, die besonders gut mit Bildern umgehen können.

Ein solches Netz besteht aus zwei Hauptteilen:

Benenne beide.

Ein solches Netz besteht aus zwei Hauptteilen:

Convolution-Teil (Faltungsschichten): Er erkennt und extrahiert Merkmale im Bild – zum Beispiel Kanten oder Formen.
Deconvolution-Teil (Entfaltungsschichten): Er nutzt diese Merkmale, um das ursprüngliche Bild wieder „aufzubauen“ und jedem Pixel eine passende Kategorie zuzuordnen.

Semantische Segmentierung

Wichtige Anwendungsbereiche

Die semantische Segmentierung wird in vielen Bereichen eingesetzt.

Benenne vier Bereiche.

Autonomes Fahren: Erkennen von Autos, Fußgänger:innen, Straßen und Fahrspuren
Satellitenbilder (GeoSensing): Analyse von Landnutzung, z. B. Wälder, Felder oder Wasserflächen
Bewegungserkennung: Verfolgen von Körperteilen (z. B. Armen, Beinen, Kopf)
Medizin: Erkennen von Krankheitsbereichen, z. B. Tumoren im Gehirn

Techniken zur Bildgenerierung

Einführung

In den letzten Jahren hat sich die Bildgenerierung durch künstliche Intelligenz (KI) stark weiterentwickelt. Dank neuer generativer Modelle können heute realistische Bilder erzeugt werden, die oft kaum von echten Fotos zu unterscheiden sind.

Benenne die drei wichtigen Methoden welche dabei genutzt werden.

💡 Grundlagen

Bildgenerierung: KI erzeugt neue, realistische Bilder.
Wichtige Methoden:
1. Variational Autoencoder (VAE)
2. Generative Adversarial Networks (GAN)
3. Diffusionsmodelle

Techniken zur Bildgenerierung

Variational Autoencoder

VAEs sind eine Methode zur Bildgenerierung.

Auf welchem Prinzip basieren diese?

Aus welchen beiden Teilen besteht ein VAE?

Prinzip:

Sie lernen, wie man Bilder komprimiert und wiederherstellt
Besteht aus Encoder (komprimiert Bild) und Decoder (stellt Bild wieder her).

Techniken zur Bildgenerierung

Generative Adversarial Networks (GANs)

Benenne die zwei neuronalen Netze aus denen ein GAN besteht und beschreibe diese.

Was ist deren Schwäche?

Ein GAN besteht aus zwei neuronalen Netzen, die gegeneinander arbeiten:

Generator: versucht, realistische Bilder zu erzeugen
Diskriminator: versucht zu erkennen, ob ein Bild echt oder künstlich ist

Beide lernen gegenseitig voneinander:

Der Generator wird immer besser im „Fälschen“.
Der Diskriminator wird immer besser im Erkennen.

So entstehen am Ende sehr realistische Bilder – z. B. Gesichter, Landschaften oder Kunstwerke.

Probleme:

Schwer zu trainieren (instabil)

Techniken zur Bildgenerierung

Diffusionsmodelle

Was sind Diffusionsmodelle und wie arbeiten diese?

Diffusionsmodelle (kurz erklärt)

Diffusionsmodelle sind die neueste Generation der Bildgeneratoren.
Sie arbeiten schrittweise: Ein verrauschtes (unscharfes) Bild wird langsam „entrauscht“, bis ein neues, realistisches Bild entsteht.
Sie gelten heute als besonders stabil, präzise und vielfältig.

Modelltyp	Funktionsweise	Vorteile	Nachteile
VAE	Komprimiert & rekonstruiert Bilder	Verständlich, steuerbar	Bilder oft leicht unscharf
GAN	Zwei Netze im Wettstreit	Sehr realistische Bilder	Instabiles Training, wenig Vielfalt
Diffusionsmodell	Bild entsteht durch schrittweises Entrauschen	Hohe Qualität, stabil, vielfältig	Hoher Rechenaufwand

Herausforderungen bei der Bildgenerierung

Benenne Herausforderungen der Bildgenerierung und mögliche Lösungen dazu.

Herausforderung	Erklärung	Mögliche Lösung
Datenbedarf	Viele, hochwertige Trainingsdaten nötig	Transfer Learning, bessere Datensätze
Rechenaufwand	Training kostet viel Zeit und Energie	Effizientere Modelle
Instabilität	Modelle brechen beim Lernen ab	Neue Trainingsmethoden
Ethik & Missbrauch	Deepfakes, Falschinformationen	Erkennung & gesetzliche Regeln
Kontrolle	Schwer zu verstehen, wie Bilder entstehen	Interpretierbare Modelle

Was sind die beiden wesentlichen Komponenten eines GANs?

Generator – erzeugt synthetische Daten (z. B. Bilder), die möglichst realistisch wirken sollen
Diskriminator – unterscheidet zwischen echten und vom Generator erzeugten Daten und gibt Feedback, um den Generator zu verbessern

Auf welcher Archtektur basieren VAEs?

VAEs basieren auf einer Encoder-Decoder-Architektur.

Join Course

Preview

Author

Mathäus

Information

Last changed
4 months ago

Report course

5. Computer Vision

Einführung in Computer Vision

Computer Vision

Typische Aufgaben

Computer Vision

Computer Vision

Computer Vision

1. Odometrie

Verfolgungsaufgaben (Tracking)

Computer Vision

Bildrekonstruktion – einfach erklärt

Computer Vision

Computer Vision

Computer Vision

Pixel

Computer Vision

🎨 Farbdarstellungen – einfach erklärt

Computer Vision

⚫ Monochrome Bilder (Schwarz-Weiß)

Computer Vision

🌈 True Color (24-Bit-Farbdarstellung)

💡 Merke:

Computer Vision

🎨 Was bedeutet CMYK?

Computer Vision

Computer Vision

Computer Vision

🔲 Die 2D-Faltung (engl. Convolution)

Computer Vision

🧱 Auffülltechniken (Padding) – einfach erklärt

Computer Vision

📸 Warum braucht man Padding?

Computer Vision

🧩 Drei häufige Arten von Padding:

Computer Vision

Verzeichnung

📷 Was bedeutet Verzeichnung?

Computer Vision

Verzeichnung

Computer Vision

Verzeichnung

🔵 1. Radiale Verzeichnung

Computer Vision

Verzeichnung

Computer Vision

Verzeichnung

🟣 2. Tangentiale Verzeichnung

Computer Vision

Verzeichnung

Computer Vision

Kamerakalibrierung

Computer Vision

Kamerakalibrierung

Computer Vision

Kamerakalibrierung

Computer Vision

Kamerakalibrierung

Computer Vision

Kamerakalibrierung

🧮 Wie funktioniert der Kalibrierungsprozess?

Computer Vision

Kamerakalibrierung

🧮 Wie funktioniert der Kalibrierungsprozess?

Computer Vision

Kamerakalibrierung

Feature Engineering

Feature Engineering

🔍 Was sind Merkmale (Features)?

Feature Engineering

🧱 Die drei Hauptschritte des Feature Engineerings

Feature Engineering

Feature Engineering

Feature Engineering

Semantische Segmentierung

Semantische Segmentierung (vereinfacht erklärt)

Semantische Segmentierung

Wie funktioniert das technisch?

Semantische Segmentierung

Wichtige Anwendungsbereiche

Techniken zur Bildgenerierung