Computer Vision ist ein Thema, das mehrere Disziplinen vereint.
Benenne die beiden Hauptdisziplinen.
Welche Aufgaben umfasst dir Computer Vision?
Wann begann die Forschung im Bereich der Computer Vision?
Informatik
Ingenierwissenschaften
Die Kalssifizierung von Objekten und die Bewegungserkennung
Die Forschung begann in den 1960er Jahren
Welche vier Hauptkategorien gibt es in der Computer Vision?
Erkennungsaufgaben: Erkennen und Klassifizieren verschiedener Objekte oder Personen in Bildern;
Bewegungsanalyse: Erkennen und Verfolgen der Bewegung von Objekten, Personen oder der Kamera;
Bildwiederherstellung: Filtern und Entfernen von Rauschen aus Bildern und Videos; und
Geometrierekonstruktion: Schätzen eines 3D-Modells eines realen Objekts oder einer Szene.
Erkennung
Benne die vier Arten der Erkennung in der Computer Vision
In der Computer Vision gibt es vier Arten von Erkennung:
🔹 Objekterkennung: Was ist auf dem Bild?
🔹 Identifizierung: Wer oder was genau ist es?
🔹 Posenabschätzung: Wo und wie ist das Objekt positioniert?
🔹 OCR: Welche Texte stehen auf dem Bild?
Alle diese Aufgaben helfen Computern dabei, die visuelle Welt zu verstehen und sinnvoll zu nutzen.
Erkläre mit eigenen Worten womit sich die Bewegungsanalyse beschäftigt und wobei diese genuzt wird.
Die Bewegungsanalyse beschäftigt sich damit, wie sich Objekte im Laufe der Zeit bewegen.
In der Computer Vision wird sie genutzt, um z. B. Kameras, Fahrzeuge oder Personen zu verfolgen und ihre Bewegung zu verstehen.
Es gibt zwei Methoden welche Computern helfen, Bewegungen in der realten Welt zu verstehen und nachzuvollziehen.
Benenne beide und erkläre diese.
Odometrie: misst oder schätzt die Bewegung und Position eines Objekts, entweder mit Sensoren oder durch Bildanalyse (visuelle Odometrie).
Tracking: verfolgt ein bestimmtes Objekt über mehrere Bilder hinweg – z. B. Menschen, Fahrzeuge oder Tiere in einem Video.
Odometrie bedeutet, dass man die Bewegung eines Objekts misst oder schätzt, also wie weit und in welche Richtung es sich bewegt hat.
Gib ein Beispiel aus der Praxis in denen die Odometrie genutzt wird.
Beispiel:
Ein autonomer Reinigungsroboter kann mithilfe der visuellen Odometrie einschätzen,wo er sich gerade im Raum befindet und welche Bereiche er schon gereinigt hat.
Beim Tracking geht es darum, ein bestimmtes Objekt in einer Bildfolge zu verfolgen.
Gib ein Beispiel aus der Praxis in der Tracking genuzt wird.
In einem Video kann ein System die Bewegung eines Autos verfolgen,um seine Richtung und Geschwindigkeit zu bestimmen.
Worum geht es bei der Bildrekonstruktion?
Was ist das Ziel der dieser?
Bei der Bildrekonstruktion geht es darum, Bilder zu verbessern oder wiederherzustellen, die verschwommen, verpixelt oder beschädigt sind.
Das Ziel ist, aus einem schlechten Bild wieder ein klareres und qualitativ besseres zu machen.
Wie funktoniert die Geometrierekonstruktion?
Gib ein Beispiel aus der Praxis.
Hier wird aus mehreren Bildern ein 3D-Modell einer Szene oder eines Objekts erstellt.
In der Architektur oder im Film kann man ein Gebäude oder eine Figur digital rekonstruieren,indem man es aus verschiedenen Perspektiven fotografiert.
Benenne die fünf Herausforderungen mit denen Computer Vision zu kämpfen hat.
Computer Vision hat mit fünf großen Herausforderungen zu kämpfen:
Lichtverhältnisse ☀️
Ähnliche Objekte 🔍
Größenunterschiede 📏
Drehungen 🔄
Verschiedene Positionen 📍
Was sind die typischen Aufgaben in der Computer Vision?
Bewegungsanalyse
Bildwiederherstellung
Geometrierekonstruktion
Was ist ein Pixel?
Aus welchen Wörtern setzt sich das Wort Pixel zusammen?
Was wid mit der Auflösung eines BIldes angegeben?
Ein Pixel ist die kleinste Einheit eines Bildes.
Das Wort setzt sich aus den beiden Begriffen „pictures“ (pix) und „element“ (el) zusammen
Mit der „Auflösung“ eines Bildes wird die Anzahl der Pixel angegeben. Je höher die Auflösung, desto mehr Details sind auf dem Bild zu erkennen
Was muss ein Computer beim speichern eines Bildes machen, damit es digital verarbeitet werden kann?
Wenn ein Computer ein Bild speichert, muss er jede Farbe in Zahlen umwandeln, damit sie digital verarbeitet werden kann.
Diese Zahlen beschreiben, welche Farbe ein einzelner Pixel (Bildpunkt) hat.
Was versteht man unter Monochromen Bildern?
Die einfachste Form der Farbdarstellung.
Jeder Pixel hat nur zwei mögliche Werte:
0 = Schwarz
0
1 = Weiß
1
Solche Bilder nennt man monochrom oder binär.
Was sind True Color Bilder?
Hier wird jeder Pixel mit 24 Bits dargestellt.
Diese 24 Bits werden in 3 Gruppen à 8 Bits aufgeteilt:
R = Rot
G = Grün
B = Blau
Jede dieser Farben kann zwischen 0 und 255 liegen.
👉 So entstehen über 16 Millionen Farben (256 × 256 × 256 = 16.777.216 mögliche Farbtöne).
Farbcode (RGB)
Ergebnis
RGB(0, 0, 0)
Schwarz
RGB(255, 255, 255)
Weiß
RGB(255, 0, 0)
Rot
RGB(0, 255, 0)
Grün
RGB(0, 0, 255)
Blau
RGB steht für Rot, Grün, Blau – die Grundfarben des Lichts.
Durch Kombination dieser drei Farben kann der Computer jede sichtbare Farbe darstellen.
Je mehr Bits pro Pixel verwendet werden, desto mehr Farben kann man anzeigen – das nennt man Farbtiefe.
Eine weitere Möglichkeit, Farben darzustellen, ist das CMYK-Modell.
CMYK steht für:
C = Cyan (Blaugrün)
M = Magenta (Pink)
Y = Yellow (Gelb)
K = Key = Schwarz
Diese vier Farben werden übereinander gedruckt, um alle anderen Farbtöne zu erzeugen. Das nennt man ein subtraktives Farbmodell – weil jede Farbschicht Licht wegnimmt (absorbiert), statt es zu addieren wie beim RGB-Modell.
🖨️ Das CMYK-Farbmodell
Im welchen Bereich wird dieses Modell verwendet?
Es wird vor allem im Druckbereich verwendet – also z. B. für Zeitungen, Plakate oder Verpackungen.
In der Computer Vision (also der Bildverarbeitung durch Computer) sind Filter sehr wichtig.
Wozu nutzt man Filter?
Man nutzt sie, um:
Effekte auf Bilder anzuwenden (z. B. Schärfen, Weichzeichnen),
Rauschen zu entfernen (Glättung),
fehlende Bereiche zu ergänzen (Inpainting),
oder wichtige Merkmale zu erkennen, wie Kanten oder Ecken.
Was versteht man unter der 2D-Faltung?
Eine häufig verwendete Methode, um Filter auf Bilder anzuwenden, ist die 2D-Faltung.
So funktioniert sie:
Man hat ein Bild, das aus vielen Pixeln (kleinen Kästchen mit Farbwerten) besteht.
Dann nimmt man eine kleine Matrix, die man Kernel oder Faltungsmatrix nennt. – Diese ist meist 3×3 oder 5×5 groß.
Der Kernel wird Schritt für Schritt über das ganze Bild geschoben.
An jeder Position werden die Pixelwerte des Bildes mit den Werten des Kernels multipliziert und addiert. Das ergibt einen neuen Pixelwert im gefilterten Bild.
🧱 Auffülltechniken (Padding)
Wofür wird Padding genutzt?
Welches Problem verursacht das nutzen von Padding?
Wenn man ein Bild mit einer Faltungsmatrix (Kernel) bearbeitet, entsteht ein Problem an den Bildrändern:
Am Rand fehlen Pixel, die der Kernel für seine Berechnung eigentlich braucht.
Damit das Bild trotzdem vollständig verarbeitet werden kann, werden an den Rändern zusätzliche Pixel eingefügt.
Dieser Vorgang heißt Padding (oder Auffüllen).
📸 Warum braucht man Padding?
Ohne Padding wird das Bild bei jeder Faltung kleiner, weil an den Rändern keine vollständige Berechnung möglich ist.
Padding sorgt also dafür, dass:
das Bild gleich groß bleibt,
und die Randbereiche ebenfalls richtig verarbeitet werden.
Benenne drei Arten von Padding.
🟦 Constant Padding (Konstantes Auffüllen)
→ Die leeren Felder werden mit einem festen Wert gefüllt – meistens 0 (also Schwarz). Beispiel: gut geeignet, wenn man einfach neutrale Ränder möchte.
🟩 Replication Padding (Nachbarschaftsauffüllen)
→ Der Wert der angrenzenden Pixel wird kopiert, um die leeren Felder am Rand zu füllen. Beispiel: Der äußerste Pixelwert einer Zeile wird nach außen hin wiederholt.
🟨 Reflection Padding (Spiegelauffüllen)
→ Die Randbereiche werden gespiegelt. Beispiel: Der Pixel links neben dem Rand wird durch den Pixel auf der gegenüberliegenden Seite ersetzt. So entsteht ein symmetrischer Rand um das Bild.
📷 Was bedeutet Verzeichnung?
Wenn eine Kamera ein Bild aufnimmt, sollte sie die Realität möglichst genau abbilden. Das heißt:
Gerade Linien in der echten Welt sollten auch gerade auf dem Foto erscheinen.
In der Praxis passiert das aber oft nicht, weil Kameraobjektive (vor allem Weitwinkel- oder günstige Linsen) das Bild verzerren.
Diese Bildfehler nennt man Verzeichnungen (engl. distortions).
Benne die zwei Arten von Verzeichnungen.
🔵 1. Radiale Verzeichnung
🟣 2. Tangentiale Verzeichnung
Wodurch entstehen radiale Verzeichnungen?
Wovon hängt die Stärke der Verformung ab?
Die radiale Verzeichnung entsteht durch die rundliche Form des Kameraobjektivs. Dabei werden gerade Linien zum Rand hin gebogen.
Die Stärke dieser Verformung hängt von der Objektivgröße ab:
Kleine oder Weitwinkelobjektive → stärkere Verzeichnung
Große oder Teleobjektive → geringere Verzeichnung
Radiale Verzeichnung
Benenne die vier typischen Arten der Radialen Verzeichnungen.
Art der Verzeichnung
Beschreibung
Beispiel
Tonnenförmig (positive Verzeichnung)
Linien biegen sich nach außen – das Bild wirkt aufgebläht.
Typisch bei Actioncams
Kissenförmig (negative Verzeichnung)
Linien biegen sich nach innen – das Bild wirkt zusammengedrückt.
Oft bei Teleobjektiven
Komplex / Schnurrbart-Verzeichnung
Kombination aus beidem – mal nach innen, mal nach außen gebogen.
Mischformen bei Zoomobjektiven
Fischaugen-Verzeichnung
Sehr starke Krümmung, besonders bei Ultraweitwinkelobjektiven.
Z. B. bei Türspionen oder GoPros
Wodurch entstehen Tangentiale Verzeichnungen?
Die tangentiale Verzeichnung entsteht nicht durch die Form des Objektivs, sondern durch eine schiefe Ausrichtung zwischen:
dem Kameraobjektiv und
dem Bildsensor.
Wenn beide nicht exakt parallel sind, werden Linien im Bild verschoben oder verzogen – das Bild wirkt leicht geneigt oder verzerrt.
🧮 Wie kann man Verzeichnungen korrigieren?
Welche beiden Parameter werden dazu benötigt?
Korrektur → mithilfe mathematischer Modelle und Kamerakalibrierung
Damit diese Korrektur funktioniert, braucht man:
die intrinsischen Parameter der Kamera (z. B. Brennweite, Bildmittelpunkt)
und die extrinsischen Parameter (z. B. Position und Ausrichtung der Kamera).
🎯 Was bedeutet Kamerakalibrierung?
Die Kamerakalibrierung ist ein wichtiger Schritt in der Computer Vision,um herauszufinden, wie eine Kamera die reale Welt "sieht".
Sie hilft uns zu verstehen, wie 3D-Punkte aus der echten Welt auf ein 2D-Bild (Foto) abgebildet werden. Nur wenn diese Beziehung bekannt ist, kann man:
Verzeichnungen (Bildfehler) korrigieren,
Abstände und Größen im Bild richtig messen,
und 3D-Modelle aus Fotos rekonstruieren.
Man unterscheidet zwischen zwei Arten von Kameraparametern:
Benenne beide.
1. Intrinsische Parameter (kameraintern)
2. Extrinsische Parameter (kameraposition)
Was beschreiben die Intrinsischen Parameter?
Intrinsische Parameter (kameraintern)
Diese beschreiben die Eigenschaften der Kamera selbst, z. B.:
Brennweite (wie stark das Objektiv vergrößert),
optisches Zentrum (wo die Mitte des Bildes liegt),
Verzeichnungsparameter (wie stark das Objektiv das Bild verzerrt).
Was beschreiben die Estrinsischen Parameter?
Extrinsische Parameter (kameraposition)
Diese geben an, wo und wie die Kamera in der realen Welt positioniert ist:
Rotation → in welche Richtung die Kamera zeigt,
Translation → wo sie sich im Raum befindet.
Damit man berechnen kann, wie 3D-Punkte aus der realen Welt auf 2D-Pixel im Bild abgebildet werden, nutzt man Koordinatensysteme:
Benne die drei Koordinatensysteme.
3D-Koordinatensystem der realen Welt → beschreibt die tatsächliche Position von Punkten im Raum.
3D-Kamerakoordinatensystem → zeigt, wo die Kamera steht und wohin sie schaut.
2D-Koordinatensystem des Bildes → beschreibt, wo die Punkte im aufgenommenen Foto liegen.
3D-Koordinatensystem der realen Welt
3D-Kamerakoordinatensystem
2D-Koordinatensystem des Bildes
Benenne die beiden Schritte in denen die Abbildung erfolgt.
Die Abbildung geschieht in zwei Schritten:
3D-Welt → Kamera (mit extrinsischen Parametern)
Kamera → 2D-Bild (mit intrinsischen Parametern)
Welches ist ein einfaches und verbreitetes Verfahren zur Kalibrierung?
Und von wem stammt es?
Eine Praktische Kalibrierung mit einem Schachbrettmuster
Es stammt von Zhang
Was bedeutet Feature Engineering?
🔍 Was sind Merkmale (Features)?
Ein Merkmal ist ein Punkt von Interesse in einem Bild,
der wichtige Informationen für eine bestimmte Aufgabe enthält.
Das kann z. B. eine Ecke, eine Kante oder eine gleichmäßig gefärbte Fläche (Blob) sein.
Benenne die drei Hauptschritte des Feature Engineerings
1. Merkmalserkennung
2. Merkmalsbeschreibung / -extraktion
3. Merkmalsabgleich (Feature Matching)
Beschreibe die Merkmalserkennung.
Hier werden interessante Punkte im Bild gefunden — z. B. Ecken, Kanten oder auffällige Flächen. Beispiele:
Blobs → Bereiche mit ähnlicher Farbe oder Helligkeit.
Kanten → dort, wo sich die Helligkeit stark ändert (Jain et al., 1995).
Ecken → Übergänge zwischen zwei Kanten.
➡️ Beispiel: Wenn man Tomaten auf einem Bild erkennen will, könnten Blobs helfen, da sie runde, gleichfarbige Flächen beschreiben.
Beschreibe die Mekmalbeschreibung
Sobald Merkmale erkannt sind, werden ihre Eigenschaften numerisch beschrieben. Der entstehende Merkmalsdeskriptor enthält Informationen über:
die Farbe,
die Textur,
oder das lokale Muster der Pixel rund um das Merkmal.
➡️ Beispiel: Ein Deskriptor einer Tomate könnte rötliche Farbwerte und eine runde Struktur beschreiben.
Beschreibe die Mekmalsabgleich?
Die extrahierten Deskriptoren können mit anderen Bildern verglichen werden, um ähnliche Merkmale zu finden. So kann man z. B. erkennen, ob dieselbe Tomate oder Gurke in verschiedenen Bildern vorkommt.
➡️ Beispiel: Wenn man einen Merkmalsdeskriptor einer Gurke hat, kann man ihn mit anderen Deskriptoren vergleichen, um alle Gurkenstücke im Bild zu erkennen.
Was passiert bei der Semantischen Segmentierung?
Bei der semantischen Segmentierung – auch Bildsegmentierung genannt –
wird ein Bild so analysiert, dass jedes Pixel einer bestimmten Kategorie (z. B. Hintergrund, Auto, Mensch) zugeordnet wird.
Das bedeutet: Der Computer erkennt, welche Teile des Bildes zusammengehören, und färbt sie entsprechend ein.
Algorithmen zur semantischen Segmentierung basieren häufig auf Convolutional Neural Networks (CNNs), also speziellen neuronalen Netzen, die besonders gut mit Bildern umgehen können.
Ein solches Netz besteht aus zwei Hauptteilen:
Convolution-Teil (Faltungsschichten): Er erkennt und extrahiert Merkmale im Bild – zum Beispiel Kanten oder Formen.
Deconvolution-Teil (Entfaltungsschichten): Er nutzt diese Merkmale, um das ursprüngliche Bild wieder „aufzubauen“ und jedem Pixel eine passende Kategorie zuzuordnen.
Die semantische Segmentierung wird in vielen Bereichen eingesetzt.
Benenne vier Bereiche.
Autonomes Fahren: Erkennen von Autos, Fußgänger:innen, Straßen und Fahrspuren
Satellitenbilder (GeoSensing): Analyse von Landnutzung, z. B. Wälder, Felder oder Wasserflächen
Bewegungserkennung: Verfolgen von Körperteilen (z. B. Armen, Beinen, Kopf)
Medizin: Erkennen von Krankheitsbereichen, z. B. Tumoren im Gehirn
In den letzten Jahren hat sich die Bildgenerierung durch künstliche Intelligenz (KI) stark weiterentwickelt. Dank neuer generativer Modelle können heute realistische Bilder erzeugt werden, die oft kaum von echten Fotos zu unterscheiden sind.
Benenne die drei wichtigen Methoden welche dabei genutzt werden.
Bildgenerierung: KI erzeugt neue, realistische Bilder.
Wichtige Methoden:
Variational Autoencoder (VAE)
Generative Adversarial Networks (GAN)
Diffusionsmodelle
Variational Autoencoder
VAEs sind eine Methode zur Bildgenerierung.
Auf welchem Prinzip basieren diese?
Aus welchen beiden Teilen besteht ein VAE?
Prinzip:
Sie lernen, wie man Bilder komprimiert und wiederherstellt
Besteht aus Encoder (komprimiert Bild) und Decoder (stellt Bild wieder her).
Generative Adversarial Networks (GANs)
Benenne die zwei neuronalen Netze aus denen ein GAN besteht und beschreibe diese.
Was ist deren Schwäche?
Ein GAN besteht aus zwei neuronalen Netzen, die gegeneinander arbeiten:
Generator: versucht, realistische Bilder zu erzeugen
Diskriminator: versucht zu erkennen, ob ein Bild echt oder künstlich ist
Beide lernen gegenseitig voneinander:
Der Generator wird immer besser im „Fälschen“.
Der Diskriminator wird immer besser im Erkennen.
So entstehen am Ende sehr realistische Bilder – z. B. Gesichter, Landschaften oder Kunstwerke.
Probleme:
Schwer zu trainieren (instabil)
Was sind Diffusionsmodelle und wie arbeiten diese?
Diffusionsmodelle sind die neueste Generation der Bildgeneratoren.
Sie arbeiten schrittweise: Ein verrauschtes (unscharfes) Bild wird langsam „entrauscht“, bis ein neues, realistisches Bild entsteht.
Sie gelten heute als besonders stabil, präzise und vielfältig.
Modelltyp
Funktionsweise
Vorteile
Nachteile
VAE
Komprimiert & rekonstruiert Bilder
Verständlich, steuerbar
Bilder oft leicht unscharf
GAN
Zwei Netze im Wettstreit
Sehr realistische Bilder
Instabiles Training, wenig Vielfalt
Diffusionsmodell
Bild entsteht durch schrittweises Entrauschen
Hohe Qualität, stabil, vielfältig
Hoher Rechenaufwand
Benenne Herausforderungen der Bildgenerierung und mögliche Lösungen dazu.
Herausforderung
Erklärung
Mögliche Lösung
Datenbedarf
Viele, hochwertige Trainingsdaten nötig
Transfer Learning, bessere Datensätze
Rechenaufwand
Training kostet viel Zeit und Energie
Effizientere Modelle
Instabilität
Modelle brechen beim Lernen ab
Neue Trainingsmethoden
Ethik & Missbrauch
Deepfakes, Falschinformationen
Erkennung & gesetzliche Regeln
Kontrolle
Schwer zu verstehen, wie Bilder entstehen
Interpretierbare Modelle
Was sind die beiden wesentlichen Komponenten eines GANs?
Generator – erzeugt synthetische Daten (z. B. Bilder), die möglichst realistisch wirken sollen
Diskriminator – unterscheidet zwischen echten und vom Generator erzeugten Daten und gibt Feedback, um den Generator zu verbessern
Auf welcher Archtektur basieren VAEs?
VAEs basieren auf einer Encoder-Decoder-Architektur.
Last changeda month ago