Erkläre das Vorgehen zum Vergleich zweier gleich großen Bilder mittels Abstandsberechnung über die Summe der Differenz
Pixelweise Berechnung der Differenz zwischen Ref und Zielbild
Vorteil: Einfach
Nachteil: gleich große negative wie positive Abstände heben sich auf
Erkläre das Vorgehen zum Vergleich zweier gleich großen Bilder mittels Abstandsberechnung über die Summe der Differenzbeträge
Pixelweise Berechnung des Differenzbetrag zwischen Ref- und Zielbild
Vorteil: gleich große negative wie positive Abstände heben sich nicht mehr auf
Nachteile:
+1 und -1 sind gleich gute Fehlerwerte, jedoch landet man mit einem rechts und mit dem anderen links von Minumum —> symmetrische Konstellation
viele minimale Fehlerchen genauso schwer wiegen, wie ein gravierender Fehler.
Erkläre das Vorgehen zum Vergleich zweier gleich großen Bilder mittels Abstandsberechnung über die Summe der quadratischen Abstände.
Pixelweise Berechnung des quadratischen Abstands zwischen Ref- und Zielbild
Vorteil: geringere Chance für eine symmetrische Konstellation
Nachteil:
Lösung -> Ziehen der Wurzel weglassen und nur die quadrierten Fehler aufaddierten, dann haben große Bildabweichungen sehr großen Einfluss auf die Fehlersumme und bei kleinen Fehlern bleibt der Einfluss auf den Gesamtfehler klein.
Nenne 3 Methoden zur Abstandsberechnung zweier gleich großen Bilder.
Summe der Differenz
Summer der Differenzbeträge
Summe der quadratischen Differenz
Was bedeutet der Begriff Korrelation?
Der Abstand zweier Bilder bezeichnet man als Korrelation.
Allgemein ist es wie folgt definiert:
Korrelation ist ein Maß für den statistischen Zusammenhang zwischen zwei Datensätzen.
Unabhängige Datensätze sind daher unkorreliert.
Erkläre Template Matching
Ziel-> Einen Bereich zu finden, der die höchste Übereinstimmung mit dem vorgegebenen Template hat.
Vorgehen:
Verschieben des Templates jeweils eine Pixelspalte und am Ende der Reihe eine Zeile nach unten.
Korrelation (Abstand) zwischen Template und Bildausschnitt berechnen
Wie geht Template Matching mit Drehung und Größenänderungen um?
Korrelationsbasierte Matching-Methoden sind im Allgemeinen nicht imstande, Verdrehungen und Größenänderungen zwischen Bild und Template zu bewältigen.
Um eine Skalierung oder Rotation zu berücksichtigen, müsste man alle möglichen Winkel und Skalierungen probieren, was es unpraktikabel macht.
Welche praktische Anwendung gibt es für Template-Matching?
Marker basiertes Tracking
Was sind Bildbereiche, die man gut mit einem Computer Vision System detektieren kann?
Kontrast und unverkennbare Strukturen, wie Ecken, eignen sich gut als wieder-identifizierbare Bildmerkmale (Features).
Beispiele:
Eine bestimmte Gruppierung weißer Pixel auf schwarzem Hintergrund
Kanten und Ecken in einer bestimmten Anordnung zueinander
Lokale Muster im Bild, die eine auffallende Struktur mit auffallenden Eigenschaften haben und dadurch einen Wiedererkennungswert haben
In welchen drei Arbeitsschnitte unterteilt man Feature Tracking? Und beschreibe, was in den Arbeitsschritten passiert.
Arbeitsschritte, um Feature Tracking auszuführen:
ein Detektor sucht nach markanten Bildregionen (Merkmale)
ein Deskriptor beschreibt die typischen Eigenschaften der Bildregion (Merkmalen) in kompakter Form
beim Matching werden anhand der, in Kurzform beschriebenen Eigenschaften, die korrespondieren den Bildausschnitte bestimmt
Wovon ist die Qualität von Feature Detection abhängig?
Die Qualität der Detektion ist davon abhängig, wie invariant (robust) das Verfahren gegenüber Veränderungen von Bildmerkmalen ist.
Was sind Einflüsse, die eine mögliche Veränderung von Bildmerkmalen bewirken?
Perspektivische Verzerrung (Kamera Wackeln)
Sonstige Verzerrung, die bei der Aufnahme von Bildern und Videos entstehen (Objektive wie Weitwinkel, Fischauge)
Beleuchtungseffekte (Schattierung, Schatten, spiegelnde Reflexionen)
Affine Transformation (Rotation, Skalierung, Scherung)
SIFT Detection: Welchen Nutzen hat man durch den Aufbau von Skalierungsräumen bzw. Bildpyramiden?
Skalierungsräume bzw. Bildpyramiden ermöglichen im SIFT-Verfahren eine robustere und skalierungsinvariante Merkmalsextraktion.
SIFT Detection: Beschreibe, wie man mit dem DOG-Filter feine und breite Kanten erhält.
Durch die Anpassung der Standardabweichungen in den Gauss-Filtern kann der DOG-Filter so konfiguriert werden, dass er entweder feine oder breite Kanten im Bild verstärkt.
Feine Kanten -> kleineren Standardabweichungen
Breite Kanten -> große Standardabweichungen
DOG-SIFT:
Von jedem Stockwerk werden mehrere Bilder kopiert und mit einem anderen Gaußwert geglättet (Oktave), dann werden die Differenzen zwischen benachbarten Bildern berechnet.
SIFT Detection: Berechnen von Maximal und Minima
Vergleich der 8 benachbarten Pixel und je 9 im Bild über und unter dem Bild (DOG)
Nur der Pixel wird nur als Extrema gespeichert, dessen Grauwert größer oder kleiner ist als der Grauwert alle umliegender Pixel.
Um die lokalen Extrema ermitteln zu können, müssen die Pixelkandidaten aussortiert werden, die keine lokalen Minima oder Maxima bilden. Welche sind das?
Pixel, die zwar lokal betrachtet markant sind, sich von den benachbarten Extrema aber nicht genügend unterscheiden. Sollte die Differenz der Intensitäten zweier benachbarter Extrema einen bestimmten Schwellwert unterschreiten, werden sie aussortiert. Im nächsten Schritt werden die Keypoint-Kandi- daten aussortiert, die auf einer Kante liegen, da sich Pixel entlang einer Kante sehr ähnlich sind.
SIFT Deskription: Wie funktioniert die Deskription markanter Merkmalspunkte?
Eine 16 x 16 Pixel großes Quadrat wird um den jeweiligen Keypoint, der sich in der Mitte befindet, gelegt. Für jeden Pixel wird ein Gradient berechnet (siehe links „Image gradients“). Jeweils 1⁄4 der Gradienten (links) werden auf acht Richtungen (rechts) diskretisiert . Dabei spielt wie bei 5. die Länge des Gradienten eine Rolle sowie jetzt zusätzlich die Lage des Gradienten in Abhängigkeit zum Keypoint. Liegt der Gradient näher m Keypoint wird der stärker gewichtet. Zusätzlich werden die Gradienten normalisiert.
Prinzip des Matchings im SIFT Verfahren beschreiben
Zunächst wird für das gesamte Kamerabild die Keypoints berechnet.
Danach werden die Keypoints auf Basis ihrer vom Deskriptor beschriebenen Eigenschaften miteinander verglichen.
Um fehlerhafte Zuordnungen zu vermeiden, werden nicht eindeutige Zuordnungen verworfen.
Sollte es mehrere Übereinstimmungen (Matchs) geben, wird der, mit der höchsten Übereinstimmung gewählt. Sollte der Unterschied zwischen beiden Matchs sehr klein sein, werden beide verworfen.
Nenne Anwendungen des SIFT Verfahrens.
IRIS Erkennung
Venen-Erkennung
Stiching (Panoramabilder)
Welche Bedeutung haben die Machschen Streifen für unsere Wahrnehmung?
Die Mach'schen Streifen zeigen, wie das visuelle System in der Lage ist, den Kontrast zwischen benachbarten Bereichen zu verstärken. Die hellen und dunklen Streifen erzeugen eine starke räumliche Kontrastwahrnehmung und verdeutlichen, wie unsere Wahrnehmung feine Unterschiede in der Helligkeit verstärken kann.
Auf Basis welcher „markanter“ Bildelemente erschließen wir uns den Bildinhalt?
Hohe Kontrastunterschiede
also lokale Minima und Maxima im Grauwertbild
solche Minima und Maxima können Kanten oder Eckpunkte sein
Masche Streifen stützen diese Hypothese
auch flächige Bildelemente sind „aussagekräftige“ Bildbereiche
durch ihre Form erkennt man bekannte Objekte
zusammengesetzt bilden sie Strukturen bekannter Objekte
Was kommt raus wenn dieser Ortsraum in den Frequenzraum transferiert wird.
Welche Bedeutung hat der Faltungssatz? Oder anders ausgedrückt: Welche beiden mathematischen Operationen können in Ihrer Wirkungsweise gleichgesetzt werden?
Eine Multiplikation der Funktionen in einem Raum (Orts- oder Frequenz-raum) entspricht also einer linearen Faltung der durch die Fourier-Analyse Transformierten, im jeweils anderen Raum.
Multiplikation von Funktionen im Raum == Lineare Faltung durch Fourier-Analyse
Welche zwei unterschiedlichen Arten von Filtern gibt es und wie werden Sie berechnet?
Tiefpassfilter - Weichzeichner (Gauß / Box)
Berechnung: Einen linearen Faltungskern dargestellt werden, zum Beispiel einen Gaußschen Kernel.
Hochpassfilter - Kantenerkennung
Berechnung mit linearen Faltungskern mit Differenzoperator:
Filtermasken haben positive und negative Koeffizienten
Die Filterkoeffizienten sind normalisiert:
Was bedeutet, die Summe der Koeffizienten ergibt
Sobel x:
-1 0 1
-2 0 2
Sobel y:
-1 -2 -1
0 0 0
1 2 1
Was bewirkt das Sigma im Gauß-Filter und wie kann man es im DOG-Filter verwenden?
Glättungsverhalten ist abhängig von Sigma
je größer Sigma, umso weicher.
Verwendung DOG-> zwischen zwei Bildern mit niedrigen und hohen Sigma -> Kanten werden gekennzeichnet
Welcher Zusammenhang besteht zwischen den Gradienten pro Pixel und dem Differenzoperator?
Der Gradient eines Bildes ist ein Vektor, der die Richtung der größten Veränderung im Bild und die Stärke dieser Veränderung angibt. In einem zweidimensionalen Bild wird der Gradient üblicherweise in horizontaler (x-Richtung) und vertikaler (y-Richtung) Komponente ausgedrückt.
Der Gradienten pro Pixel wird mittels Differenzoperator ermittelt
Welche Differenzoperatoren kennen Sie?
2x2Roberts Operator
01 1 0
-10 0-1
Prewitt Operator
-1 0 1 1 1 1
-1 0 1 0 0 0
-1 0 1 -1 -1 -1
Zwei Varianten zur Implementierung der Filteroperationen beherrschen?
Variante A:
das Filterergebnis wird in ein Zwischenbild gespeichert und anschließend ins Originalbild kopiert.
Variante B:
Das Originalbild wird zuerst in ein Zwischenbild kopiert, und diese wird gefiltert. Das Ergebnis der Filterung wird im Originalbild abgelegt.
Wie funktioniert der Roberts-Operator, was detektiert er und welchen Vorteil bietet er bei der Implementierung?
Ein einfacher, diskreter Operator zur Kantenerkennung in der Bildverarbeitung.
Er erkennt Kanten in einem Bild, indem er die Ableitung in horizontaler und vertikaler Richtung berechnet und die Gradientenstärke approximiert.
Durch die Einfachheit kommt er ohne ein Zwischenbild aus.
bei Anwendung:
x x+1
y ( 0 1)
y+1 (-1 0)
Was ist eine Hysterese?
wird als Kante erkannt
high —————————————
nur wenn benachbarter Pixel eine Kante ist wird er als Kante Akzeptiert
low —————————————
wird nicht als Kate erkannt
Welchen Vorteil hat der Canny-Edge-Detektor gegenüber den Kantendetektoren auf Basis der 1. und 2. Ableitung?
Bei Canny Edge wird mehr das Rauschen unterdrückt im Vergleich mit Kantendetektoren wie Laplace Prewitt oder Sobel.
Warum nutzen Computer Vision Systeme überwiegend Ecken als markante Bildmerkmale und nicht Linien oder einfarbige Flächen?
Ecken einzigartige und gut unterscheidbare visuelle Strukturen in einem Bild.
Im Gegensatz zu Linien oder einfarbigen Flächen bieten Ecken Unabhängigkeit von Rotation und Skalierung durch, da sie in alle Richtungen eine signifikante Änderung aufweisen, wenn man die Pixel vergleicht.
Ist die Definition von „Ecke“ eindeutig? Argumentieren Sie, warum das nicht der Fall ist?
Eine Ecke ist nicht eindeutig, da sich z.B. Ecken von Dreiecken oder Recken im Winkel unterscheiden, aber es auch eine Ecke entstehen wenn zwei Linien sich schneiden.
Unterschiede:
Winkel
Rotation
usw
Wie ist die Definition von „Ecke“ im FAST-Eckendetektor?
Wenn 12 Pixel um den Ecken-Kandidaten im Abstand von 3 um den Schwellwert heller oder dunkler sind, wird der Kandidat als Ecke erkannt.
Welche Ecken findet der FAST-Eckendetektor und welche nicht?
Der FAST-Detektor findet alle Ecken, die nicht achsenparallel liegen
Die Ecken, die parallel zu den Koordinatenachsen des Bildes verlaufende, werden oft nicht erkannt
Nenne die Schritte des Fast Ecken Dedector
Pixel 1,5,9 und 13 prüfen, ob heller als Kandidaten—> wenn 3 heller oder dunkler weiter
Restliche Pixel prüfen —> wenn 12 heller oder dunkler -> Kandidat Ecke sonst keine Ecke
Wie wird die Hough-Transformation berechnet?
Vom Vordergrundpixel werden die Gradenbüschel in das ab-Koordinatensystem überführt
Vorkommen der Geraden in dem diskret unterteilten Zellen des ab Koordinatensystem werden aufsummiert
Die Zellen im ab-Koordinatensystem, die die meisten Geraden aus dem Geradenbüscheln auf sich vereinigen können, sind die gesuchten Geraden im xy-Koordinatensystem
Alternativ können statt Steigung (a) und schnittpunkt durch die Y-Achse (b) auch die Hessische Normalform verwendet werden:
Winkel und p=Länge des Vektors, der orthogonal auf der Geraden steht und durch den Nullpunkt des xy-Koordinatensystems geht.
Welche Einschränkungen hat die Hough Transformation, abhängig von der verwendeten Geradendarstellung?
ab-Koordinatensystem -> Damit können Kanten, die parallel zur y-Achse im Bild verlaufen, nicht oder nur mit einer gewissen Ungenauigkeit gefunden werden.
Da delta x = 0 ist, sind diese Geraden nicht definiert.
Hessche Normalform:
Erkennt auch kanten die parallel zur y-Achse im Bild verlaufen
Zuletzt geändertvor einem Jahr