nenne und erläutere moderne architekturentscheidungen für cnns
vor und nachteile
Dilated Convolutions
hier wird das rezeptive feld vergößert um besser long range dependencies zu verstehen
Depthwise separable convolutions
schnellere infernez,
ich habe nur noch ein filter kernel pro input channel (rgb=3) und fusioniere dann anschließend
Reparametrisierung
mithilfe von winograd algo können 3x3 mit 1 stride convolutionen sehr schnell berechnen
ich schreibe die branch architektur so um dass ich nurnoch solche konvolutionnen berechnen muss
si bin ich dann in der inferenz schneller
Was ist semantic segmentation
verbindet regionen mit klassen. Ich schreibe jedem picel die klasse zu dich ich für am wahrscheinlichsten halte
Problem, Stride ist groß (32) und dann kann ich nur gro eine klassifizierung für jede 32x32 region vornehmen.
für was wird unet meistens eingesetzt
semantic segmentation
welche 2 ansätze für computer ision bzw object detection gibt es
CNN Architektur
DeTR
wie können cnn architectures object detection aufgeteilt werden
Anchor based und anchor free
was sind vor und nachteile DrTR architektur
wie muss man den trainieren und warum
Vorteil: keine anker, keine Non-Maximum supression (NMS), keine arbiträre definituon von hyperparametern und kalkulation von zeieln
ich füge einfach mehr convolutional layer hinzu dann habe ich aber mehr parameter
ich verwende dilated convolutional layer so dass: anstatt dass sich der convolutional layer einen 3x3 block anschaut, schaut dieser sich jetzt immernoch 3x3 pixel aber mit einem größeren abstand an (zwischen den pixeln liegt immer noch ein pixel. der stride bleibt eins
Anchor based 2d = N=Ankerzahl*(klassen+background+ankermaßklassen(höhe breite x und y koordinate =4)
hier also 6*(3+1+4)=48
Anchor free = c+1+4+1 =3+1+4+1 =9
das problem ist dass fast alles background ist, deswegen gewichten wir den einfluss von individuellen trainings proben.
Beim focal loss mache ich es so dass, je einfacher die probe ist, um so niedriger ist der einfluss auf den loss sein.
Depth wise separable confvolutions. Ich mache einen konvolutional filter pro eingabe channel, dann fusioniere ich die channel informationen mit 1x1 convolutional filter. Das reduziert die anzahl der berechnungen stark, effizienz steigt, ohne die genauigkeit zu beeinträchtigen
um objekte in einem bild zu erkennen, da objekte unterschiedliche größen haben können, kann ich ankerboxen mit verschiedenen größen verwenden verwenden, diese können dann auf die tatsächliche größe angepasst werden. Werden verwendet um gute bounding boxen zu prädizieren
anstatt eine absolute position und größe eines objekts vorherzusagen wird hier der offset angegeben, wie weit die box angepasst und verschoben werden muss. Wenn ich mehr als eine ankerbox habe erhöht sich ausserdem die dimensionalität meiner ausgabe, wenn ich 9 ankerboxen habe, muss das modell pro bildbereich auch 9 vorhersagen treffen
können vorgegeben werden oder ich errechne sie
quatsch frage
kommt nicht dran
sie können vorgegeben oder errechnet werden aus probe daten
aktiv, wenn sie gute ankerbocen sind und diese generieren einen loss,
schlechte ankerboxen sind passiv und background
classifivationloss wird bei allen prädiktionen verwendet, enthält die klasse die prädiziert wird.
regressionloss wird nur für die aktiven anker boxen verwendet
kommt nicht
behebt das problem,
Zuletzt geändertvor 5 Monaten