Was ist das ziel der Audiokompression?
verkleinern der Datenmenge
mit möglichst hohem erhalt der audioqualität
Was ist ein Ansatz zur audikompression?
Mikrofone sensibler als unser gehör
-> analyse unseres gehörs um zu wissen welche teile man eh schlecht/nicht hören kann
-> entfernen dieser im zuge einer kompression…
Was ist die psychoakustik?
verbindet akustik
mit menschlicher schallwahrnehmung
=> beziehung zw. objektiven physikalischen größen und subjektivem wahrnehmen der Menschen
Was gehört zum objektiven Teil der Psychoakustik?
physikalische größen e.g.
schalldruch
frequenz
schalldauer
Was gehört zum subjektiven teil der Psychoakustik?
empfindungen
-> einführen von neuen “subjektiven” größen für die objektiven physikalischen größen
“lautheit”
lautstärkepegel
tonheit
Was macht die Psychoakustik?=
setzt objektive und subjektive größen
durch modelle in verbindung
In welche bereiche kann man das menschliche gehör einteilen (e.g. frequenz - schalldruckpegel in dB)?
=> sieht bei jedem Menschen bisschen anders aus…
Was ist das “simultaneous Masking”?
verdeckung eines leiseren tones
durch ein lauteren ton in naher frequenz
=> verändert hörschwelle
hier: lauiter ton bei 1kHz
-> verändert hörschwelle (notwendigen schalldruck) für umliegende frequenzen…
Was ist temporal masking?
Ein sehr lauter stimulus kann töne verdecken
die davor, während oder danach auftreten
nach lautem Ton dauert es eine weile bis sich unser gehör wieder angepasst hat… (kann unmittelbar danach leisen ton verdecken…)
!passiert auch davor…
Wie kann es sein dass beim temporal masking auch leise töne vor dem lauten ton (masker) schlechter wahrgenommen werden?
gehirn verarbeitet laute töne schneller
-> dadurch überlagert durch zeitliche verzögerung das leise mit dem (späteren) lauten signal
Nochmal ziel Audiokompression?
verkleinerung der datei
ohne subjektive wahrnehmung des hörers zu beeinträchtigen
=> im hörbereich möglichst wenig komprimieren
=> außerhalb: möglichst stark komprimieren
Was sind die ansätze beim Komprimieren?
Alle frequenzen raus die unter der hörschwelle liegen
alle frequeznen die von anderen frequenzen höherer amplituden überlagert werden weg
leise töne die direkt vor oder nach lauteren tönen kommen weg
=> i.e. psychoakustisches modell
-> unterstützt komoressionsalgorithmen
Für was steht MP3?
MPEG audio layer 3
Wie ist MP3 aufgebaut?
audiodaten gehen in Filter und MDCT (modified discrete cosine transform)
gehen auch in FFT und psychoakustisches model (erstellt maske für unsere daten was behalten werden soll und was rausgelassen werden kann)
=> gemasktes cosune transformed signal wird quantisiert
-> datenstrom wird formatiert
=> ausgabe entspricht aktuell Frequenzbereich
-> müsste dann wieder in zeitbereich transformiert werden…
Was ist das quelle filter model der sprachproduktion?
luftröhre und stimmritze sind schallquelle
rachen, mund, nasenhöle und gaumensegel sind filter die entsprecend den ton erzeugen
Was ist die anwendung von “cepstrum”?
trennung von quelle und filter in der sprachanalyse
-> i.e. was ist die “grundfrequenz” die aus dem rachen kommt?
=> sprechererkennung
=> spracherkennung
Wie übertragen wir das quelle filter model der sprachproduktion in die klassische signaltheorie?
modellieren der erzeugten sprache als gefaltetes signal von quellsignal (x(t)) und filter (h(t))
Was ist die Fragestellung von Cepstrum?
transformation von sprachsignal in frequenzbereich (reguläre FT)
-> welcher “peak” (i.e. frequenz) gehört zu der “Quelle”?
Wie trennt ceptstrum die “Quelle” im frequenzbereich?
betrachten der frequenz im logarithmischen (logarithmus des amplitudenspektrums; kann aber auch auf komplexem machen)
inverse fourier transformation darauf
-> entspricht unserem cepstrum
Wie sind quelle und filter im cepstrum verbinden?
additiv
-> dadurch kann man gewünschten teil (i.e. filter) subtrahieren…
Formels cepstrum
Zuletzt geändertvor einem Jahr