Was ist Natural Language Processing (NLP) und welche Herausforderungen gibt es?
NLP: Feld der Sprachinteraktion zwischen Computer und Mensch.
Ziel: Algorithmen für Verständnis und Generierung von Sprache.
Herausforderungen:
Ambiguität: Mehrdeutige Sprache.
Polysemie: Kontextabhängige Wortbedeutungen.
Syntax/Grammatik: Satzstrukturanalyse.
Kulturelle Differenzen: Sprachvariabilität.
Was sind Methoden der Textnormalisierung?
Lowercasing: Alle Buchstaben klein schreiben, reduziert Variationen durch Groß-/Kleinschreibung.
Stemming: Entfernen von Wortendungen (Affixen), vereinfacht Wortformen.
Lemmatization: Wörter auf Grundform (Lemma) zurückführen, basierend auf Wörterbuchform.
Entfernen von Stop-Wörtern: Unwichtige Wörter (z.B. "the", "a", "and") entfernen, die wenig Bedeutung tragen.
Was ist Tokenization im Bereich der Textverarbeitung?
Tokenization: Zerlegung von Text in kleinere Einheiten (Tokens) wie Zeichen, Wörter, Phrasen oder Sätze.
Ziel: Text in sinnvolle Einheiten gliedern, die semantische und syntaktische Elemente der Sprache erfassen.
Vokabular VV: Einzigartige Token-Sammlung aus Trainingsdaten.
Anwendung: Sprachmodelle verarbeiten Text auf Token-Ebene.
Was ist Whitespace Tokenization?
Spaltet den Text in Whitespace-Zeichen
Spaces, tabs, newlines
Bsp: Input: “The students are closely following the lecture”
Token output: [“The”, “students”, “are”, “closely”, “following”, ”the”, “lecture”]
Problem: Wörter die nicht im Vokabular sind (außerhalb des Trainingsdatensatz)
Was versteht man unter Byte-Pair Encoding (BPE) Tokenization?
Frage: Was versteht man unter Byte-Pair Encoding (BPE) Tokenization?
Antwort:
BPE Tokenization: Datengesteuerte Methode, um Text in Tokens zu unterteilen.
Subwords: Kleinere Token-Einheiten als Wörter, wie Morpheme (z.B. "-bar", "-los").
Vorteil: Kann unbekannte Wörter verarbeiten.
Komponenten:
Token-Lerner: Erstellt aus Trainingskorpus ein Vokabular VV von Token.
Token-Segmentierer: Zerlegt Sätze in Token-Sequenzen.
Frage: Was ist Textrepräsentation und welche Anforderungen stellt sie?
Textrepräsentation: Umwandlung von Text in maschinenverständliche Form.
Anforderung: Muss Wortbedeutung kodieren.
Definition (laut Webster): Die durch Wort, Phrase usw. repräsentierte Idee.
Linguistisches Konzept: Sign
ifikant (Symbol) verweist auf Signifikat (Idee oder Ding), z.B. das Symbol "Baum" für das Konzept eines Baumes
Welche covered Methods gibt es?
Naïve approach
One-Hot encoding
Static embeddings
Word2Vec
One-Hot Encoding erklären:
können keine ähnlichkeit encoden —> deshalb sehr rechenaufwändig
Was ist die Distributional hypthesis?
Die Bedeutung eines Wortes ergibt sich aus den Wörtern, die häufig in der Nähe des Wortes vorkommen
Durch die Menge an Wörter, die sich in der nähe befinden wird die Bedeutung bestimmt
Was sind Wordvektoren?
Wenn Wörter gleich sind soll das Skalarprodukt 1 sein.
Wortvektoren: Numerische Darstellung von Wörtern im Vektorraum.
Ziel: Erstellen eines dichten Vektors für jedes Wort, ähnlich zu Vektoren von kontextuell ähnlichen Wörtern, gemessen durch das Skalarprodukt.
Konzept: Wörter als Punkte im mehrdimensionalen semantischen Raum repräsentieren, basierend auf der Verteilung der Nachbarwörter.
Anmerkung: Wortvektoren werden auch als Einbettungen (embeddings) bezeichnet, da Wörter in einen kontinuierlichen Vektorraum eingebettet werden
Was ist Word2Vec und wie funktioniert es?
Word2Vec: Methode zum Lernen dichter Wort-Einbettungen, die semantische und syntaktische Beziehungen erfassen.
Training: Ein flaches neuronales Netzwerk mit einer versteckten Schicht, um Wörter vorherzusagen.
CBOW (Continuous Bag-of-Words): Vorhersage des Zentralworts anhand des Kontexts.
Skip-Gram: Vorhersage von Kontextwörtern basierend auf einem Zentralwort.
Ergebnis: Wort-Einbettungen als Nebenprodukt des Lernprozesses, repräsentiert durch die Gewichtungen W1/W2W1/W2 der Lernschicht.
Vektoren addieren und Mittelwert nehmen
Egal ob man die Gewichte von w1 oder w2 nimmt.
Was ist Sprachmodellierung? (language modeling)
Sprachmodellierung: Vorhersage des nächsten Tokens in einer Sequenz.
Formal: Berechnung der bedingten Wahrscheinlichkeit für das nächste Token xtxt, gegeben eine Sequenz von Tokens x1,x2,...,xt−1x1,x2,...,xt−1.
Vokabular VV: Sammlung möglicher Tokens.
Kontext in NLP: Vorherige Tokens, die zur Vorhersage verwendet werden.
Sprachmodell: System zur Durchführung der Sprachmodellierung.
Was ist das n-gram Language Model und was sind die Grenzen?
Before deep learning, n-gram language models where the model of choice!
Rest wahrscheinlichkeitsrechnung.
Text ist inkohärent für kleine 𝑛
Mit zunehmendem 𝑛 verschlimmert sich das Sparsamkeitsproblem und erhöht sich die Modellgröße
Die Wahrscheinlich-keitstabelle umfasst 𝑉 / Einträge, wobei 𝑉 ≈ 30.000
Riesengroßer Speicher und Korpora (Trainingssätze) sind erforderlich (viele lange Sätze sind sehr selten)
Begrenzter historischer Kontext und Parameter wachsen exponentiell
Was ist der Unterschied zwischen Feedforward- und Recurrent Neural Networks (RNNs)?
Feedforward Neural Networks: Zustandslos, berücksichtigen nur den aktuellen Input xtxt für den Output y^ty^t.
Recurrent Neural Networks (RNNs): Zustandsbehaftet, rekurrente Verbindungen (Schleifen) berücksichtigen nicht nur den aktuellen Input xtxt,
sondern auch einen verborgenen Zustand htht, der vergangene Inputs zusammenfasst, für den Output y^ty^t.
Was sind die Hauptfunktionen von rekurrenten neuronalen Netzwerken (RNNs)?
RNNs: Aktualisieren den internen Zustand aus aktuellem Input und vorherigem Zustand.
Verborgener Zustand: "Gedächtnis" des Netzwerks, fasst bisherige Inputs zusammen.
Verarbeitung: Geeignet für Sequenzen unterschiedlicher Länge mit konstanten Parametern.
Gleichungen: ht=f_(ht−1,xt)ht=f(ht−1,xt), yt=f(ht)yt=f(ht), wobei ff die Aktualisierungsfunktion ist.
Was ist besser an der LSTM wie an der RNNs
Die LSTM-Architektur macht es für ein RNN viel einfacher, Informationen über viele Zeitschritte hinweg zu erhalten
Zeitschritte sind größer bei LSTM
Welche Decoding Möglichkeiten gibt es und was ist Decoding?
Beschreibt den Prozess der Generierung von menschenlesbarem Text aus einer maschinenlesbaren Darstellung (z. B. einer Folge von Symbolen oder Zahlenwerten)
Greedy Decoding —> Problem: Token ist nur lokal optimal aber evtl. nicht langfr. die beste Wahl
Exhaustive Search Decoding
Beam Search Decoding: Jedem Dekodierungsschritt werden die 𝑘 wahrscheinlichsten (höchste Punktzahl) Teilübersetzungen (die wir Hypothesen nennen) festgehalten.
Was sind Long Short-Term Memory RNNs (LSTMs) und wozu dienen sie?
LSTMs: Erweiterung von RNNs gegen das Problem verschwindender Gradienten.
Zellzustand: Speichert langfristige Informationen, ähnlich RAM in Computern.
Verborgener Zustand: Kurzfristiges Gedächtnis des Netzwerks.
Tore/Gates: Filtern von Informationen, bestimmen, was gelesen, gelöscht oder geschrieben wird.
Funktionsweise: Tore können vollständig öffnen (1), schließen (0) oder Zwischenwerte annehmen, abhängig vom Kontext.
Welche Anforderungen gibt es bei der Textgenerierung je nach Aufgabenstellung?
Textgenerierung: Abhängig von der Aufgabe variieren die Anforderungen an den Output.
Eingeschränkte Generierung: Output wird größtenteils durch den Input bestimmt (z.B. Maschinenübersetzung, Textzusammenfassung).
Offene Generierung: Output hat hohe Variationsfreiheit (z.B. Story-Generierung, Chit-Chat-Dialoge).
Schlussfolgerung: Unterschiedliche Aufgaben benötigen spezifische Dekodierungs-/Trainingstechniken.
Zuletzt geändertvor 10 Monaten