Was versteht man unter Natural Language Processing (NLP)?
die Verarbeitung natürlicher Sprache durch Computer
Bennen die drei Teilbereiche des NLP.
Spracherkennung: identifiziert Wörter in gesprochener Sprache und umfasst die Sprache-zu-Text-Umwandlung,
Sprachverständnis: extrahiert die Bedeutung von Wörtern und Sätzen sowie Leseverstehen und
Spracherzeugung: umfasst die Fähigkeit, sinnvolle Sätze und Texte zu erzeugen.
Welche beiden Persönlichkeiten trugen zur Forschunbg der Verarbeitung von natürlicher Sprache bei?
Welches Historische Ereignis verursachte ein erhöhtes Interesse in den 1950ern zur Entwicklung dieser Disziplin?
Descartes
Leibnitz
Geopolitische Spannungen zwischen den USA und der Sowjetunion
und die steigernde Nachfrage nach Englisch-Russisch-Übersetzer:innen.
Welche drei Entwicklungen führten zu einem erneuten Interesse an NLP?
Erhöhung der Rechenleistung: Ermöglicht die Verarbeitung größerer Mengen von Tainingsdaten.
Paradigmenwechsel: Nutzung neuer Sprachmodelle wie Entscheidungsbäume
Part-of-Speech-Tagging: Dabei wird der Text in kleinere Einheiten aufgeteilt.
Topic Identification (dt. Themenerkennung)
Womit beschäftigt sich die Topic Identification?
Mit der Aufgabe die Themen eines gegebenen TExtes automatisch zu erkennen.
Benenne beliebte Anwendungsfälle für Topic Identificaton.
Überwachung von sozialen Medien und Marken
Kundensupport
Marktforschung: herausfinden was die Kundschaft über eine Marke oder ein Prdukt denkt.
Text Summarization (dt. Textzusammenfassung)
Womit befasst sich die Text Summarization?
Text Summarization (Textzusammenfassung) ist ein Teilgebiet der künstlichen Intelligenz (KI) und Sprachverarbeitung.
Welche zwei Hauptarten der Textzusammenfassung gibt es?
Art
Erklärung
Beispiel
Extraktiv
Der Algorithmus nimmt wichtige Sätze oder Wörter direkt aus dem Originaltext und fügt sie zur Zusammenfassung zusammen.
„Maschinelles Lernen ist wichtig für Data Science.“
Abstraktiv
Der Algorithmus formuliert neue Sätze und schreibt den Inhalt mit eigenen Worten um.
„Data Science nutzt maschinelles Lernen, um Daten besser zu verstehen.“
Was ist TextRank?
TextRank ist ein bekannter Algorithmus für extraktive, unüberwachte Textzusammenfassungen. Das heißt:
Der Algorithmus braucht keine Trainingsdaten.
Er findet selbst heraus, welche Sätze im Text am wichtigsten sind.
Wie funktioniert TextRank?
Der Text wird in Sätze zerlegt.
Jeder Satz wird mit allen anderen verglichen.
Es wird berechnet, wie ähnlich sich die Sätze sind (z. B. gemeinsame Wörter).
Jeder Satz bekommt einen Punktwert (Rang) – je mehr Verbindungen zu anderen Sätzen, desto wichtiger ist er.
Die Sätze mit den höchsten Werten werden in die Zusammenfassung aufgenommen.
Bei überwachten Methoden wird ein Modell mit vielen Beispiel-Texten und ihren Zusammenfassungen trainiert.
Dabei gibt es aber zwei große Probleme:
Benne beide!
Trainingsdaten fehlen oft: Menschen fassen Texte meist frei und abstrakt zusammen – nicht wortwörtlich. So ist es schwer, passende Daten zu finden.
Subjektive Entscheidungen: Welche Infos wichtig sind, hängt vom Ziel ab.
In einer Produktbeschreibung: technische Details
In einer Marketing-Zusammenfassung: geschäftlicher Nutzen
Wofür wird Text Summarization genutzt?
Suchergebnisse: Kurze Vorschau des Inhalts
Nachrichten- oder Artikel-Zusammenfassungen
Fragebeantwortung: KI kann aus langen Texten gezielt Antworten ziehen
Zeitersparnis: Man kann große Mengen an Text schneller verstehen
Begriff
Bedeutung in einfachen Worten
Text Summarization
Automatische Erstellung kurzer Zusammenfassungen
Wichtige Sätze werden direkt aus dem Original übernommen
Der Text wird in eigenen Worten neu formuliert
TextRank
Algorithmus, der Sätze nach ihrer Wichtigkeit sortiert
Überwacht
Modell lernt aus markierten Beispielen
Unüberwacht
Modell findet Muster selbst, ohne Trainingsdaten
Ziel
Die wichtigsten Infos eines Textes schnell erfassen
Welche Information eines Textes erfasst die Sentiment-Analyse?
Sie erfasst subjektive Aspekte von Texten wie z.B.:
Die Analyse der Stimmung der verfassenden Person eines Tweets auf Twitter
Was ist der Hauptunterschied zwischen der Topic Identification und der Sentiment-Analyse?
Topic Identification:
Konzentration auf objektive Aspekte von einem Text
Sentiment-Analyse:
Konzentration auf subjektive Merkmale wie Stimmungen und Emotionen
Benenne einige Anwendungsbereiche der Sentiment-Analyse.
Die Analyse der Kundenstimmung:
Soziale Netzwerke liefern riesige Datenmengen
wie eine Kundschaft über ein Produkt denkt
Die Erkennung von Stimmungen in nutzergenerierten Inhalten geht mit großen Herausforderungen einher, wenn es um Ironie/Sarkasmus, Negation und Multipolarität geht.
In nutzergenerierten Inhalten taucht Sarkasmus immer wieder auf, besonders in den sozialen Medien.
Selbst für Menschen kann es manchmal schwierig sein, Sarkasmus zu erkennen, für eine Maschine ist es allerdings noch schwieriger.
Benenne drei Herausforderungen welche es nach wie vor einer Maschine schwer fällt diese in Texten als subjektive Inhalte zu verifizieren.
Sarkasmus,Ironie
Die Negation
Multipolarität: Einige Teile des Textes positiv und andere negativ.
Womit befasst sich die Named Entity Recognition?
Die Erkennung von Eigennamen befasst sich:
Benannte Entitäten in einem unstrukturierten TExt zu finden
Diese können:
Namen
Orten
Zeit und Datumsausdrücken
zugeordnet werden.
Wozu kann MT eingesezt werden?
MT kann sowohl für
Text-zu-Text-Übersetzungen als auch für
Sprache-zu-Sprache-Übersetzungen verwendet werden.
MT für Texte kann dazu beitragen,
Textdokumente oder Websites schneller zu übersetzen,
professionelle Übersetzende beim Beschleunigen des Übersetzungsprozesses zu unterstützen oder
als Teil eines Sprache-zu-Sprache-Übersetzungssystems zu dienen.
Was sind die beiden größten Herausforderungen in der MT?
Die Nichtübereinstimmung der Domäne sowie
sogenannte unterversorgt oder auch ressourcenschwache Sprachen
Eine Nichtübereinstimmung der Domäne bedeutet:
Dass Wörter und Sätze je nach Domäne unterschiedliche Übersetzungen haben können.
Für einige Sprachkombinationen in der MT gibt es keine zweisprachigen Textkorpora für Ausgangs- und Zielsprache, insbesondere wenn für die jeweiligen Sprachen nur wenige Textkorpora zur Verfügung stehen.
Welchen Ansatz gibt es um dieses Problem zu lösen?
Ein Ansatz zur Lösung des Problems der unterversorgten Sprachen ist die Verwendung von Pivot-MT.
Bei der Pivot-MT werden die Ausgangs- und die Zielsprache durch eine dritte Sprache überbrückt .
Wird zum Beispiel von Khmer (Kambodscha) nach Zulu (Südafrika) übersetzt, wird ein Text zunächst von Khmer nach Englisch und anschließend von Englisch nach Zulu übersetzt.
Was sind Chatbots?
Welcher war einer der ersten Chatbots?
Chatbots sind textbasierte Dialogsysteme,
die die interaktion mit einem Computer auf der Grundlage von Text in natürlicher Sprache ermöglichen.
Einer der ersten Chatbots war ELIZA:
Dieser imitierte einen Psychotherapeuten.
Wo werden Chatbots häufig eingesetzt?
in Messenger-Apps wie z.B.:
Facebook
Website-Chats
Sie bilden die Grundlage für digitale Assistenten wie:
Alexa
Siri
Google Assistant
Chatbots können nach ihrem Intelligenzgrad kategorisiert werden:
Benne die drei Stufen.
Benachrichtigungsassistenten (Stufe 1): Diese Chatbots interagieren lediglich unidirektional mit Benutzenden. Sie können für Benachrichtigungen über Ereignisse oder Aktualisierungen (d. h. Push-Benachrichtigungen) verwendet werden.
Assistenten für häufig gestellte Fragen (Stufe 2): Diese Bots können bidirektional mit Benutzenden interagieren. Sie können die Nutzeranfragen interpretieren und eine passende Antwort in einer Wissensbasis finden.
Kontextabhängige Assistenten (Stufe 3): Diese Chatbots können nicht nur bidirektional interagieren, sondern sind auch kontextabhängig und basieren auf dem Gesprächsverlauf.
Aus welchen drei Komponennten besteht ein Chatbot?
Natürliches Sprachverständnis (Natural Language Understanding, NLU): Diese Komponente analysiert den eingegebenen Text und identifiziert die Absicht und die Entitäten von Benutzenden (Benutzerinformationen).
Dialogverwaltungskomponente: Das Ziel dieser Komponente ist es, die vom NLU identifizierten Absichten und Entitäten im Kontext der Konversation zu interpretieren und die Reaktion des Bots zu bestimmen.
Nachrichtengeneratorkomponente: Basierend auf der Ausgabe der anderen Komponenten besteht die Aufgabe dieser Komponente darin, die Antwort des Chatbots zu generieren, indem sie entweder eine vordefinierte Vorlage ausfüllt oder einen freien Text erzeugt.
Chatbots können eine Menge Zeit und Geld sparen.
Die Zahl der Anwendungsfälle nimmt daher ständig zu. Sie sind normalerweise rund um die Uhr zu vergleichsweise geringen Kosten verfügbar und können bei Bedarf leicht skaliert werden.
Im Kundendienst können sie nicht nur die Anfragen der Kundschaft beantworten, sondern auch Produktempfehlungen geben oder Reisearrangements wie Hotel- oder Flugreservierungen vornehmen.
Wenn eine Anfrage zu kompliziert für einen Bot ist, gibt es in der Regel Schnittstellen, um Anfragen an ein menschliches Support-Team weiterzuleiten.
Bitte beachten Sie, dass bei offenen Fragen keine Überprüfung und Wertung möglich ist. Klicken Sie auf "Hint", um Ihre Antwort mit der Musterlösung zu vergleichen.
Der Turing-Test wurde entwickelt, um herauszufinden, ob ein Computer wie ein Mensch denken kann. Beim NLP kann er zum Beispiel verwendet werden, um die Fähigkeiten von Gesprächsagenten zu bewerten.
Benenne die 4 Grundlegenden Bearbeitungsschritte bei der Textverarbeitung.
Tokenisierung
Das Entfernen von Stoppwörtern
Die Lemantisierung
Das Stemming
Bevor NLP-Modelle verwendet werden können, müssen die Daten in ein Format konvertiert werden, das als Modelleingabe geeignet ist.
Was passiert im Vorverarbeitungsschritt der Tokenisierung?
Bei der Tokenisierung wird ein Text in kleinere Untereinheiten aufgeteilt,
die auch als Token bezeichnet werden.
Die Tokenisierung kann zum Beispiel durch Leerzeichen und Satzzeichen erfolgen.
Was passiert im Vorverarbeitungsschritt “Entfernen von Stoppwörtern?
Das Entfernen von Stoppwörtern eliminiert Wörter, die für eine bestimmte NLP-Aufgabe nur geringe Auswirkungen haben.
Typische Stoppwörter sind Artikel und Pronomen.
Es gibt handverlesene Wortlisten für verschiedene Sprachen, die häufig vorkommende Wörter in verschiedenen Textkorpora enthalten.
Was passiert im Vorverarbeitungsschritt Lemantisierung?
Bei der Lemmatisierung werden die Wörter eines Textes in ihre Grundform, das Lemma, umgewandelt.
Zum Beispiel würden die Wörter „gegangen“ und „ging“ alle zu dem Wort „gehen“ lemmatisiert werden.
Die Lemmatisierung erfordert oft Nachschlagetabellen und kann daher rechenintensiv sein.
Was passiert im Vorverarbeitungsschritt “Stemming”?
Stemming ist eine weitere Methode, um Wörter auf ihre Grundform zu reduzieren.
Im Gegensatz zur Lemmatisierung wird bei der Wortstammerkennung jedoch nur das Suffix (d. h. die letzten paar Zeichen) aus einem Wort entfernt, was manchmal zu falschen Ergebnissen führen kann.
Praktischer Exkurs: Textvorverarbeitung von Kundenrezensionen
Ein Unternehmen möchte ein System zur automatischen Analyse von Kundenrezensionen entwickeln. Damit die Kundenrezensionen von weiteren Algorithmen entsprechend verarbeitet werden können, müssten die Texte zunächst vorverarbeitet werden. Die oben erläuterten Schritte werden daher nun anhand des folgenden Satzes erläutert:
„Ich liebe dieses Produkt! Es ist unglaublich nützlich und funktioniert perfekt. Ich werde es definitiv weiterempfehlen.“
Bei der Tokenisierung anhand von Leerzeichen würde dieser Satz zu folgenden Tokens zerlegt werden:
[„Ich“, „liebe“, „dieses“, „Produkt!“, „Es“, „ist“, „unglaublich“, „nützlich“, „und“, „funktioniert“, „perfekt.“, „Ich“, „werde“, „es“, „definitiv“, „weiterempfehlen.“]
Ein Problem bei dieser einfachen Art der Tokenisierung ist, dass die Satzzeichen jeweils an den Wörtern hängen bleiben. Hier könnten beispielsweise
reguläre Ausdrücke
Abhilfe schaffen.
Im nächsten Schritt werden nun Stoppwörter entfernt. Das anschließende Ergebnis könnte wie folgt aussehen:
[„liebe“, „Produkt“, „unglaublich“, „nützlich“, „funktioniert“, „perfekt“, „werde“, „definitiv“, „weiterempfehlen“]
Anschließend wird die Wortliste mit Stemming auf die Wortstämme reduziert:
[„lieb“, „produkt“, „unglaublich“, „nutz“, „funktion“, „perfekt“, „werd“, „definitiv“, „weiterempfehl“]
Während Stemming die Liste auf die Wortstämme reduziert, würden mittels Lemmatisierung die Worte auf ihre Grundform (Lemma) zurückgeführt werden:
[„lieben“, „Produkt“, „unglaublich“, „nützlich“, „funktionieren“, „perfekt“, „werden“, „definitiv“, „weiterempfehlen“]
Nach dieser Vorverarbeitung können insbesondere häufig verwendete Begriffe in positiven oder negativen Kundenrezensionen identifiziert oder Kundenmeinungen gezielt analysiert werden.
Regelbasierte Techniken für NLP verwenden eine Reihe von vordefinierten Regeln, um ein bestimmtes Problem anzugehen. Diese Regeln versuchen, die Art und Weise zu reproduzieren, wie Menschen Sätze bilden.
Welches Hilfmittel wird oftmals in regelbasierten NLP-Techniken verwendet?
Reguläre Ausdrücke
um Aufgaben wie das Extrahieren von Daten aus Text auszuführen
Welche Programmiersprachen/Editoren sind in der Lage reguläre Ausdrücke zu verarbeiten?
Python
Java Script
Perl
Shell-Skripte
UNIX-Befehlszeile
Vim
Emacs
Was ist einer der größten Vorteile von regelbasierten Systemen?
Was ist der größte Nachteil?
Es ist die Erklärbarkeit
Da die Regeln von Menschen entworfen wurden, ist es einfach zu verstehen, wie eine Aufgabe bearbeitet wurde
und Fehler zu finden
Regelbasierte Systeme können flexibel entwicklet werden
Die Menge an Trainingsdaten ist vergleichweise gering
Der größte Nachteil ist:
Es werden Fachleute benötigt um Regeln zu erstellen
Was ist der Vorteil von statistikbasierten Systemen gegenüber regelbasierter Systemen?
Satistikbasierte Systeme benötigen kein Expertenwissen über die Domäne
Sie können leicht auf der Grundlage bestehender Methoden entwickelt werden
und durch Bereitstellung geeigneter Daten verbessert werden
Was ist der Nachteil von statistikbasierten Systemen gegenüber regelbasierter Systemen?
Ein Nachteil von Systemen, die auf statistischen Techniken des maschinellen Lernens beruhen, ist jedoch, dass
viele annotierte Trainingsdaten erforderlich sind, um gute Ergebnisse zu erzielen.
Regelbasierte Systeme können hingegen bereits mit wenigen Daten gute Leistungen erbringen
Zudem fehlt statistikbasierten Modellen oft die Erklärbarkeit, da sie Entscheidungen auf Grundlage komplexer mathematischer Zusammenhänge treffen, die nicht immer intuitiv nachvollziehbar sind.
Dies kann problematisch sein, wenn Transparenz und Nachvollziehbarkeit wichtig sind, beispielsweise in regulierten Bereichen wie dem Finanzwesen oder der Medizin.
In welche vier Kategorien lassen sich NLP-Aufgaben unterteilen?
Syntax
Semantik
Diskurs
gesprochene Sprache
Womit befassen sich Syntaktische Aufgaben im NLP?
Was sind dabei die Typischen Aufgaben?
Syntaktische Aufgaben im NLP befassen sich mit den Merkmalen der Sprache wie
Kategorien,
Wortgrenzen
und grammatikalischen Funktionen.
Typische Aufgaben, die sich mit der Syntax befassen, sind
die Tokenization und
das Part-of-Speech-(POS-)Tagging.
Typische Aufgaben, die sich mit der Syntax befassen, sind die Tokenization und das Part-of-Speech-(POS-)Tagging.
Was ist das Ziel der Tokenzitation?
Einen Text in einzelne Einheiten wie
Wörter
Sätze
und Unterworte zu zerlegen
Der Satz „Es macht mir Spaß, künstliche Intelligenz zu studieren.“ könnte zum Beispiel in „Es“ „macht“ „mir“ „Spaß“ „,“ „künstliche“ „Intelligenz“ „zu“ „studieren“ „.“ tokenisiert werden.
Was ist das Ziel vom POS-Tagging?
POS-Tagging – auch grammatikalisches Tagging genannt – geht noch einen Schritt weiter und fügt dem Text
grammatikalische Wortfunktionen
und Kategorien hinzu.
Das folgende Beispiel veranschaulicht, wie ein Satz mithilfe von POS-Tagging analysiert werden kann.
Was bedeutet Syntaktische Mehrdeutigkeit?
Nenne ein Beispiel.
Wörter, die sich nicht eindeutig einer Kategorie zuordnen lassen
Ein häufig verwendetes Beispiel für syntaktische Zweideutigkeit ist der englische Satz „Time flies like an arrow“,Zwei der möglichen Interpretationen sind:
Die Zeit fliegt wie ein Pfeil.
Es gibt einen bestimmten Pfeil, den jede „Zeitfliege“ („time fly“, dt. Insekt) mag.
Worin liegt der Schwerpunkt bei den semantischen Aufgaben?
Er liegt auf der Analyse der Bedeutung von
Wörtern und
Sätzen
Womit befasst sich der Diskurs?
Gib ein Beispiel aus der Wirtschaft
Er befasst sich mit zusammenhängenden Texten, die länger als ein einzelner Satz sind.
In der Wirtschaft wird die Diskursanalyse genutzt um:
Kommunikationsstrategien in Unternehmen zu optimieren oder Markttrends zu identifizieren.
Der Diskurs ist für Aufgaben wie die Erkennung von Themen (Topic Identification) und die automatische Textzusammenfassung (Text Summarization) relevant.
Wie geht er bei der Verarbeitung von Textdaten vor?
In welcher Branche werden solche Methoden genutzt?
Ein Algorithmus analysiert große Mengen an Textdaten und extrahiert die relevantesten Inhalte.
Solche Methoden werden in der Finanzbranche genutzt, um Berichte über Marktentwicklungen effizient zu verarbeiten
Die Analysie eines Diskurses umfasst mehrere Teilaufgaben.
Bennen die drei Teilaufgaben zur Analyse eines Diskurses.
Welche bekanntern Unternehmen nutzen solche Technicken, um ihre Produktangebote an Kundenbedürfnisse anzupassen?
Identifizierung der Themenstruktur
Die Analyse der Koreferenz:
Also die Verknüpfung von sprachlichen Ausdrücken,
die auf dasselbe Objekt oder dieselbe Person verweisen
Die Untersuchung der Gesprächsstruktur
Unternehmen wie Amazon und Zalando setzen solche Verfahren ein!
Gesprochene Sprache
Bei der letzten Gruppe von Aufgaben dreht sich alles um gesprochene Sprache (engl. Speech). Bei Sprachaufgaben können zwei Teilaufgaben unterschieden werden:
Benne beide:
Für wen ist die Spracherkennung wichtig?
Speech-to-Text (STT): wird auch als automatische Spracherkennung (automatic speech recognition, ASR) bezeichnet, wandelt gesprochene Sprache in Text um, und
Text-to-Speech (TTS, dt. Sprachsynthese): beschäftigt sich mit der Umwandlung eines geschriebenen Textes in gesprochene Sprache.
Die Spracherkennung ist wichtig als Schnittstelle zwischen Mensch und Maschine:
Wie z.B. Sprachassistenzsysteme wie Siri oder Alexa.
Bitte nenne die wichtigsten Kategorien für NLP-Aufgaben.
Im Machine Learning akzeptieren die Algorithmen nur numerische Eingaben.
Was muss getan werden um einen Weg zu finden damit eine Maschine einen Text verarbeiten kann?
Wenn Informationen aus einem unstrukturierten TExt extrahiert werden sollen, muss der Text in ein numerisches Format umgewandelt werden, das der Computer verarbeiten kann.
Welches ist einer der einfachsten Ansätze, textuelle Informationen in Zahlen umzuwandeln?
Das Bag-of-Words-Modell.
Das Bag-of-Words-Modell.(BoW)
Wie wird beim BoW ein Text dargestellt?
Beim BoW wird ein TExt durch einen Vektor dargestellt, der die Anzahl der Wortvorkommen in einem bestimmten TExtdokument beschreibt
Darren liebt Hunde.
Darren mag Katzen nicht.
Katzen sind nicht wie Hunde.
Tokenzitation: Darren, liebt, Hunde, Katzen, mag, nicht, sind, wie.
[1, 1, 1, 0, 0, 0, 0, 0]
[1, 0, 0, 1, 1, 1, 0, 0]
[0, 0, 1, 1, 0, 1, 1, 1]
Beschränkungen von Bag-of-Words
Alles in allem ist das BoW-Modell einfach, was einige große Nachteile mit sich bringt:
Bennen die drei Nachteile des BoW.
Auswahl des Vokabulars: Das Vokabular des Modells muss mit großer Sorgfalt ausgewählt werden. Das Gleichgewicht zwischen der Größe des Modells und der Besetzung muss immer im Auge behalten werden. Je größer das Vokabular ist, desto dünner besetzt sind die Vektoren.
Risiko dünner Besetzung (engl. Sparsity): Aus computertechnischen Gründen ist es schwieriger, eine dünnbesetzte Repräsentation von Daten zu modellieren, da die Komplexität von Zeit und Raum mit zunehmend dünnerer Besetzung steigt. Außerdem ist es schwieriger, die Daten zu nutzen, wenn nur wenige Informationen in einem großen Darstellungsraum enthalten sind.
Verlust von Bedeutung: Bei der Verwendung von BoW werden weder die Wortstellung noch der Kontext oder der Sinn berücksichtigt.
Um Wörter in einen semantischen Vektorraum einbetten zu können, können sie als Wortvektoren dargestellt werden. Lineare Operationen können angewandt werden, um Wortanalogien und Ähnlichkeiten zu finden.
Bennene drei Vektorisierungsmethoden.
Word2Vec
Term Frequency-Inverse Document Frequency
GloVe
Worauf basiert dieses Modell?
Wer veröffentlichte dieses Modell und wann?
Es basiert afuf einem einfachen neuronalen Netz.
Google Research veröffentlichte es 2013
Was erfodert Word2Vec zum training des neuronalen Netzes?
Gebe ein Beispiel dazu
Es erfordert einen großen Textkorpus
z.B. ein Wikipedia Speicherauszug
Welche zwei Vorhe
rsagemodelle gibt es bei Word2Vec?
Continuous Bag-of-Words (CBOW): Dieses Modell kann verwendet werden, wenn das Ziel darin besteht, ein fehlendes Wort in einem festen Fenster im Kontext der anderen Wörter vorherzusagen. Als Eingabevektor kann entweder der Durchschnitt oder die Summe des One-Hot-Vektors verwendet werden.
Skip-Gram: Wenn wir ein Wort innerhalb eines festen Fensters haben, können mit diesem Modell die verbleibenden Kontextwörter vorhergesagt werden.
Term Frequency-Inverse Document Frequency (TF-IDF)
Bei der Bag-of-Words-Methode (BoW) zählt man einfach, wie oft jedes Wort in einem Text vorkommt.Das Problem dabei ist: alle Wörter werden gleich wichtig behandelt, egal, ob sie etwas Besonderes aussagen oder nicht.
Wofür wird TF-IDF (Term Frequency – Inverse Document Frequency) genutzt?
Das ist eine klügere Methode, um herauszufinden, wie wichtig ein Wort für einen bestimmten Text ist.
TF (Term Frequency) misst, wie oft ein Wort in einem Text vorkommt. → Häufige Wörter im Text sind wahrscheinlich wichtig.
IDF (Inverse Document Frequency) misst, wie selten dieses Wort in allen Texten zusammen vorkommt. → Wörter, die überall vorkommen (z. B. „der“, „und“), sind weniger wichtig. → Wörter, die nur in wenigen Texten vorkommen, sind informativer.
Kurz gesagt:TF-IDF hilft dabei, die Wörter zu finden, die einen Text am besten beschreiben,anstatt einfach nur die häufigsten Wörter zu zählen.
Was gibt die Begriffshäufigkeit TF an?
Ist die Wortreihenfolge von Relevanz?
Wie lautet die Formel für TF?
Sie gibt an wie oft ein Begriff bzw. Term t in einem Dokumend d vorkommt.
Die Wortreihenfolge ist nicht von Relevanz
Was gibt die Dokumenthäufigkeit (DF) an?
Wie lautet die Formel für DF?
Die Dokumenthäufigkeit gibt den Prozentsatz der Dokumente an, die einen bestimmten Begriff t enthalten im Verhältnis zur Gesamtzahl der Dokumente D
Was gibt die inverse Dokumenthäufigkeit (IDF) an?
Wie lautet die Formel zu berechnung der IDF?
Die inverse Dokumenthäufigkeit testet die Relevanz eines bestimmten Begriffs.
Wie kann der endgültige TF-IDF-Wert für einen Begriff berechnet werden?
Wobei hilft der TF-IDF-Wert?
Was zeigt ein hoher TF-IDF-Wert an?
Der TF-IDF-Wert hilft, die Wichtigkeit von Wörtern in einem Dokument zu bestimmen.
Ein hoher Wert von TF-IDF zeigt an, dass ein Wort häufig in einem Dokument vorkommt.
Wofür steht die Abkürzung GloVe?
Sie steht für Global Vectors for word vectorization
(dt. globale Vektoren für die Wortdarstellung)
Wozu wird die Methode der Matrixvektorisierung verwendet?
Diese Methode wird verwendet, um eine Matrix in ihre Komponenten zu zerlegen und so komplexe Verfahren zu vereinfachen.
Benenne zwei Modelle zu Vektorisierung von Sätzen.
Bekannte Modelle zu Vektorisierung von Sätzen sind:
Skip-Thought
Universal Sentence Encoder (USE)
Es gibt verschiedene Methoden, um ganze Sätze in Zahlen (Vektoren) umzuwandeln, damit Computer ihre Bedeutung besser verstehen können. Zwei bekannte Modelle dafür sind
Erklägre wie Skip-Thought funktioniert
Skip-Thought ist eine Erweiterung von Word2Vec, aber statt einzelne Wörter betrachtet es ganze Sätze.
Das Modell wird mit vielen Texten trainiert.
Es schaut sich drei aufeinanderfolgende Sätze an: den vorherigen, den aktuellen und den nächsten.
Der mittlere Satz wird als Eingabe genommen, und das Modell versucht, die anderen Sätze vorherzusagen.
Dadurch lernt es, die Bedeutung eines Satzes zu verstehen.
Nach dem Training kann man den Vektor (Zahlenrepräsentation) des Encoders nutzen, um die Bedeutung eines Satzes weiterzuverwenden.
Skip-Thought und USE sind zwei Methoden, um Sätze so in Zahlen umzuwandeln,dass Computer deren Bedeutung erkennen können.
Skip-Thought lernt durch das Vorhersagen benachbarter Sätze,
USE nutzt vortrainierte Netzwerke von Google, um schnell und effizient Satzbedeutungen zu erfassen.
Erkläre wie Universal Sentence Encoder funktioniert
Der Universal Sentence Encoder (USE) wurde von Google entwickelt.
Er wandelt Sätze in Vektoren um, die ihre Bedeutung widerspiegeln.
Google stellt fertig trainierte Modelle zur Verfügung – ein englisches und ein mehrsprachiges Modell.
Bitte nenne drei Methoden zur Wortvektorisierung.
TD-IDF
Es steht eine breite Palette von NLP-Modellen zur Verfügung, die verschiedene Methoden für Vorhersage- und Klassifikationsaufgaben verwenden. Diese Modelle können grob in zwei Gruppen eingeteilt werden:
Benenne beide.
Statistische Modelle
neuronale Modelle
Statistische Sprachmodelle versuchen, Sprache mit Hilfe von Wahrscheinlichkeiten zu beschreiben.
Sie berechnen also, wie wahrscheinlich bestimmte Wörter oder Zeichen in einem Text vorkommen.
Auf welcher Ebene arbeiten diese?
Benenne drei Tätigkeiten in denen Statistische Modelle helfen.
Meistens arbeiten sie dabei auf der Wortebene
Tätigkeiten in denen solche modelle helfen:
Autovervollständigung
Rechtschreibprüfung
Erkennung von Namen (NER = Named Entity Recognition)
Was sind N-Gramme und wie funktionieren diese?
Ein N-Gramm ist eine einfache Form eines statistischen Sprachmodells. Es schaut sich Gruppen von aufeinanderfolgenden Wörtern an:
1-Gramm (Unigramm): ein einzelnes Wort, z. B. „Hallo“
2-Gramm (Bigramm): zwei Wörter hintereinander, z. B. „Hallo Welt“
3-Gramm (Trigramm): drei Wörter hintereinander, z. B. „Es läuft gut“
Statistische Modelle — besonders N-Gramme — nutzen Wahrscheinlichkeiten, um vorherzusagen,
welches Wort als nächstes erscheint.
Sie bilden die Grundlage für viele einfache NLP-Aufgaben wie Autovervollständigung oder Rechtschreibprüfung.
In den letzten Jahren haben neuronale Modelle für NLP stark an Popularität gewonnen.
Auf welchen Deep-Learning-Architekturen basieren diese Modelle?
Diese Modelle basieren auf:
Recurrent Neural Networks (RNNs)
Convolutional Neural Networks (CNNs)
Wofür werden RNNs genutzt und wir funktionieren diese?
RNNs können sich vorherige Informationen merken
und dadurch die Reihenfolge von Wörtern verstehen.
Das macht sie ideal für Sprachverarbeitung,
Was ist der Nachteil von RNNs gegenüber von CNNs?
Ein Nachteil von RNNs ist, dass sie nicht gut parallel arbeiten können.
Das bedeutet:
Sie müssen Wort für Wort nacheinander verarbeiten,was das Training langsamer macht als bei CNNs.
Wofür werden CNNs genutzt?
CNNs sind spezielle Neuronale Netze, die ursprünglich für
Bildverarbeitung entwickelt wurden,aber auch
in der Sprachverarbeitung / Texten (NLP) nützlich sind.
Die Encoder-Decoder-Architektur
Viele moderne Deep-Learning-Modelle (also neuronale Netze) nutzen eine sogenannte Encoder-Decoder-Struktur.
Sie besteht – wie der Name schon sagt – aus zwei Teilen: Encoder und Decoder.
Wie funktioniert diese Architektur?
Die Encoder-Decoder-Architektur funktioniert wie ein Verständnis- und Wiedergabe-System:
Encoder: versteht und verdichtet die Eingabe,
Decoder: erzeugt daraus wieder einen sinnvollen Text oder eine andere Ausgabe.
Transformer-Modelle
Transformer-Modelle wurden 2017 von Google vorgestelltund gelten heute als eine der wichtigsten Technologien in der Sprachverarbeitung (NLP).
Welche bekannte Systeme basieren auf Transformer-Modellen?
ChatGPT
BERT
T5
Transformer sind eine spezielle Form der Encoder-Decoder-Architektur(also zwei Teile: einer liest den Text, der andere erzeugt die Ausgabe).
Worauf basiert der große Unterschied zu älteren Modellen wie RNNs oder CNNs?
Und was bedeutet das in der Praxis?
Der große Unterschied nennt sich “Selbstaufmerksamkeit”
durch Selbstaufmerksamkeit kann der Zusammenhang zwischen Wörtern besser verstanden werden.
Erkläre das System der Selbstaufmerksamkeit genauser mit einem Beispiel.
Der Self-Attention-Mechanismus erlaubt dem Modell, bei jedem Wort im Satz auf andere Wörter zu achten, die wichtig für die Bedeutung sind.
Beispiel:
Satz: „Ich bin von München nach Berlin gezogen, weil es mir dort gefällt.“ → Das Modell erkennt, dass sich „dort“ auf „Berlin“ bezieht.
Satz: „Ich bin von München nach Berlin gezogen, weil es mir dort nicht gefallen hat.“ → Hier bezieht sich „dort“ auf „München“.
Das Modell lernt also Zusammenhänge, egal wie weit Wörter voneinander entfernt sind. Das war bei älteren Modellen wie RNNs oft ein Problem.
Da Transformer nicht der Reihenfolge nach (wie RNNs) arbeiten,müssen sie wissen, an welcher Stelle ein Wort im Satz steht.
Welchen Trick nutzen Transformer-Modelle damit sie wissen an welcher Stelle ein Wort im Satz steht?
Dafür gibt es sogenannte Positionscodierungen (Positional Encodings).
Sie geben jedem Wort eine Art Positionsnummer,damit das Modell versteht, in welcher Reihenfolge die Wörter stehen.
Was sind die Vorteile von Transformer-Modellen?
Benenne drei.
🔹 Verstehen lange Abhängigkeiten im Text (z. B. Bezüge über mehrere Wörter hinweg)
🔹 Schneller zu trainieren als RNNs, weil viele Berechnungen parallel ablaufen
🔹 Sehr hohe Genauigkeit bei Aufgaben wie Übersetzung, Textverständnis oder Textgenerierung
Transformer-Modelle sind moderne KI-Modelle,die durch
Selbstaufmerksamkeit den Zusammenhang zwischen Wörtern besser verstehen können.
Sie sind schneller, präziser und bilden die Grundlage vieler heutiger Sprach-KI-Systeme.
Vortrainierte Modelle
Die Transformer-Architektur hat die Sprachverarbeitung (NLP) grundlegend verändert.Sie bildet die Basis für viele moderne KI-Modelle, die vortrainiert sind – also schon viel Wissen über Sprache mitbringen, bevor sie für eine bestimmte Aufgabe eingesetzt werden.
Was sind vortainierte Modelle?
Was müssen sie lernen damit sie funktionieren?
Statt jedes Mal ein Modell von Grund auf neu zu trainieren, werden vortrainierte Modelle auf riesigen Textmengen trainiert.
Dabei lernen sie allgemeine Sprachmuster, zum Beispiel:
welche Wörter oft zusammen vorkommen,
wie Sätze aufgebaut sind,
und welche Bedeutungen Wörter in verschiedenen Kontexten haben.
Das spart Zeit, Rechenleistung und Daten –und liefert trotzdem Ergebnisse auf höchstem Niveau.
Benenne fünf bekannte Vortainierte Modelle.
BERT – Bidirectional Encoder Representations from Transformers (liest Texte in beide Richtungen – vorwärts und rückwärts)
GPT – Generative Pretrained Transformer (generiert neuen Text, z. B. wie ChatGPT)
RoBERTa – eine verbesserte Version von BERT
DistilBERT – eine kleinere, schnellere Version von BERT
XLNet – kombiniert Ideen von BERT und anderen Modellen, um noch flexibler zu lernen
BERT ist eines der bekanntesten vortainierten Modelle.
Von wem wurde es entwickelt
Welche zwei Lernmethoden nutzt es um auf riesigen Textsammlungen zu trainieren?
Es wurde von Google entwickelt
Lernmethoden:
Maskiertes Sprachmodell (Masked Language Modeling)
Vorhersage des nächsten Satzes (Next Sentence Prediction)
Beide Aufgaben werden gleichzeitig trainiert,damit BERT ein tiefes Verständnis für Wörter, Sätze und Zusammenhänge entwickelt.
Wofür wird BERT genutzt?
BERT wird in vielen Bereichen eingesetzt, z. B.:
🔎 Suchmaschinen (z. B. Google Search): versteht Suchanfragen besser und liefert passendere Ergebnisse.
💬 Kundenservice: hilft Chatbots, Anfragen genauer zu verstehen.
💰 Finanzwelt: analysiert Berichte oder Markttexte.
🏥 Medizin: unterstützt bei Dokumentation und Textanalyse.
📊 Meinungsanalyse: erkennt Stimmungen in Bewertungen oder Social-Media-Beiträgen.
Vortrainierte Modelle wie BERT oder GPT haben gelernt,
Sprache allgemein zu verstehen,und können anschließend mit wenig zusätzlichem Training für viele Aufgaben angepasst werden.
Das macht sie schnell, flexibel und äußerst leistungsstark –ein Grund, warum sie heute die Grundlage moderner KI-Systeme bilden.
Erläutere die grundlegende Funktionsweise der Encoder-Decoder-Architektur.
In einer Encoder-Decoder-Architektur:
wandelt der Encoder den Eingabetext in einen Vektor um, der alle wichtigen Informationen aus der Eingabesequenz kapselt.
Der Decoder nimmt dann die Informationen aus dem codierten Vektor und wandelt sie wieder in die ursprüngliche Darstellung um.
Last changed23 days ago