by Mathäus

Was versteht man unter Natural Language Processing (NLP)?

die Verarbeitung natürlicher Sprache durch Computer

Einführung in NLP und Anwendungsbereiche

Bennen die drei Teilbereiche des NLP.

Spracherkennung: identifiziert Wörter in gesprochener Sprache und umfasst die Sprache-zu-Text-Umwandlung,
Sprachverständnis: extrahiert die Bedeutung von Wörtern und Sätzen sowie Leseverstehen und
Spracherzeugung: umfasst die Fähigkeit, sinnvolle Sätze und Texte zu erzeugen.

Historische Entwicklung

Welche beiden Persönlichkeiten trugen zur Forschunbg der Verarbeitung von natürlicher Sprache bei?

Welches Historische Ereignis verursachte ein erhöhtes Interesse in den 1950ern zur Entwicklung dieser Disziplin?

Descartes
Leibnitz

Geopolitische Spannungen zwischen den USA und der Sowjetunion

und die steigernde Nachfrage nach Englisch-Russisch-Übersetzer:innen.

Welche drei Entwicklungen führten zu einem erneuten Interesse an NLP?

Erhöhung der Rechenleistung: Ermöglicht die Verarbeitung größerer Mengen von Tainingsdaten.
Paradigmenwechsel: Nutzung neuer Sprachmodelle wie Entscheidungsbäume
Part-of-Speech-Tagging: Dabei wird der Text in kleinere Einheiten aufgeteilt.

Anwendungsbereiche von NLP

Topic Identification (dt. Themenerkennung)

Womit beschäftigt sich die Topic Identification?

Mit der Aufgabe die Themen eines gegebenen TExtes automatisch zu erkennen.

Anwendungsbereiche von NLP

Topic Identification (dt. Themenerkennung)

Womit beschäftigt sich die Topic Identification?

Mit der Aufgabe die Themen eines gegebenen TExtes automatisch zu erkennen.

Benenne beliebte Anwendungsfälle für Topic Identificaton.

Überwachung von sozialen Medien und Marken
Kundensupport
Marktforschung: herausfinden was die Kundschaft über eine Marke oder ein Prdukt denkt.

Anwendungsbereiche von NLP

Text Summarization (dt. Textzusammenfassung)

Womit befasst sich die Text Summarization?

🔹 Was bedeutet Text Summarization?

Text Summarization (Textzusammenfassung) ist ein Teilgebiet der künstlichen Intelligenz (KI) und Sprachverarbeitung.

Anwendungsbereiche von NLP

Text Summarization (dt. Textzusammenfassung)

Welche zwei Hauptarten der Textzusammenfassung gibt es?

Art	Erklärung	Beispiel
Extraktiv	Der Algorithmus nimmt wichtige Sätze oder Wörter direkt aus dem Originaltext und fügt sie zur Zusammenfassung zusammen.	„Maschinelles Lernen ist wichtig für Data Science.“
Abstraktiv	Der Algorithmus formuliert neue Sätze und schreibt den Inhalt mit eigenen Worten um.	„Data Science nutzt maschinelles Lernen, um Daten besser zu verstehen.“

Anwendungsbereiche von NLP

Text Summarization (dt. Textzusammenfassung)

Was ist TextRank?

TextRank

TextRank ist ein bekannter Algorithmus für extraktive, unüberwachte Textzusammenfassungen. Das heißt:

Der Algorithmus braucht keine Trainingsdaten.
Er findet selbst heraus, welche Sätze im Text am wichtigsten sind.

Anwendungsbereiche von NLP

Text Summarization (dt. Textzusammenfassung)

Wie funktioniert TextRank?

So funktioniert TextRank:

Der Text wird in Sätze zerlegt.
Jeder Satz wird mit allen anderen verglichen.
Es wird berechnet, wie ähnlich sich die Sätze sind (z. B. gemeinsame Wörter).
Jeder Satz bekommt einen Punktwert (Rang) – je mehr Verbindungen zu anderen Sätzen, desto wichtiger ist er.
Die Sätze mit den höchsten Werten werden in die Zusammenfassung aufgenommen.

Überwachte Textzusammenfassung

Bei überwachten Methoden wird ein Modell mit vielen Beispiel-Texten und ihren Zusammenfassungen trainiert.

Dabei gibt es aber zwei große Probleme:

Benne beide!

Trainingsdaten fehlen oft: Menschen fassen Texte meist frei und abstrakt zusammen – nicht wortwörtlich. So ist es schwer, passende Daten zu finden.
Subjektive Entscheidungen: Welche Infos wichtig sind, hängt vom Ziel ab.
- In einer Produktbeschreibung: technische Details
- In einer Marketing-Zusammenfassung: geschäftlicher Nutzen

Wofür wird Text Summarization genutzt?

Suchergebnisse: Kurze Vorschau des Inhalts
Nachrichten- oder Artikel-Zusammenfassungen
Fragebeantwortung: KI kann aus langen Texten gezielt Antworten ziehen
Zeitersparnis: Man kann große Mengen an Text schneller verstehen

Kurz zusammengefasst:

Begriff	Bedeutung in einfachen Worten
Text Summarization	Automatische Erstellung kurzer Zusammenfassungen
Extraktiv	Wichtige Sätze werden direkt aus dem Original übernommen
Abstraktiv	Der Text wird in eigenen Worten neu formuliert
TextRank	Algorithmus, der Sätze nach ihrer Wichtigkeit sortiert
Überwacht	Modell lernt aus markierten Beispielen
Unüberwacht	Modell findet Muster selbst, ohne Trainingsdaten
Ziel	Die wichtigsten Infos eines Textes schnell erfassen

Sentiment-Analyse (dt. Stimmungsanalyse)

Welche Information eines Textes erfasst die Sentiment-Analyse?

Sie erfasst subjektive Aspekte von Texten wie z.B.:
- Die Analyse der Stimmung der verfassenden Person eines Tweets auf Twitter

Sentiment-Analyse (dt. Stimmungsanalyse)

Was ist der Hauptunterschied zwischen der Topic Identification und der Sentiment-Analyse?

Topic Identification:
- Konzentration auf objektive Aspekte von einem Text
Sentiment-Analyse:
- Konzentration auf subjektive Merkmale wie Stimmungen und Emotionen

Sentiment-Analyse (dt. Stimmungsanalyse)

Benenne einige Anwendungsbereiche der Sentiment-Analyse.

Die Analyse der Kundenstimmung:
- Soziale Netzwerke liefern riesige Datenmengen
  wie eine Kundschaft über ein Produkt denkt

Sentiment-Analyse (dt. Stimmungsanalyse)

Die Erkennung von Stimmungen in nutzergenerierten Inhalten geht mit großen Herausforderungen einher, wenn es um Ironie/Sarkasmus, Negation und Multipolarität geht.

In nutzergenerierten Inhalten taucht Sarkasmus immer wieder auf, besonders in den sozialen Medien.

Selbst für Menschen kann es manchmal schwierig sein, Sarkasmus zu erkennen, für eine Maschine ist es allerdings noch schwieriger.

Sentiment-Analyse (dt. Stimmungsanalyse)

Benenne drei Herausforderungen welche es nach wie vor einer Maschine schwer fällt diese in Texten als subjektive Inhalte zu verifizieren.

Sarkasmus,Ironie
Die Negation
Multipolarität: Einige Teile des Textes positiv und andere negativ.

Named Entity Recognition (NER)

Womit befasst sich die Named Entity Recognition?

Die Erkennung von Eigennamen befasst sich:
- Benannte Entitäten in einem unstrukturierten TExt zu finden
Diese können:
- Namen
- Orten
- Zeit und Datumsausdrücken
zugeordnet werden.

Machine Translation (MT, dt. maschinelle Übersetzung)

Wozu kann MT eingesezt werden?

MT kann sowohl für

Text-zu-Text-Übersetzungen als auch für
Sprache-zu-Sprache-Übersetzungen verwendet werden.

MT für Texte kann dazu beitragen,

Textdokumente oder Websites schneller zu übersetzen,
professionelle Übersetzende beim Beschleunigen des Übersetzungsprozesses zu unterstützen oder
als Teil eines Sprache-zu-Sprache-Übersetzungssystems zu dienen.

Machine Translation (MT, dt. maschinelle Übersetzung)

Was sind die beiden größten Herausforderungen in der MT?

Die Nichtübereinstimmung der Domäne sowie
sogenannte unterversorgt oder auch ressourcenschwache Sprachen

Eine Nichtübereinstimmung der Domäne bedeutet:

Dass Wörter und Sätze je nach Domäne unterschiedliche Übersetzungen haben können.

Machine Translation (MT, dt. maschinelle Übersetzung)

Für einige Sprachkombinationen in der MT gibt es keine zweisprachigen Textkorpora für Ausgangs- und Zielsprache, insbesondere wenn für die jeweiligen Sprachen nur wenige Textkorpora zur Verfügung stehen.

Welchen Ansatz gibt es um dieses Problem zu lösen?

Ein Ansatz zur Lösung des Problems der unterversorgten Sprachen ist die Verwendung von Pivot-MT.

Bei der Pivot-MT werden die Ausgangs- und die Zielsprache durch eine dritte Sprache überbrückt .
Wird zum Beispiel von Khmer (Kambodscha) nach Zulu (Südafrika) übersetzt, wird ein Text zunächst von Khmer nach Englisch und anschließend von Englisch nach Zulu übersetzt.

Chatbots

Was sind Chatbots?

Welcher war einer der ersten Chatbots?

Chatbots sind textbasierte Dialogsysteme,
die die interaktion mit einem Computer auf der Grundlage von Text in natürlicher Sprache ermöglichen.

Einer der ersten Chatbots war ELIZA:

Dieser imitierte einen Psychotherapeuten.

Chatbots

Wo werden Chatbots häufig eingesetzt?

in Messenger-Apps wie z.B.:
- Facebook
- Website-Chats
Sie bilden die Grundlage für digitale Assistenten wie:
- Alexa
- Siri
- Google Assistant

Chatbots

Chatbots können nach ihrem Intelligenzgrad kategorisiert werden:

Benne die drei Stufen.

Benachrichtigungsassistenten (Stufe 1): Diese Chatbots interagieren lediglich unidirektional mit Benutzenden. Sie können für Benachrichtigungen über Ereignisse oder Aktualisierungen (d. h. Push-Benachrichtigungen) verwendet werden.
Assistenten für häufig gestellte Fragen (Stufe 2): Diese Bots können bidirektional mit Benutzenden interagieren. Sie können die Nutzeranfragen interpretieren und eine passende Antwort in einer Wissensbasis finden.
Kontextabhängige Assistenten (Stufe 3): Diese Chatbots können nicht nur bidirektional interagieren, sondern sind auch kontextabhängig und basieren auf dem Gesprächsverlauf.

Chatbots

Aus welchen drei Komponennten besteht ein Chatbot?

Natürliches Sprachverständnis (Natural Language Understanding, NLU): Diese Komponente analysiert den eingegebenen Text und identifiziert die Absicht und die Entitäten von Benutzenden (Benutzerinformationen).
Dialogverwaltungskomponente: Das Ziel dieser Komponente ist es, die vom NLU identifizierten Absichten und Entitäten im Kontext der Konversation zu interpretieren und die Reaktion des Bots zu bestimmen.
Nachrichtengeneratorkomponente: Basierend auf der Ausgabe der anderen Komponenten besteht die Aufgabe dieser Komponente darin, die Antwort des Chatbots zu generieren, indem sie entweder eine vordefinierte Vorlage ausfüllt oder einen freien Text erzeugt.

Chatbots können eine Menge Zeit und Geld sparen.

Die Zahl der Anwendungsfälle nimmt daher ständig zu. Sie sind normalerweise rund um die Uhr zu vergleichsweise geringen Kosten verfügbar und können bei Bedarf leicht skaliert werden.

Im Kundendienst können sie nicht nur die Anfragen der Kundschaft beantworten, sondern auch Produktempfehlungen geben oder Reisearrangements wie Hotel- oder Flugreservierungen vornehmen.

Wenn eine Anfrage zu kompliziert für einen Bot ist, gibt es in der Regel Schnittstellen, um Anfragen an ein menschliches Support-Team weiterzuleiten.

Bitte erläutere den Zweck des Turing-Tests und seinen Bezug zum NLP.

Bitte beachten Sie, dass bei offenen Fragen keine Überprüfung und Wertung möglich ist. Klicken Sie auf "Hint", um Ihre Antwort mit der Musterlösung zu vergleichen.

Der Turing-Test wurde entwickelt, um herauszufinden, ob ein Computer wie ein Mensch denken kann. Beim NLP kann er zum Beispiel verwendet werden, um die Fähigkeiten von Gesprächsagenten zu bewerten.

Textvorverarbeitung

Benenne die 4 Grundlegenden Bearbeitungsschritte bei der Textverarbeitung.

Tokenisierung
Das Entfernen von Stoppwörtern
Die Lemantisierung
Das Stemming

Textvorverarbeitung

Bevor NLP-Modelle verwendet werden können, müssen die Daten in ein Format konvertiert werden, das als Modelleingabe geeignet ist.

Was passiert im Vorverarbeitungsschritt der Tokenisierung?

Bei der Tokenisierung wird ein Text in kleinere Untereinheiten aufgeteilt,
die auch als Token bezeichnet werden.
Die Tokenisierung kann zum Beispiel durch Leerzeichen und Satzzeichen erfolgen.

Textvorverarbeitung

Bevor NLP-Modelle verwendet werden können, müssen die Daten in ein Format konvertiert werden, das als Modelleingabe geeignet ist.

Was passiert im Vorverarbeitungsschritt “Entfernen von Stoppwörtern?

Das Entfernen von Stoppwörtern eliminiert Wörter, die für eine bestimmte NLP-Aufgabe nur geringe Auswirkungen haben.
Typische Stoppwörter sind Artikel und Pronomen.
Es gibt handverlesene Wortlisten für verschiedene Sprachen, die häufig vorkommende Wörter in verschiedenen Textkorpora enthalten.

Textvorverarbeitung

Bevor NLP-Modelle verwendet werden können, müssen die Daten in ein Format konvertiert werden, das als Modelleingabe geeignet ist.

Was passiert im Vorverarbeitungsschritt Lemantisierung?

Bei der Lemmatisierung werden die Wörter eines Textes in ihre Grundform, das Lemma, umgewandelt.
Zum Beispiel würden die Wörter „gegangen“ und „ging“ alle zu dem Wort „gehen“ lemmatisiert werden.
Die Lemmatisierung erfordert oft Nachschlagetabellen und kann daher rechenintensiv sein.

Textvorverarbeitung

Bevor NLP-Modelle verwendet werden können, müssen die Daten in ein Format konvertiert werden, das als Modelleingabe geeignet ist.

Was passiert im Vorverarbeitungsschritt “Stemming”?

Stemming ist eine weitere Methode, um Wörter auf ihre Grundform zu reduzieren.
Im Gegensatz zur Lemmatisierung wird bei der Wortstammerkennung jedoch nur das Suffix (d. h. die letzten paar Zeichen) aus einem Wort entfernt, was manchmal zu falschen Ergebnissen führen kann.

Praktischer Exkurs: Textvorverarbeitung von Kundenrezensionen

Ein Unternehmen möchte ein System zur automatischen Analyse von Kundenrezensionen entwickeln. Damit die Kundenrezensionen von weiteren Algorithmen entsprechend verarbeitet werden können, müssten die Texte zunächst vorverarbeitet werden. Die oben erläuterten Schritte werden daher nun anhand des folgenden Satzes erläutert:

„Ich liebe dieses Produkt! Es ist unglaublich nützlich und funktioniert perfekt. Ich werde es definitiv weiterempfehlen.“

Bei der Tokenisierung anhand von Leerzeichen würde dieser Satz zu folgenden Tokens zerlegt werden:

[„Ich“, „liebe“, „dieses“, „Produkt!“, „Es“, „ist“, „unglaublich“, „nützlich“, „und“, „funktioniert“, „perfekt.“, „Ich“, „werde“, „es“, „definitiv“, „weiterempfehlen.“]

Ein Problem bei dieser einfachen Art der Tokenisierung ist, dass die Satzzeichen jeweils an den Wörtern hängen bleiben. Hier könnten beispielsweise

reguläre Ausdrücke

Abhilfe schaffen.

Im nächsten Schritt werden nun Stoppwörter entfernt. Das anschließende Ergebnis könnte wie folgt aussehen:

[„liebe“, „Produkt“, „unglaublich“, „nützlich“, „funktioniert“, „perfekt“, „werde“, „definitiv“, „weiterempfehlen“]

Anschließend wird die Wortliste mit Stemming auf die Wortstämme reduziert:

[„lieb“, „produkt“, „unglaublich“, „nutz“, „funktion“, „perfekt“, „werd“, „definitiv“, „weiterempfehl“]

Während Stemming die Liste auf die Wortstämme reduziert, würden mittels Lemmatisierung die Worte auf ihre Grundform (Lemma) zurückgeführt werden:

[„lieben“, „Produkt“, „unglaublich“, „nützlich“, „funktionieren“, „perfekt“, „werden“, „definitiv“, „weiterempfehlen“]

Nach dieser Vorverarbeitung können insbesondere häufig verwendete Begriffe in positiven oder negativen Kundenrezensionen identifiziert oder Kundenmeinungen gezielt analysiert werden.

Regelbasierte Techniken

Regelbasierte Techniken für NLP verwenden eine Reihe von vordefinierten Regeln, um ein bestimmtes Problem anzugehen. Diese Regeln versuchen, die Art und Weise zu reproduzieren, wie Menschen Sätze bilden.

Welches Hilfmittel wird oftmals in regelbasierten NLP-Techniken verwendet?

Reguläre Ausdrücke
- um Aufgaben wie das Extrahieren von Daten aus Text auszuführen

Regelbasierte Techniken

Welche Programmiersprachen/Editoren sind in der Lage reguläre Ausdrücke zu verarbeiten?

Python
Java Script
Perl
Shell-Skripte
UNIX-Befehlszeile
Vim
Emacs

Regelbasierte Techniken

Was ist einer der größten Vorteile von regelbasierten Systemen?

Was ist der größte Nachteil?

Es ist die Erklärbarkeit
- Da die Regeln von Menschen entworfen wurden, ist es einfach zu verstehen, wie eine Aufgabe bearbeitet wurde
- und Fehler zu finden
Regelbasierte Systeme können flexibel entwicklet werden
Die Menge an Trainingsdaten ist vergleichweise gering

Der größte Nachteil ist:

Es werden Fachleute benötigt um Regeln zu erstellen

Statistische Techniken

Was ist der Vorteil von statistikbasierten Systemen gegenüber regelbasierter Systemen?

Satistikbasierte Systeme benötigen kein Expertenwissen über die Domäne
Sie können leicht auf der Grundlage bestehender Methoden entwickelt werden
und durch Bereitstellung geeigneter Daten verbessert werden

Statistische Techniken

Was ist der Nachteil von statistikbasierten Systemen gegenüber regelbasierter Systemen?

Ein Nachteil von Systemen, die auf statistischen Techniken des maschinellen Lernens beruhen, ist jedoch, dass

viele annotierte Trainingsdaten erforderlich sind, um gute Ergebnisse zu erzielen.
Regelbasierte Systeme können hingegen bereits mit wenigen Daten gute Leistungen erbringen
Zudem fehlt statistikbasierten Modellen oft die Erklärbarkeit, da sie Entscheidungen auf Grundlage komplexer mathematischer Zusammenhänge treffen, die nicht immer intuitiv nachvollziehbar sind.
Dies kann problematisch sein, wenn Transparenz und Nachvollziehbarkeit wichtig sind, beispielsweise in regulierten Bereichen wie dem Finanzwesen oder der Medizin.

NLP-Aufgaben

In welche vier Kategorien lassen sich NLP-Aufgaben unterteilen?

Syntax
Semantik
Diskurs
gesprochene Sprache

NLP-Aufgaben

Syntax

Womit befassen sich Syntaktische Aufgaben im NLP?

Was sind dabei die Typischen Aufgaben?

Syntaktische Aufgaben im NLP befassen sich mit den Merkmalen der Sprache wie
- Kategorien,
- Wortgrenzen
- und grammatikalischen Funktionen.
Typische Aufgaben, die sich mit der Syntax befassen, sind
- die Tokenization und
- das Part-of-Speech-(POS-)Tagging.

NLP-Aufgaben

Syntax

Typische Aufgaben, die sich mit der Syntax befassen, sind die Tokenization und das Part-of-Speech-(POS-)Tagging.

Was ist das Ziel der Tokenzitation?

Einen Text in einzelne Einheiten wie
- Wörter
- Sätze
- und Unterworte zu zerlegen

Der Satz „Es macht mir Spaß, künstliche Intelligenz zu studieren.“ könnte zum Beispiel in „Es“ „macht“ „mir“ „Spaß“ „,“ „künstliche“ „Intelligenz“ „zu“ „studieren“ „.“ tokenisiert werden.

NLP-Aufgaben

Syntax

Typische Aufgaben, die sich mit der Syntax befassen, sind die Tokenization und das Part-of-Speech-(POS-)Tagging.

Was ist das Ziel vom POS-Tagging?

POS-Tagging – auch grammatikalisches Tagging genannt – geht noch einen Schritt weiter und fügt dem Text
- grammatikalische Wortfunktionen
- und Kategorien hinzu.
Das folgende Beispiel veranschaulicht, wie ein Satz mithilfe von POS-Tagging analysiert werden kann.

NLP-Aufgaben

Syntax

Was bedeutet Syntaktische Mehrdeutigkeit?

Nenne ein Beispiel.

Wörter, die sich nicht eindeutig einer Kategorie zuordnen lassen

Ein häufig verwendetes Beispiel für syntaktische Zweideutigkeit ist der englische Satz „Time flies like an arrow“,Zwei der möglichen Interpretationen sind:

Die Zeit fliegt wie ein Pfeil.
Es gibt einen bestimmten Pfeil, den jede „Zeitfliege“ („time fly“, dt. Insekt) mag.

NLP-Aufgaben

Semantik

Worin liegt der Schwerpunkt bei den semantischen Aufgaben?

Er liegt auf der Analyse der Bedeutung von
- Wörtern und
- Sätzen

Diskurs

Womit befasst sich der Diskurs?

Gib ein Beispiel aus der Wirtschaft

Er befasst sich mit zusammenhängenden Texten, die länger als ein einzelner Satz sind.
In der Wirtschaft wird die Diskursanalyse genutzt um:
- Kommunikationsstrategien in Unternehmen zu optimieren oder Markttrends zu identifizieren.

Diskurs

Der Diskurs ist für Aufgaben wie die Erkennung von Themen (Topic Identification) und die automatische Textzusammenfassung (Text Summarization) relevant.

Wie geht er bei der Verarbeitung von Textdaten vor?

In welcher Branche werden solche Methoden genutzt?

Ein Algorithmus analysiert große Mengen an Textdaten und extrahiert die relevantesten Inhalte.
Solche Methoden werden in der Finanzbranche genutzt, um Berichte über Marktentwicklungen effizient zu verarbeiten

Diskurs

Die Analysie eines Diskurses umfasst mehrere Teilaufgaben.

Bennen die drei Teilaufgaben zur Analyse eines Diskurses.

Welche bekanntern Unternehmen nutzen solche Technicken, um ihre Produktangebote an Kundenbedürfnisse anzupassen?

Identifizierung der Themenstruktur
Die Analyse der Koreferenz:
- Also die Verknüpfung von sprachlichen Ausdrücken,
- die auf dasselbe Objekt oder dieselbe Person verweisen

Die Untersuchung der Gesprächsstruktur

Unternehmen wie Amazon und Zalando setzen solche Verfahren ein!

Gesprochene Sprache

Bei der letzten Gruppe von Aufgaben dreht sich alles um gesprochene Sprache (engl. Speech). Bei Sprachaufgaben können zwei Teilaufgaben unterschieden werden:

Benne beide:

Für wen ist die Spracherkennung wichtig?

Speech-to-Text (STT): wird auch als automatische Spracherkennung (automatic speech recognition, ASR) bezeichnet, wandelt gesprochene Sprache in Text um, und
Text-to-Speech (TTS, dt. Sprachsynthese): beschäftigt sich mit der Umwandlung eines geschriebenen Textes in gesprochene Sprache.

Die Spracherkennung ist wichtig als Schnittstelle zwischen Mensch und Maschine:

Wie z.B. Sprachassistenzsysteme wie Siri oder Alexa.

Bitte nenne die wichtigsten Kategorien für NLP-Aufgaben.

gesprochene Sprache
Diskurs
Syntax
Semantik

Daten vektorisieren

Im Machine Learning akzeptieren die Algorithmen nur numerische Eingaben.

Was muss getan werden um einen Weg zu finden damit eine Maschine einen Text verarbeiten kann?

Wenn Informationen aus einem unstrukturierten TExt extrahiert werden sollen, muss der Text in ein numerisches Format umgewandelt werden, das der Computer verarbeiten kann.

Daten vektorisieren

Welches ist einer der einfachsten Ansätze, textuelle Informationen in Zahlen umzuwandeln?

Das Bag-of-Words-Modell.

Daten vektorisieren

Welches ist einer der einfachsten Ansätze, textuelle Informationen in Zahlen umzuwandeln?

Das Bag-of-Words-Modell.(BoW)

Wie wird beim BoW ein Text dargestellt?

Beim BoW wird ein TExt durch einen Vektor dargestellt, der die Anzahl der Wortvorkommen in einem bestimmten TExtdokument beschreibt

Darren liebt Hunde.
Darren mag Katzen nicht.
Katzen sind nicht wie Hunde.

Tokenzitation: Darren, liebt, Hunde, Katzen, mag, nicht, sind, wie.

[1, 1, 1, 0, 0, 0, 0, 0]
[1, 0, 0, 1, 1, 1, 0, 0]
[0, 0, 1, 1, 0, 1, 1, 1]

Beschränkungen von Bag-of-Words

Alles in allem ist das BoW-Modell einfach, was einige große Nachteile mit sich bringt:

Bennen die drei Nachteile des BoW.

Auswahl des Vokabulars: Das Vokabular des Modells muss mit großer Sorgfalt ausgewählt werden. Das Gleichgewicht zwischen der Größe des Modells und der Besetzung muss immer im Auge behalten werden. Je größer das Vokabular ist, desto dünner besetzt sind die Vektoren.
Risiko dünner Besetzung (engl. Sparsity): Aus computertechnischen Gründen ist es schwieriger, eine dünnbesetzte Repräsentation von Daten zu modellieren, da die Komplexität von Zeit und Raum mit zunehmend dünnerer Besetzung steigt. Außerdem ist es schwieriger, die Daten zu nutzen, wenn nur wenige Informationen in einem großen Darstellungsraum enthalten sind.
Verlust von Bedeutung: Bei der Verwendung von BoW werden weder die Wortstellung noch der Kontext oder der Sinn berücksichtigt.

Wortvektoren

Um Wörter in einen semantischen Vektorraum einbetten zu können, können sie als Wortvektoren dargestellt werden. Lineare Operationen können angewandt werden, um Wortanalogien und Ähnlichkeiten zu finden.

Bennene drei Vektorisierungsmethoden.

Word2Vec
Term Frequency-Inverse Document Frequency
GloVe

Wortvektoren

Word2Vec

Worauf basiert dieses Modell?

Wer veröffentlichte dieses Modell und wann?

Es basiert afuf einem einfachen neuronalen Netz.
Google Research veröffentlichte es 2013

Wortvektoren

Word2Vec

Was erfodert Word2Vec zum training des neuronalen Netzes?

Gebe ein Beispiel dazu

Es erfordert einen großen Textkorpus
z.B. ein Wikipedia Speicherauszug

Wortvektoren

Word2Vec

Welche zwei Vorhe

rsagemodelle gibt es bei Word2Vec?

Continuous Bag-of-Words (CBOW): Dieses Modell kann verwendet werden, wenn das Ziel darin besteht, ein fehlendes Wort in einem festen Fenster im Kontext der anderen Wörter vorherzusagen. Als Eingabevektor kann entweder der Durchschnitt oder die Summe des One-Hot-Vektors verwendet werden.
Skip-Gram: Wenn wir ein Wort innerhalb eines festen Fensters haben, können mit diesem Modell die verbleibenden Kontextwörter vorhergesagt werden.

Wortvektoren

Term Frequency-Inverse Document Frequency (TF-IDF)

Bei der Bag-of-Words-Methode (BoW) zählt man einfach, wie oft jedes Wort in einem Text vorkommt.Das Problem dabei ist: alle Wörter werden gleich wichtig behandelt, egal, ob sie etwas Besonderes aussagen oder nicht.

Wofür wird TF-IDF (Term Frequency – Inverse Document Frequency) genutzt?

Das ist eine klügere Methode, um herauszufinden, wie wichtig ein Wort für einen bestimmten Text ist.

TF (Term Frequency) misst, wie oft ein Wort in einem Text vorkommt. → Häufige Wörter im Text sind wahrscheinlich wichtig.
IDF (Inverse Document Frequency) misst, wie selten dieses Wort in allen Texten zusammen vorkommt. → Wörter, die überall vorkommen (z. B. „der“, „und“), sind weniger wichtig. → Wörter, die nur in wenigen Texten vorkommen, sind informativer.

Kurz gesagt:TF-IDF hilft dabei, die Wörter zu finden, die einen Text am besten beschreiben,anstatt einfach nur die häufigsten Wörter zu zählen.

Wortvektoren

Term Frequency-Inverse Document Frequency (TF-IDF)

Was gibt die Begriffshäufigkeit TF an?

Ist die Wortreihenfolge von Relevanz?

Wie lautet die Formel für TF?

Sie gibt an wie oft ein Begriff bzw. Term t in einem Dokumend d vorkommt.
Die Wortreihenfolge ist nicht von Relevanz

Wortvektoren

Term Frequency-Inverse Document Frequency (TF-IDF)

Was gibt die Dokumenthäufigkeit (DF) an?

Wie lautet die Formel für DF?

Die Dokumenthäufigkeit gibt den Prozentsatz der Dokumente an, die einen bestimmten Begriff t enthalten im Verhältnis zur Gesamtzahl der Dokumente D

Wortvektoren

Term Frequency-Inverse Document Frequency (TF-IDF)

Was gibt die inverse Dokumenthäufigkeit (IDF) an?

Wie lautet die Formel zu berechnung der IDF?

Die inverse Dokumenthäufigkeit testet die Relevanz eines bestimmten Begriffs.

Wortvektoren

Term Frequency-Inverse Document Frequency (TF-IDF)

Wie kann der endgültige TF-IDF-Wert für einen Begriff berechnet werden?

Wobei hilft der TF-IDF-Wert?

Was zeigt ein hoher TF-IDF-Wert an?

Der TF-IDF-Wert hilft, die Wichtigkeit von Wörtern in einem Dokument zu bestimmen.

Ein hoher Wert von TF-IDF zeigt an, dass ein Wort häufig in einem Dokument vorkommt.

Wortvektoren

GloVe

Wofür steht die Abkürzung GloVe?

Sie steht für Global Vectors for word vectorization
(dt. globale Vektoren für die Wortdarstellung)

Wortvektoren

Wozu wird die Methode der Matrixvektorisierung verwendet?

Diese Methode wird verwendet, um eine Matrix in ihre Komponenten zu zerlegen und so komplexe Verfahren zu vereinfachen.

Satzvektoren

Benenne zwei Modelle zu Vektorisierung von Sätzen.

Bekannte Modelle zu Vektorisierung von Sätzen sind:

Skip-Thought
Universal Sentence Encoder (USE)

Satzvektoren

Es gibt verschiedene Methoden, um ganze Sätze in Zahlen (Vektoren) umzuwandeln, damit Computer ihre Bedeutung besser verstehen können. Zwei bekannte Modelle dafür sind

Skip-Thought
Universal Sentence Encoder (USE)

Erklägre wie Skip-Thought funktioniert

Skip-Thought

Skip-Thought ist eine Erweiterung von Word2Vec, aber statt einzelne Wörter betrachtet es ganze Sätze.
Das Modell wird mit vielen Texten trainiert.
Es schaut sich drei aufeinanderfolgende Sätze an: den vorherigen, den aktuellen und den nächsten.
Der mittlere Satz wird als Eingabe genommen, und das Modell versucht, die anderen Sätze vorherzusagen.
Dadurch lernt es, die Bedeutung eines Satzes zu verstehen.
Nach dem Training kann man den Vektor (Zahlenrepräsentation) des Encoders nutzen, um die Bedeutung eines Satzes weiterzuverwenden.

Skip-Thought und USE sind zwei Methoden, um Sätze so in Zahlen umzuwandeln,dass Computer deren Bedeutung erkennen können.

Skip-Thought lernt durch das Vorhersagen benachbarter Sätze,
USE nutzt vortrainierte Netzwerke von Google, um schnell und effizient Satzbedeutungen zu erfassen.

Satzvektoren

Es gibt verschiedene Methoden, um ganze Sätze in Zahlen (Vektoren) umzuwandeln, damit Computer ihre Bedeutung besser verstehen können. Zwei bekannte Modelle dafür sind

Skip-Thought
Universal Sentence Encoder (USE)

Erkläre wie Universal Sentence Encoder funktioniert

Universal Sentence Encoder (USE)

Der Universal Sentence Encoder (USE) wurde von Google entwickelt.
Er wandelt Sätze in Vektoren um, die ihre Bedeutung widerspiegeln.
Google stellt fertig trainierte Modelle zur Verfügung – ein englisches und ein mehrsprachiges Modell.

Satzvektoren

Es gibt verschiedene Methoden, um ganze Sätze in Zahlen (Vektoren) umzuwandeln, damit Computer ihre Bedeutung besser verstehen können. Zwei bekannte Modelle dafür sind

Skip-Thought
Universal Sentence Encoder (USE)

Bitte nenne drei Methoden zur Wortvektorisierung.

Word2Vec
TD-IDF
GloVe

Fortschrittliche NLP-Modelle

Es steht eine breite Palette von NLP-Modellen zur Verfügung, die verschiedene Methoden für Vorhersage- und Klassifikationsaufgaben verwenden. Diese Modelle können grob in zwei Gruppen eingeteilt werden:

Benenne beide.

Statistische Modelle
neuronale Modelle

Fortschrittliche NLP-Modelle

Statistische Modelle

Statistische Sprachmodelle versuchen, Sprache mit Hilfe von Wahrscheinlichkeiten zu beschreiben.

Sie berechnen also, wie wahrscheinlich bestimmte Wörter oder Zeichen in einem Text vorkommen.

Auf welcher Ebene arbeiten diese?

Benenne drei Tätigkeiten in denen Statistische Modelle helfen.

Meistens arbeiten sie dabei auf der Wortebene

Tätigkeiten in denen solche modelle helfen:

Autovervollständigung
Rechtschreibprüfung
Erkennung von Namen (NER = Named Entity Recognition)

Fortschrittliche NLP-Modelle

Statistische Modelle

Was sind N-Gramme und wie funktionieren diese?

Ein N-Gramm ist eine einfache Form eines statistischen Sprachmodells. Es schaut sich Gruppen von aufeinanderfolgenden Wörtern an:

1-Gramm (Unigramm): ein einzelnes Wort, z. B. „Hallo“
2-Gramm (Bigramm): zwei Wörter hintereinander, z. B. „Hallo Welt“
3-Gramm (Trigramm): drei Wörter hintereinander, z. B. „Es läuft gut“

Kurz gesagt:

Statistische Modelle — besonders N-Gramme — nutzen Wahrscheinlichkeiten, um vorherzusagen,

welches Wort als nächstes erscheint.

Sie bilden die Grundlage für viele einfache NLP-Aufgaben wie Autovervollständigung oder Rechtschreibprüfung.

Neuronale Modelle

In den letzten Jahren haben neuronale Modelle für NLP stark an Popularität gewonnen.

Auf welchen Deep-Learning-Architekturen basieren diese Modelle?

Diese Modelle basieren auf:

Recurrent Neural Networks (RNNs)
Convolutional Neural Networks (CNNs)

Neuronale Modelle

In den letzten Jahren haben neuronale Modelle für NLP stark an Popularität gewonnen.

Auf welchen Deep-Learning-Architekturen basieren diese Modelle?

Diese Modelle basieren auf:

Recurrent Neural Networks (RNNs)
Convolutional Neural Networks (CNNs)

Wofür werden RNNs genutzt und wir funktionieren diese?

RNNs können sich vorherige Informationen merken
und dadurch die Reihenfolge von Wörtern verstehen.
Das macht sie ideal für Sprachverarbeitung,

Neuronale Modelle

Was ist der Nachteil von RNNs gegenüber von CNNs?

Ein Nachteil von RNNs ist, dass sie nicht gut parallel arbeiten können.

Das bedeutet:

Sie müssen Wort für Wort nacheinander verarbeiten,was das Training langsamer macht als bei CNNs.

Neuronale Modelle

In den letzten Jahren haben neuronale Modelle für NLP stark an Popularität gewonnen.

Auf welchen Deep-Learning-Architekturen basieren diese Modelle?

Diese Modelle basieren auf:

Recurrent Neural Networks (RNNs)
Convolutional Neural Networks (CNNs)

Wofür werden CNNs genutzt?

CNNs sind spezielle Neuronale Netze, die ursprünglich für

Bildverarbeitung entwickelt wurden,aber auch
in der Sprachverarbeitung / Texten (NLP) nützlich sind.

Die Encoder-Decoder-Architektur

Viele moderne Deep-Learning-Modelle (also neuronale Netze) nutzen eine sogenannte Encoder-Decoder-Struktur.

Sie besteht – wie der Name schon sagt – aus zwei Teilen: Encoder und Decoder.

Wie funktioniert diese Architektur?

Die Encoder-Decoder-Architektur funktioniert wie ein Verständnis- und Wiedergabe-System:

Encoder: versteht und verdichtet die Eingabe,
Decoder: erzeugt daraus wieder einen sinnvollen Text oder eine andere Ausgabe.

Transformer-Modelle

Transformer-Modelle wurden 2017 von Google vorgestelltund gelten heute als eine der wichtigsten Technologien in der Sprachverarbeitung (NLP).

Welche bekannte Systeme basieren auf Transformer-Modellen?

ChatGPT
BERT
T5

Transformer-Modelle

Transformer sind eine spezielle Form der Encoder-Decoder-Architektur(also zwei Teile: einer liest den Text, der andere erzeugt die Ausgabe).

Worauf basiert der große Unterschied zu älteren Modellen wie RNNs oder CNNs?

Und was bedeutet das in der Praxis?

Der große Unterschied nennt sich “Selbstaufmerksamkeit”
durch Selbstaufmerksamkeit kann der Zusammenhang zwischen Wörtern besser verstanden werden.

Transformer-Modelle

Erkläre das System der Selbstaufmerksamkeit genauser mit einem Beispiel.

Der Self-Attention-Mechanismus erlaubt dem Modell, bei jedem Wort im Satz auf andere Wörter zu achten, die wichtig für die Bedeutung sind.

Beispiel:

Satz: „Ich bin von München nach Berlin gezogen, weil es mir dort gefällt.“ → Das Modell erkennt, dass sich „dort“ auf „Berlin“ bezieht.
Satz: „Ich bin von München nach Berlin gezogen, weil es mir dort nicht gefallen hat.“ → Hier bezieht sich „dort“ auf „München“.

Das Modell lernt also Zusammenhänge, egal wie weit Wörter voneinander entfernt sind. Das war bei älteren Modellen wie RNNs oft ein Problem.

Transformer-Modelle

Da Transformer nicht der Reihenfolge nach (wie RNNs) arbeiten,müssen sie wissen, an welcher Stelle ein Wort im Satz steht.

Welchen Trick nutzen Transformer-Modelle damit sie wissen an welcher Stelle ein Wort im Satz steht?

Dafür gibt es sogenannte Positionscodierungen (Positional Encodings).
- Sie geben jedem Wort eine Art Positionsnummer,damit das Modell versteht, in welcher Reihenfolge die Wörter stehen.

Transformer-Modelle

Was sind die Vorteile von Transformer-Modellen?

Benenne drei.

Vorteile von Transformern

🔹 Verstehen lange Abhängigkeiten im Text (z. B. Bezüge über mehrere Wörter hinweg)
🔹 Schneller zu trainieren als RNNs, weil viele Berechnungen parallel ablaufen
🔹 Sehr hohe Genauigkeit bei Aufgaben wie Übersetzung, Textverständnis oder Textgenerierung

Transformer-Modelle sind moderne KI-Modelle,die durch

Selbstaufmerksamkeit den Zusammenhang zwischen Wörtern besser verstehen können.
Sie sind schneller, präziser und bilden die Grundlage vieler heutiger Sprach-KI-Systeme.

Vortrainierte Modelle

Die Transformer-Architektur hat die Sprachverarbeitung (NLP) grundlegend verändert.Sie bildet die Basis für viele moderne KI-Modelle, die vortrainiert sind – also schon viel Wissen über Sprache mitbringen, bevor sie für eine bestimmte Aufgabe eingesetzt werden.

Was sind vortainierte Modelle?

Was müssen sie lernen damit sie funktionieren?

Statt jedes Mal ein Modell von Grund auf neu zu trainieren, werden vortrainierte Modelle auf riesigen Textmengen trainiert.

Dabei lernen sie allgemeine Sprachmuster, zum Beispiel:

welche Wörter oft zusammen vorkommen,
wie Sätze aufgebaut sind,
und welche Bedeutungen Wörter in verschiedenen Kontexten haben.

Das spart Zeit, Rechenleistung und Daten –und liefert trotzdem Ergebnisse auf höchstem Niveau.

Vortrainierte Modelle

Benenne fünf bekannte Vortainierte Modelle.

BERT – Bidirectional Encoder Representations from Transformers (liest Texte in beide Richtungen – vorwärts und rückwärts)
GPT – Generative Pretrained Transformer (generiert neuen Text, z. B. wie ChatGPT)
RoBERTa – eine verbesserte Version von BERT
DistilBERT – eine kleinere, schnellere Version von BERT
XLNet – kombiniert Ideen von BERT und anderen Modellen, um noch flexibler zu lernen

Vortrainierte Modelle

BERT ist eines der bekanntesten vortainierten Modelle.

Von wem wurde es entwickelt
Welche zwei Lernmethoden nutzt es um auf riesigen Textsammlungen zu trainieren?

Es wurde von Google entwickelt

Lernmethoden:

Maskiertes Sprachmodell (Masked Language Modeling)
Vorhersage des nächsten Satzes (Next Sentence Prediction)

Beide Aufgaben werden gleichzeitig trainiert,damit BERT ein tiefes Verständnis für Wörter, Sätze und Zusammenhänge entwickelt.

Vortrainierte Modelle

BERT ist eines der bekanntesten vortainierten Modelle.

Wofür wird BERT genutzt?

BERT wird in vielen Bereichen eingesetzt, z. B.:

🔎 Suchmaschinen (z. B. Google Search): versteht Suchanfragen besser und liefert passendere Ergebnisse.
💬 Kundenservice: hilft Chatbots, Anfragen genauer zu verstehen.
💰 Finanzwelt: analysiert Berichte oder Markttexte.
🏥 Medizin: unterstützt bei Dokumentation und Textanalyse.
📊 Meinungsanalyse: erkennt Stimmungen in Bewertungen oder Social-Media-Beiträgen.

Vortrainierte Modelle wie BERT oder GPT haben gelernt,

Sprache allgemein zu verstehen,und können anschließend mit wenig zusätzlichem Training für viele Aufgaben angepasst werden.

Das macht sie schnell, flexibel und äußerst leistungsstark –ein Grund, warum sie heute die Grundlage moderner KI-Systeme bilden.

Erläutere die grundlegende Funktionsweise der Encoder-Decoder-Architektur.

In einer Encoder-Decoder-Architektur:

wandelt der Encoder den Eingabetext in einen Vektor um, der alle wichtigen Informationen aus der Eingabesequenz kapselt.
Der Decoder nimmt dann die Informationen aus dem codierten Vektor und wandelt sie wieder in die ursprüngliche Darstellung um.

Join Course

Preview

Author

Mathäus

Information

Last changed
4 months ago

Report course

4. Natural Language Processing (NLP)

Einführung in NLP und Anwendungsbereiche

Historische Entwicklung

Anwendungsbereiche von NLP

Anwendungsbereiche von NLP

Anwendungsbereiche von NLP

🔹 Was bedeutet Text Summarization?

Anwendungsbereiche von NLP

Anwendungsbereiche von NLP

TextRank

Anwendungsbereiche von NLP

So funktioniert TextRank:

Überwachte Textzusammenfassung

Kurz zusammengefasst:

Sentiment-Analyse (dt. Stimmungsanalyse)

Sentiment-Analyse (dt. Stimmungsanalyse)

Sentiment-Analyse (dt. Stimmungsanalyse)

Sentiment-Analyse (dt. Stimmungsanalyse)

Sentiment-Analyse (dt. Stimmungsanalyse)

Named Entity Recognition (NER)

Machine Translation (MT, dt. maschinelle Übersetzung)

Machine Translation (MT, dt. maschinelle Übersetzung)

Machine Translation (MT, dt. maschinelle Übersetzung)

Machine Translation (MT, dt. maschinelle Übersetzung)

Chatbots

Chatbots

Chatbots

Chatbots

Bitte erläutere den Zweck des Turing-Tests und seinen Bezug zum NLP.

Textvorverarbeitung

Textvorverarbeitung

Textvorverarbeitung

Textvorverarbeitung

Textvorverarbeitung

Regelbasierte Techniken

Regelbasierte Techniken

Regelbasierte Techniken

Statistische Techniken

Statistische Techniken

NLP-Aufgaben

NLP-Aufgaben

NLP-Aufgaben

NLP-Aufgaben

NLP-Aufgaben

NLP-Aufgaben

Daten vektorisieren

Daten vektorisieren

Daten vektorisieren

Wortvektoren

Wortvektoren

Wortvektoren

Wortvektoren

Wortvektoren

Wortvektoren

Wortvektoren

Wortvektoren

Wortvektoren

Wortvektoren

Wortvektoren

Satzvektoren

Satzvektoren

Satzvektoren

Satzvektoren

Fortschrittliche NLP-Modelle

Fortschrittliche NLP-Modelle

Statistische Modelle

Fortschrittliche NLP-Modelle

Statistische Modelle

Kurz gesagt:

Neuronale Modelle

Neuronale Modelle

Neuronale Modelle

Neuronale Modelle

Vorteile von Transformern

Author

Mathäus

Information