#6: Robustheit

by Georg W.

An welchen Stellen der Datenpipeline können gegnerische Angriffe ansetzen?

Physische Domäne: z.B. Sticker auf Straßenschildern
Digitale Repräsentation: z.B. Aufaddieren von gewissem Rauschen; Änderung einzelner Pixel
Machine Learning Model: z.B. Korrumpierung der Trainingsdaten
Physische Domäne: Manipulation der Aktuatoren

Welche Arten von Gegnerischen Angriffen haben wir kennengelernt?

White Box-Angriffe: Gegner hat Zugriff auf Modell, Parameter und/oder Trainingsdaten
- Poisoning: Trainingsdaten werden korrumpiert um decision boundary zu manipulieren
- Evation: Eingaben werden speziell für den Zweck erstellt, Missklassifikation herbeizuführen
Black Box-Angriffe: Gegner hat nur Zugriff auf Resultat, nie auf das eigentliche Modell
- Model Inversion: Modell wird als Orakel für Label verwendet um Trainingsdatensatz zu erstellen
  -> Genutzt um Modell zu approximieren und darüber Evation zu betreiben

Welche Gegenmaßnahmen haben wir kennengelernt?

Was sind Nachteile?

Verwenden von gegnerischen Beispielen im Trainingsprozess
- Erfordert mehr Daten
- Generierung ist Zeit und ressourcenaufwändig
- Gut gegen White box Angriffe, aber nicht gegen black box
Defensive Distillation: Glättung der Decision Boundary indem Modell statt harten Labels soft labels erhält
-> soft labels sind Ausgabe von zuvor trainiertem Netz
- Kann Genauigkeit verringern
- Ressourcenaufwändig
- Gut gegen White box Angriffe, aber nicht gegen black box
Validierung der Eingaben und Vorverarbeitung bevor Modell damit arbeitet
- Erfordert geeignete Methoden
- Abhängig von Genauigkeit der Validierung
- Erfordert mehr Ressourcen
- dauert länger
- Sehr domänenspezifisch
Veränderung der Struktur des ML Systems -> non-lineare Modelle sind robuster
- Modelle sind schwerer zu trainieren
- Performen nicht so gut in nicht-gegnerischen Szenarien

Warum hält Goodfellow Testen für keine ausreichende Maßnahme, um security gewährleisten zu können?

Worin sieht er stattdessen bessere Chancen?

Allgemein: Zeit nur eine untere Schranke für die Fehler-rate eines Systems
Testen zeigt nur, dass das Modell bezüglich der verwendeten gegnerischen Eingaben robust ist
- Trifft keine Aussagen über Modifikationen, die nicht im Test-Set repräsentiert waren
Stattdessen: Formale Verifikation
- Überprüft, ob Modell für alle Punkte in einer festen Nachbarschaft von X die gleiche Klasse wie X ausgibt

Welches Problem sieht Goodfellow in den derzeitigen Verifikationssystemen?

geringe Skalierbarkeit auf größere Modelle bzw. bei Skalierung müssen viele Annahmen über die gegnerischen Eingaben getroffen werden
-> Müssen nicht halten
feste Nachbarschaft muss definiert werden, unmöglich alle Modifikationen einer Eingabe abzudecken
Verifikationssysteme können nur sicherstellen, dass die Klasse gleich bleibt, ohne Aussage ob die Klasse richtig ist

Was versteht Marcus unter robuster AI?

Wie sieht er potenzial diese zu erreichen?

KI, die in der Lage ist, Wissen aus Situationen zu extrahieren und auf andere Kontexte zu übertragen
-> kann eine weite Palette an Problemen über Analogien bearbeiten (wie ein Mensch)
Dafür sind kognitiven Modelle der Welt mit Beziehungen und Konzepten nötig
- zieht abstraktes Wissen aus Quellen und bildet daraus kognitiven Modelle über die dann Probleme gelöst werden
Alleinig das Erkennen von statistischen Mustern in Daten reicht nicht aus (wie z.B. bei ChatGPT)
Weg von reiner Daten-getriebenheit hin zu kognitiven Modellen im Fokus

Was sind große Gefahren im Zusammenhang mit Prompt Injection?

Prompt Injection um Produktvergleiche oder Internetrecherchen des Assistenten zu manipulieren (weiße schrift auf weißen Grund)
Über die Ausnutzung verschiedener GenAI tools um Daten abzugreifen/ zu löschen

Welche Lösungen für Prompt injection gibt es?

Prompts dem Nutzer anzeigen, mit denen gearbeitet wird
Um Erlaubnis fragen, bevor irgendwelche Aktionen ausgeführt werden (z.B. Emails versenden)
Entwickler sensibilisieren

Last changed
2 years ago