An welchen Stellen der Datenpipeline können gegnerische Angriffe ansetzen?
Physische Domäne: z.B. Sticker auf Straßenschildern
Digitale Repräsentation: z.B. Aufaddieren von gewissem Rauschen; Änderung einzelner Pixel
Machine Learning Model: z.B. Korrumpierung der Trainingsdaten
Physische Domäne: Manipulation der Aktuatoren
Welche Arten von Gegnerischen Angriffen haben wir kennengelernt?
White Box-Angriffe: Gegner hat Zugriff auf Modell, Parameter und/oder Trainingsdaten
Poisoning: Trainingsdaten werden korrumpiert um decision boundary zu manipulieren
Evation: Eingaben werden speziell für den Zweck erstellt, Missklassifikation herbeizuführen
Black Box-Angriffe: Gegner hat nur Zugriff auf Resultat, nie auf das eigentliche Modell
Model Inversion: Modell wird als Orakel für Label verwendet um Trainingsdatensatz zu erstellen
-> Genutzt um Modell zu approximieren und darüber Evation zu betreiben
Welche Gegenmaßnahmen haben wir kennengelernt?
Was sind Nachteile?
Verwenden von gegnerischen Beispielen im Trainingsprozess
Erfordert mehr Daten
Generierung ist Zeit und ressourcenaufwändig
Gut gegen White box Angriffe, aber nicht gegen black box
Defensive Distillation: Glättung der Decision Boundary indem Modell statt harten Labels soft labels erhält
-> soft labels sind Ausgabe von zuvor trainiertem Netz
Kann Genauigkeit verringern
Ressourcenaufwändig
Validierung der Eingaben und Vorverarbeitung bevor Modell damit arbeitet
Erfordert geeignete Methoden
Abhängig von Genauigkeit der Validierung
Erfordert mehr Ressourcen
dauert länger
Sehr domänenspezifisch
Veränderung der Struktur des ML Systems -> non-lineare Modelle sind robuster
Modelle sind schwerer zu trainieren
Performen nicht so gut in nicht-gegnerischen Szenarien
Warum hält Goodfellow Testen für keine ausreichende Maßnahme, um security gewährleisten zu können?
Worin sieht er stattdessen bessere Chancen?
Allgemein: Zeit nur eine untere Schranke für die Fehler-rate eines Systems
Testen zeigt nur, dass das Modell bezüglich der verwendeten gegnerischen Eingaben robust ist
Trifft keine Aussagen über Modifikationen, die nicht im Test-Set repräsentiert waren
Stattdessen: Formale Verifikation
Überprüft, ob Modell für alle Punkte in einer festen Nachbarschaft von X die gleiche Klasse wie X ausgibt
Welches Problem sieht Goodfellow in den derzeitigen Verifikationssystemen?
geringe Skalierbarkeit auf größere Modelle bzw. bei Skalierung müssen viele Annahmen über die gegnerischen Eingaben getroffen werden
-> Müssen nicht halten
feste Nachbarschaft muss definiert werden, unmöglich alle Modifikationen einer Eingabe abzudecken
Verifikationssysteme können nur sicherstellen, dass die Klasse gleich bleibt, ohne Aussage ob die Klasse richtig ist
Was versteht Marcus unter robuster AI?
Wie sieht er potenzial diese zu erreichen?
KI, die in der Lage ist, Wissen aus Situationen zu extrahieren und auf andere Kontexte zu übertragen
-> kann eine weite Palette an Problemen über Analogien bearbeiten (wie ein Mensch)
Dafür sind kognitiven Modelle der Welt mit Beziehungen und Konzepten nötig
zieht abstraktes Wissen aus Quellen und bildet daraus kognitiven Modelle über die dann Probleme gelöst werden
Alleinig das Erkennen von statistischen Mustern in Daten reicht nicht aus (wie z.B. bei ChatGPT)
Weg von reiner Daten-getriebenheit hin zu kognitiven Modellen im Fokus
Was sind große Gefahren im Zusammenhang mit Prompt Injection?
Prompt Injection um Produktvergleiche oder Internetrecherchen des Assistenten zu manipulieren (weiße schrift auf weißen Grund)
Über die Ausnutzung verschiedener GenAI tools um Daten abzugreifen/ zu löschen
Welche Lösungen für Prompt injection gibt es?
Prompts dem Nutzer anzeigen, mit denen gearbeitet wird
Um Erlaubnis fragen, bevor irgendwelche Aktionen ausgeführt werden (z.B. Emails versenden)
Entwickler sensibilisieren
Last changeda year ago