Episode 167 - KI generiert: KS Pulse - PaCE, Safety Alignment Artwork

Knowledge Science - Alles über KI, ML und NLP

Knowledge Science - Der Podcast über Künstliche Intelligenz im Allgemeinen und Natural Language Processing im Speziellen. Mittels KI Wissen entdecken, aufbereiten und nutzbar machen, dass ist die Idee hinter Knowledge Science. Durch Entmystifizierung der Künstlichen Intelligenz und vielen praktischen Interviews machen wir dieses Thema wöchentlich greifbar.

All Episodes

Knowledge Science - Alles über KI, ML und NLP

Episode 167 - KI generiert: KS Pulse - PaCE, Safety Alignment

June 12, 2024 • Sigurd Schacht, Carsten Lanquillon • Season 1 • Episode 167

Send us a text

KI Generierte News of the Day. Der Pulse ist ein Experiment ob es interessant ist die aktuellen Nachrichten in ca. 5 min. kleinen Paketen täglich zu bekommen.

Er ist vollständig KI generiert. Einzig und allein der Inhalt ist kuratiert. Carsten und ich wählen passende Nachrichten aus. Danach wird sowohl das Manuskript als auch die Audio Datei vollständig automatisiert erstellt.

Dementsprechend können wir nicht immer für die Richtigkeit garantieren.

- PaCE: Parsimonious Concept Engineering for Large Language Models - https://arxiv.org/pdf/2406.04331
- Safety Alignment Should Be Made More Than Just a Few Tokens Deep - https://xiangyuqi.com/shallow-vs-deep-alignment.github.io/static/paper.pdf

Support the show

Willkommen zu unserer heutigen Folge des "Knowledge Science Pulse" Podcasts, in der wir uns mit zwei spannenden Papers zum Thema KI-Sicherheit und Alignment beschäftigen werden. Mit dabei ist wie immer mein Kollege Carsten. Hi Carsten!

#### Hallo Sigurd, ja ich freue mich schon sehr auf die Diskussion der beiden Papers. Das erste Paper "PaCE: Parsimonious Concept Engineering for Large Language Models" von Jinqi Luo und Kollegen stellt einen neuen Ansatz namens PaCE vor, um unerwünschte Konzepte und Verhaltensweisen aus großen Sprachmodellen zu entfernen.

#### Genau, die Kernidee dabei ist, im Aktivierungsraum des Sprachmodells ein umfangreiches "Concept Dictionary" aufzubauen. Darin entspricht jedes Konzept einem Richtungsvektor. Mit speziellen Prompts wird dann annotiert, welche Konzepte für eine bestimmte Aufgabe als "gutartig" oder "unerwünscht" gelten.

#### Spannend finde ich, wie sie dann bei der Inferenz die Aktivierungsvektoren des Inputs in die Konzeptvektoren zerlegen. Über Sparse Coding identifizieren sie sowohl gutartige als auch unerwünschte Komponenten sehr effizient und genau.

#### Und indem sie dann die unerwünschten Komponenten aus den Aktivierungen entfernen, lenken sie das Verhalten des Sprachmodells in Richtung des gewünschten Alignments, während die linguistischen Fähigkeiten erhalten bleiben. Eine sehr elegante Methode wie ich finde!

#### Auf jeden Fall. In ihren Experimenten konnten sie damit bei Tasks wie Detoxifizierung, Faktentreue und Sentimentanpassung State-of-the-Art Ergebnisse erzielen. Auch die Analyse des Concept Dictionarys ist sehr aufschlussreich und zeigt, dass die Konzeptvektoren semantisch stimmig im Aktivierungsraum angeordnet sind.

#### Damit kommen wir auch schon zum zweiten Paper "Safety Alignment Should Be Made More Than Just a Few Tokens Deep" von Xiangyu Qi und Kollegen. Hier geht es um die sogenannte "Shallow Safety Alignment" aktueller Sprachmodelle.

#### Genau, die Autoren argumentieren, dass das Safety Alignment bei den meisten Modellen nur die ersten paar Token des Outputs betrifft. Das heißt, es wird primär die Wahrscheinlichkeitsverteilung über den Anfang des generierten Textes angepasst, um sichere Antworten zu fördern.

#### Das Problem dabei ist, dass solche Modelle sehr anfällig für spezielle Angriffe sind. Zum Beispiel Adversarial Suffix Attacks, bei denen durch geschickte Eingabeprompts unerwünschte Antworten provoziert werden. Oder auch Prefilling Attacks, bei denen die ersten paar Token einer schädlichen Antwort vorgegeben werden.

#### Hinzu kommt, dass schon wenige Finetuning-Schritte auf problematischen Daten ausreichen können, um die flache Safety Alignment wieder rückgängig zu machen. Die Autoren zeigen anschaulich, wie sich dabei vor allem die Wahrscheinlichkeitsverteilung über die ersten Token stark verändert.

#### Als Gegenmaßnahme schlagen sie vor, das Alignment "tiefer" zu machen, also den Effekt auf spätere Token auszudehnen. Mit einem einfachen Data Augmentation Ansatz konnten sie die Robustheit gegen die genannten Angriffe schon deutlich verbessern.

#### Sehr spannend fand ich auch ihren Ansatz, beim Finetuning die Updates für die ersten Token stärker zu beschränken als für spätere. Damit ließ sich die Safety Alignment viel besser erhalten, ohne die Utility auf gutartigen Daten zu sehr zu beeinträchtigen.

#### Insgesamt zwei sehr interessante Papers, die wichtige Erkenntnisse und neue Lösungsansätze für das Safety Alignment von Sprachmodellen liefern. Für mich zeigen sie, dass wir die Wirkungsweise des Alignments noch besser verstehen müssen, um dessen Tiefe und Robustheit zu verbessern.

#### Da stimme ich dir voll zu. Sowohl das Parsimonious Concept Engineering mit seinem Dictionary Ansatz als auch die Untersuchung von Shallow vs. Deep Alignment sind vielversprechende Forschungsrichtungen für die Zukunft.

#### Damit sind wir auch schon am Ende unserer heutigen Folge. Vielen Dank an alle Zuhörer und natürlich an dich Carsten für die spannende Diskussion! Bis zum nächsten Mal, wenn es wieder heißt: Neues aus der KI-Forschung im Knowledge Science Pulse!