Knowledge Science - Alles über KI, ML und NLP

Episode 168 - KI generiert: KS Pulse - Superhuman Intelligence & Transformers need Glasses

Sigurd Schacht, Carsten Lanquillon Season 1 Episode 168

Send us a text

KI Generierte News of the Day. Der Pulse ist ein Experiment ob es interessant ist die aktuellen Nachrichten in ca. 5 min. kleinen Paketen täglich zu bekommen. 

Er ist vollständig KI generiert. Einzig und allein der Inhalt ist kuratiert. Carsten und ich wählen passende Nachrichten aus. Danach wird sowohl das Manuskript als auch die Audio Datei vollständig automatisiert erstellt.

Dementsprechend können wir nicht immer für die Richtigkeit garantieren.

- Open-Endedness is Essential for Artificial Superhuman Intelligence - https://arxiv.org/pdf/2406.04268
- Transformers need glasses! Information over-squashing in language tasks - https://arxiv.org/pdf/2406.04267

Support the show

Willkommen zu unserer heutigen Folge des "Knowledge Science Pulse" Podcasts, in der wir uns heute mit zwei spannenden Papers zum Thema Super Intelligenz und Repräsentation von Informationen in Transformermodellen, beschäftigen.
allo Carsten, schön dich heute wieder zu sehen! Hast du die beiden Papers gelesen, über die wir heute sprechen wollten? 

#### Ja, ich habe mir sowohl das Paper "Open-Endedness is Essential for Artificial Superhuman Intelligence" als auch "Transformers need glasses! Information over-squashing in language tasks" angeschaut. Das sind zwei sehr spannende Themen!

#### Fangen wir mit dem ersten Paper an. Was sind für dich die wichtigsten Erkenntnisse daraus?

#### Die Autoren argumentieren, dass Open-Endedness, also die Fähigkeit eines Systems sich immer weiter selbst zu verbessern und zu entwickeln, essenziell für künstliche Superintelligenz ist. Sie definieren Open-Endedness über die Kriterien Novelty und Learnability aus Sicht eines externen Beobachters. 

#### Was bedeuten Novelty und Learnability genau in diesem Zusammenhang?

#### Mit Novelty ist gemeint, dass das System kontinuierlich neue, überraschende Artefakte produziert, die schwer vorherzusagen sind. Learnability bedeutet, dass der Beobachter durch die produzierten Artefakte dazulernen und seine Vorhersagen verbessern kann. 

#### Ok, das ist eine präzise Definition. Wie stellen sich die Autoren nun den Weg zu Open-Endedness und künstlicher Superintelligenz vor?

#### Sie sehen großes Potenzial in der Kombination von Open-Ended Algorithmen und Foundation Models wie GPT-Modellen. Die riesigen Sprachmodelle ermöglichen es, zielgerichtet neue, für Menschen relevante Artefakte zu generieren. Open-Ended Methoden verleihen den Modellen dann die Fähigkeit zur Weiterentwicklung. Konkret schlagen sie Ansätze aus Reinforcement Learning, Self-Improvement, Task Generation und evolutionären Algorithmen vor.

#### Das klingt vielversprechend! Aber birgt das nicht auch Risiken?

#### Auf jeden Fall. Die Autoren widmen dem letzten Teil des Papers auch den Sicherheitsaspekten von Open-Ended Foundation Models. Sie sehen es als essentiell an, dass die Weiterentwicklung der Systeme für Menschen nachvollziehbar und kontrollierbar bleibt. Außerdem kann es zu unvorhergesehenen Wechselwirkungen und Risiken kommen, auf die schnell reagiert werden muss.

#### Sehr interessante Einblicke in die Zukunft der KI-Entwicklung. Lass uns nun einen Blick auf das zweite Paper zu Information Over-Squashing in Transformers werfen. Was haben die Autoren hier herausgefunden?

#### Sie analysieren, wie Informationen in Decoder-only Transformers wie GPT propagieren. Dabei stoßen sie auf zwei problematische Phänomene: Representational Collapse und Over-Squashing.

#### Was genau versteht man unter Representational Collapse?

#### Die Autoren zeigen, dass die finalen Token-Repräsentationen von sehr ähnlichen aber verschiedenen Sequenzen im Transformer beliebig nah beieinander liegen können. Durch begrenzte Floating Point Precision kann das Modell die Sequenzen dann nicht mehr unterscheiden. Das führt zu Fehlern bei Aufgaben wie Kopieren oder Zählen.

#### Und was hat es mit dem Over-Squashing auf sich?

#### Durch die unidirektionale Aufmerksamkeit in Transformers kommt es zu einer Art "Quetschen" der Informationen über die Sequenz hinweg. Token, die weiter vorne in der Sequenz stehen, haben einen größeren Einfluss auf das finale Token als später auftretende. Das limitiert ebenfalls die Fähigkeiten des Modells.

#### Die Autoren liefern also eine theoretische Erklärung für überraschende Fehler aktueller Sprachmodelle bei scheinbar einfachen Aufgaben. Haben sie auch Lösungsvorschläge?

#### Ja, zum Beispiel raten sie bei Representational Collapse dazu, lange Sequenzen identischer Token durch Einfügen von Satzzeichen aufzubrechen um die Repräsentationen zu separieren. Sie sprechen auch an, dass quantisierte Modelle noch anfälliger für die beschriebenen Probleme sind.

#### Sehr aufschlussreich! Die beiden Papers geben spannende Einblicke in die aktuellen Herausforderungen und Potenziale von Transformern und Open-Ended Learning. Ich denke wir werden diese Themen in Zukunft noch öfter diskutieren. Danke für die interessante Unterhaltung Carsten!

#### Gerne, es ist immer wieder faszinierend sich mit diesen zukunftsweisenden Entwicklungen zu beschäftigen. Bis zum nächsten Mal!