Knowledge Science - Alles über KI, ML und NLP

Episode 170 - KI generiert: KS Pulse - Nemotron, Discover POA

Sigurd Schacht, Carsten Lanquillon Season 1 Episode 170

Send us a text

KI Generierte News of the Day. Der Pulse ist ein Experiment ob es interessant ist die aktuellen Nachrichten in ca. 5 min. kleinen Paketen täglich zu bekommen. 

Er ist vollständig KI generiert. Einzig und allein der Inhalt ist kuratiert. Carsten und ich wählen passende Nachrichten aus. Danach wird sowohl das Manuskript als auch die Audio Datei vollständig automatisiert erstellt.

Dementsprechend können wir nicht immer für die Richtigkeit garantieren.

- Nemotron-4 340B - https://d1qx31qr3h6wln.cloudfront.net/publications/Nemotron_4_340B_8T_0.pdf
- Discovering Preference Optimization Algorithms with and for Large Language Models - https://arxiv.org/pdf/2406.08414

Support the show

Hallo zusammen und herzlich willkommen zu einer neuen Folge unseres "Knowledge Science Pulse" Podcasts! Hallo Carsten, hast du gelesen, dass Nvidia ein neues Model veröffentlicht hat?

####  Ja, die habe ich auch gelesen. Das erste Paper von NVIDIA ist wirklich beeindruckend. Sie haben eine ganze Familie von Modellen namens Nemotron-4-340B entwickelt und unter einer Open-Source-Lizenz veröffentlicht.

####  Genau, die Nemotron Modelle umfassen ein Base Model, ein Instruct Model und ein Reward Model. Besonders spannend finde ich, wie sie über 98% der Trainingsdaten für das Instruct Model durch synthetische Datengenerierung erzeugt haben. 

####  Das ist in der Tat ein sehr hoher Anteil. Durch die Veröffentlichung ihrer Pipeline zur Generierung synthetischer Daten wollen sie die Forschungsgemeinschaft unterstützen und die Entwicklung leistungsfähiger Modelle vorantreiben.

####  Beim Nemotron-4-340B-Base Model ist bemerkenswert, dass es trotz eines enormen Datenvolumens von 9 Billionen Token auf einem einzelnen DGX H100 System mit 8 GPUs trainiert werden konnte.

####  Ja, und in den Benchmarks schneidet es vergleichbar mit anderen führenden Open-Source Base Models ab, wie z.B. LLaMA-3 70B oder Qwen-2 72B. Vor allem bei Aufgaben zum logischen Schlussfolgern setzt es neue Maßstäbe.

####  Interessant ist auch der iterative "Weak-to-Strong" Ansatz beim Alignment. Dabei agiert ein schwächeres Instruct Model als Daten-Generator für ein stärkeres Base Model, wodurch wiederum ein noch leistungsfähigeres Instruct Model entsteht.  

####  Dieser selbstverstärkende Kreislauf führt in der Tat zu immer besseren Modellen. Dank dem Nemotron-4-340B-Reward Model konnten sie auch die Qualität der synthetischen Daten steigern.

####  Bei den Evaluierungen zeigt sich, dass das Nemotron-4-340B-Instruct Model besonders gut in Single-Turn- und Multi-Turn-Dialogen, Zusammenfassungen und kontrollierten Textgenerierung abschneidet. 

####  Auch wenn es in manchen Bereichen noch hinter GPT-4 zurückliegt, ist es für ein Open-Source Modell dieser Größe schon sehr beachtlich. Spannend ist auch ihre Bewertung der Inhalts-Sicherheit mit dem AEGIS Benchmark.

####  Oh ja, lass uns noch kurz über das zweite Paper sprechen. Da wurde ein ganz anderer, innovativer Ansatz verfolgt: Die Forscher nutzten ein großes Sprachmodell, um automatisiert neue Algorithmen für das Preference Optimization zu entdecken.

####  Genau, anstatt wie bisher die Verlustfunktionen manuell zu entwickeln, ließen sie das LLM in einem iterativen Prozess selbst Vorschläge generieren und bewerten. Dabei hat es sogar einen neuen State-of-the-Art Algorithmus namens DiscoPOP entdeckt.

####  DiscoPOP kombiniert auf adaptive Weise eine logistische und eine exponentielle Verlustfunktion. Interessanterweise ist sie sogar nicht-konvex, was man intuitiv vielleicht nicht erwartet hätte.

####  In den Experimenten hat sich DiscoPOP als sehr leistungsstark und vielseitig erwiesen. Sowohl bei Single-Turn-Dialogen, Zusammenfassungen als auch stimmungskontrollierter Textgenerierung übertraf es die bisherigen Algorithmen.

####  Die automatisierte Suche nach optimalen Verlustfunktionen mit LLMs eröffnet auf jeden Fall ganz neue Möglichkeiten. Kreativität und Expertenwissen des Menschen werden dadurch ergänzt und erweitert.

####  Auf jeden Fall. Auch wenn der Ansatz noch einige Limitationen hat, zeigt er enormes Potenzial. Ich bin schon sehr gespannt, was für Algorithmen in Zukunft noch entdeckt werden und wie sich das auf die Entwicklung von KI-Systemen auswirken wird.