Disruptive Talks: il podcast italiano sulle tecnologie emergenti e sulla zetetica (scetticismo scientifico)

QuickTalk v06 | IA: LLM e 'Emergent Abilities', queste capacità inaspettate dei modelli di IA generativa, forma di intelligenza o errore scientifico?

May 08, 2024 Kevin Escoda Season 1
QuickTalk v06 | IA: LLM e 'Emergent Abilities', queste capacità inaspettate dei modelli di IA generativa, forma di intelligenza o errore scientifico?
Disruptive Talks: il podcast italiano sulle tecnologie emergenti e sulla zetetica (scetticismo scientifico)
More Info
Disruptive Talks: il podcast italiano sulle tecnologie emergenti e sulla zetetica (scetticismo scientifico)
QuickTalk v06 | IA: LLM e 'Emergent Abilities', queste capacità inaspettate dei modelli di IA generativa, forma di intelligenza o errore scientifico?
May 08, 2024 Season 1
Kevin Escoda

Estratto del QuickTalk v06 speciale LLM, RegTech e Kendrick Lamar vs. Drake (la storia della musica si svolge 24/7 su twitter).

👉 Questa pillola in versione video: https://www.youtube.com/watch?v=gOhtMHOwg9c
👉 Questa pillola in versione testo / newsletter: https://disruptivetalks.substack.com/p/quicktalk-v06-ai-come-gli-llm-imparano

ATTENZIONE: consigliamo la versione video per non perdere la parte di presentazione dei grafici o altre informazioni. 

In uno precedente QuickTalk abbiamo esplorato Llama 3, il modello linguistico avanzato di Meta. La discussione si è incentrata sui benchmark e sulla loro "saturazione", un concetto cruciale per comprendere la direzione e le sfide della ricerca futura in intelligenza artificiale.

Due anni fa, il progetto Beyond the Imitation Game benchmark (BIG-bench) ha unito 450 ricercatori per creare 204 compiti volti a testare i Large Language Models (LLM). Il progetto mirava a valutare i limiti e le potenzialità di queste tecnologie, mettendo in luce le cosiddette "abilità emergenti". Queste abilità, che compaiono improvvisamente all'aumentare della complessità dei modelli, stanno spingendo i ricercatori a riflettere sui potenziali impatti e sui rischi dell'intelligenza artificiale.

Uno studio di Stanford ha messo in discussione i risultati del BIG-bench, suggerendo che i balzi nelle prestazioni potrebbero derivare dalle metodologie di valutazione usate, che non considerano punteggi intermedi. Questo ha portato a un dibattito sulla vera natura delle "abilità emergenti" e sulle metriche più adatte per misurare i progressi in questo campo.

La questione solleva importanti interrogativi filosofici sulla natura dell'intelligenza e della coscienza. Il dibattito si estende oltre la tecnologia per toccare aspetti fondamentali dell'esistenza e del comportamento complesso, riflettendo su come sistemi semplici possano manifestare proprietà inaspettatamente complesse.

Inviaci un SMS gratuito! Feedback, richieste di approfondimento... (non abbiamo la possibilità di rispondere: se desideri essere ricontattato, lascia i tuoi dettagli - telefono o email)

Support the Show.

❤️ Ti piace il nostro lavoro? Lascia un like e abbonati al nostro canale YouTube, questo ci aiuta tanto!
https://www.youtube.com/@DisruptiveTalksPodcast

✉️ Tutto il nostro contenuto in versione scritta (e senza l'accento francese) nella newsletter gratuita: https://disruptivetalks.substack.com/

► Sito ufficiale: https://disruptivetalks.it/
► Rimane in contatto diretto con noi su Telegram: https://t.me/DisruptiveTalksPodcast
► Seguici sul nostro canale Twitch: https://www.twitch.tv/disruptivetalks
► Sul nostro canale TikTok: https://www.tiktok.com/@disruptive.talks

❤️ Supporta il nostro canale e il nostro lavoro (che svolgiamo come una passione sul nostro tempo libero): https://www.buzzsprout.com/2242815/supporters/new
🟠 Hugh virtuali? Sats nel wallet!
► indirizzo BTC: 13K6fH34K4Qp11WFywYFh8nzYJXB3g9cPa

Cerchiamo COMMUNITY MANAGER / CO-HOST / VIDEO MONTATORE / COPYWRITER: kevin@disruptivetalks.it o https://disruptivetalks.it/contact/

Disruptive Talks
Aiutaci a continuare a creare contenuti senza pubblicità e con indipendenza!
Starting at $3/month
Support
Show Notes Transcript Chapter Markers

Estratto del QuickTalk v06 speciale LLM, RegTech e Kendrick Lamar vs. Drake (la storia della musica si svolge 24/7 su twitter).

👉 Questa pillola in versione video: https://www.youtube.com/watch?v=gOhtMHOwg9c
👉 Questa pillola in versione testo / newsletter: https://disruptivetalks.substack.com/p/quicktalk-v06-ai-come-gli-llm-imparano

ATTENZIONE: consigliamo la versione video per non perdere la parte di presentazione dei grafici o altre informazioni. 

In uno precedente QuickTalk abbiamo esplorato Llama 3, il modello linguistico avanzato di Meta. La discussione si è incentrata sui benchmark e sulla loro "saturazione", un concetto cruciale per comprendere la direzione e le sfide della ricerca futura in intelligenza artificiale.

Due anni fa, il progetto Beyond the Imitation Game benchmark (BIG-bench) ha unito 450 ricercatori per creare 204 compiti volti a testare i Large Language Models (LLM). Il progetto mirava a valutare i limiti e le potenzialità di queste tecnologie, mettendo in luce le cosiddette "abilità emergenti". Queste abilità, che compaiono improvvisamente all'aumentare della complessità dei modelli, stanno spingendo i ricercatori a riflettere sui potenziali impatti e sui rischi dell'intelligenza artificiale.

Uno studio di Stanford ha messo in discussione i risultati del BIG-bench, suggerendo che i balzi nelle prestazioni potrebbero derivare dalle metodologie di valutazione usate, che non considerano punteggi intermedi. Questo ha portato a un dibattito sulla vera natura delle "abilità emergenti" e sulle metriche più adatte per misurare i progressi in questo campo.

La questione solleva importanti interrogativi filosofici sulla natura dell'intelligenza e della coscienza. Il dibattito si estende oltre la tecnologia per toccare aspetti fondamentali dell'esistenza e del comportamento complesso, riflettendo su come sistemi semplici possano manifestare proprietà inaspettatamente complesse.

Inviaci un SMS gratuito! Feedback, richieste di approfondimento... (non abbiamo la possibilità di rispondere: se desideri essere ricontattato, lascia i tuoi dettagli - telefono o email)

Support the Show.

❤️ Ti piace il nostro lavoro? Lascia un like e abbonati al nostro canale YouTube, questo ci aiuta tanto!
https://www.youtube.com/@DisruptiveTalksPodcast

✉️ Tutto il nostro contenuto in versione scritta (e senza l'accento francese) nella newsletter gratuita: https://disruptivetalks.substack.com/

► Sito ufficiale: https://disruptivetalks.it/
► Rimane in contatto diretto con noi su Telegram: https://t.me/DisruptiveTalksPodcast
► Seguici sul nostro canale Twitch: https://www.twitch.tv/disruptivetalks
► Sul nostro canale TikTok: https://www.tiktok.com/@disruptive.talks

❤️ Supporta il nostro canale e il nostro lavoro (che svolgiamo come una passione sul nostro tempo libero): https://www.buzzsprout.com/2242815/supporters/new
🟠 Hugh virtuali? Sats nel wallet!
► indirizzo BTC: 13K6fH34K4Qp11WFywYFh8nzYJXB3g9cPa

Cerchiamo COMMUNITY MANAGER / CO-HOST / VIDEO MONTATORE / COPYWRITER: kevin@disruptivetalks.it o https://disruptivetalks.it/contact/

Speaker 1:

Ciao e benvenuto nella versione podcast del Disruptive Talks. Adesso vai a sentire un episodio che abbiamo registrato lunedì sera, dove andiamo a analizzare le emergent abilities, questa capacità, secondo certi documenti scientifici che ha l'intelligenza artificiale generativa, i modelli di generativi IA, di migliorare le loro capacità in modo inaspettato. Lo vedrete, è molto interessante e non riguarda solo l'intelligenza e l'IA generativa, anche i benchmark. Questo episodio vi consiglio comunque di vederlo in video sul nostro canale YouTube, perché ci sono dei grafici e altri visuali, ma comunque potrai capirlo con questo episodio La versione podcast è sempre rilavorata.

Speaker 1:

C'è un lavoro di post-production, quindi tolgo molto dei miei errori Dai. Ti lascio subito con questo episodio. Buon ascolto, ciao, ciao, ciao. Lo sapete, mi piace indagare su come funzionano le cose. È sempre interessante di capire il dietro, under the hood, parlando con gente che lavora nell'ambito il, come un modello riesce ad acquisire competenze. È sempre una tematica abbastanza complessa. Ricordatevi che una settimana e mezzo fa ho fatto un focus su la matre e abbiamo parlato dei benchmark. Oggi andiamo a ritrovare i benchmark. Perché entra in gioco. Si parla di cercare di capire come, a quale velocità i modelli imparano abilità inaspettate. Per capire questo, iniziamo da fermarci su un paper che è uscito in 2022, che fa un po' riferenza nell'ambito game o big bench e ha raggiunto 444 ricercatori di 132 istituzioni proprio per cercare di valutare e trovare un benchmark efficiente.

Speaker 1:

Sono partito del constato che vi ho raccontato una settimana fa, ovvero il benchmark attuale non riflettano bene lo stato dell'arte dei modelli. Vi leggo piuttosto l'introduzione del paper velocemente. Quindi i modelli linguistici dimostrano sia un miglioramento quantitativo che nuova capacità qualitative all'aumentare della scala. Quindi vi tradusco in parole povere più diamo parametri dati per addestrare il modello, più il modello sembra bravo, ma in più il paper indica che nel processo imparano anche nuove capacità. Nonostante il loro potenziale impatto trasformativo a questi modelli, queste nuove capacità sono ancora poco caratterizzate. Per informare la ricerca futura, prepararsi a nuove capacità dirompenti dei modelli e mitigare gli effetti socialmente dannosi, è fondamentale comprendere le capacità e i limiti presenti e dei prossimi futuro dei modelli linguistici.

Speaker 1:

Gli argomenti di età scattingono i problemi di linguistica, sviluppo infantile, matematica, ragionamento di buonsenso, biologia, fisica, anche pregiudizie sociali, sviluppo software e anche altre. Quindi cosa dice questo paper? Vi consiglio di andare a leggerlo nella newsletter. Aggiungerò il link verso questo paper. Qui, sulla prima parte, vediamo sullo schermo Cloud Word, più la parola è grandelio la metodologia di questo benchmark. Quindi qui vediamo, come vi dicevo, la limitazione dei benchmark attuali, la cosa che vi raccontavo una settimana fa, una versione light, proprio perché queste benchmark anche richiedono molto sforzo computazionale. Quindi hanno fatto queste due versioni di benchmark per poter eseguire delle benchmark in modo un po' più efficiente.

Speaker 1:

Interessante anche sulla metodologia quindi 80% di JSON file e 20% di Python, allora lì JSON file, javascript Object Notation. La differenza è chiave per cercare di capire come imparano questi modelli, perché con task JSON sono dei file in cui andiamo proprio a mettere le regole, quindi l'obiettivo, l'input e il target, e lasciamo la macchina ad estrarci con questo, mentre con Python, le file Python, possiamo creare delle logiche molto più complesse. Il problema è che più il test è fatto in Python, più richiederà sforzo computazionale. Qui c'è un trade-off fatto proprio per cercare di capire come meglio valutare quegli modelli. Qui vediamo proprio secondo il tipo di task, quindi JSON task, i risultati secondo i modelli. Qui vediamo proprio secondo il tipo di task, quindi JSON task, ben maci, i risultati secondo i modelli e dopo vediamo i risultati di questo benchmark che ha fatto referenza al momento quando è uscito, ed i risultati ancora. Questa analisi ve la metto sulla newsletter. Se andiamo a vedere i risultati, cosa dice questo paper? Semplicemente, questo paper ha dimostrato che nella maggior parte dei compiti.

Speaker 1:

Le prestazioni migliorano in modo prevedibile e regolare man mano che i modelli aumentano in dimensione. Questo lo diciamo sempre. Il punto importante è che con certi compiti il salto di abilità non è graduale. Le prestazioni rimanevano vicine allo zero e poi a un momento c'è una sorta di balzo e altri studi hanno confermato questo punto che cerchiamo di capire. Perché c'è questo balzo? perché e dove viene questo balzo? e questo balzo?

Speaker 1:

possiamo paragonarlo a questo momento che abbiamo nella psicologia umana. Anche noi il nostro sapere non è sempre incrementale. Un momento ogni tanto dove il sapere arriva e tutto il resto arriva Questo momento A che chiamiamo in psicologia. Qualche mesi dopo hanno cercato di analizzare questi balsi. Hanno chiamato queste capacità emergent abilities e vediamo proprio loro analisi. Questo paper anche sarà sulla newsletter. Vi consiglio di andare a leggerlo. Loro dicono hanno osservato che queste abilità non solo sono sorprendenti, ma anche imprevedibili. Hanno definito queste abilità come emergenti perché emergono dal, senza che ce lo aspettiamo.

Speaker 1:

Questa parola è stata scelta per descrivere comportamenti collettivi che appaiano quando un sistema raggiunde un alto livello di complessità e mettono un'alerta. Dicono che questo davvero è rischioso. Ma questo è vero, è così pericoloso. Infatti, ricordatevi la cosa che vi ho detto due settimane fa sui benchmark. Perché vi dico questo? Perché i benchmark ritornano. Infatti, un anno dopo, altri ricercatori hanno cercato di indagare su questi balzi. Questo paper si chiama Our Emergent Abilities of Large Manual Language Model a Mirage, un trio di ricercatori di Stanford University. Loro ipotizzano che l'improvvisa comparsa di queste abilità sia solo una conseguenza del modo in cui i ricercatori misurano le prestazioni degli LLM.

Speaker 1:

Sostengono che questo miglioramento appaia regolare e prevedibile, dovuto alla scarsità dei esempi di test. E vi mostro perché subito Sto le precedenti modelli di benchmark, dove non c'era questo calcolo incrementale dello sforzo del miglioramento dell'intelligenza. Se prendiamo questo esempio che vedete allo schermo, prendiamo un calcolo algoritmico. Vediamo un modello X con un numero specifico di parametri. Sarà molto lontano dal risultato giusto. Con un po' più di parametri, vediamo 168,. Ci avviciniamo del risultato giusto. Siamo sempre falso. Ok, il benchmark non riesce neanche a valutare la progressione, ma valuta solo il fatto che la risposta sia giusta o falsa. Sia giusta o falsa. Li vi mostro subito una versione con un benchmark che va a calcolare anche la proiezione. E quindi questi ricercatori dicono questo Il autore senior e i suoi collaboratori hanno testato lo stesso compito utilizzando una metrica che assegna proprio il punteggio parziale e facendo ciò si sono reso conto quindi che i modelli non hanno questi balsi.

Speaker 1:

Questa ricerca ha chiaramente aperto il dialogo, che tende anche ogni tanto ad andare sul filosofico. Lì vi mostro una risposta di Alex Tachim, che lavora per Anthropic, e lui ha risposto che sì, sì, questo paper dà spunti di riflessione molto interessante e non possiamo dire che tutti questi salti sono un miraggio. C'è anche qualcuno vi ritrovo il nome, jason Wei, scienziato informatico preso OpenAI, che aveva nel passato anche compilato qualche i renchi del QPI per Big Bench. Lui, la sua risposta mi fa piacere, è abb, abbastanza funny. Lui dice comunque in aritmetica, solo una risposta è buona, la risposta giusta. Quindi il balzo c'è. Vi lascio, giudico di questa cosa. Su queste ultime parole si chiude questa pillola. Ti ricordo che hai sentito una versione audio. Noi siamo in live una o due volte a settimana sul canale YouTube.

Speaker 1:

Durante queste live puoi interagire, scrivere i tuoi commenti. Cerco proprio di arrivare a un punto in cui ci sarà una interazione totale con degli invitati ogni volta e anche degli invitati imprevisti. Se vuoi prendere la parola, venire sul live sarà l'obiettivo. Ti ricordo i due stream tecnologie una volta a settimana e esetetica una volta ogni due o tre settimane. Quindi l'esetetica è sviluppare il nostro spirito critico con tecniche filosofiche e scientifiche.

Speaker 1:

Spero che apprezzi il contenuto che stiamo creando. Iniziamo appena, quindi abbiamo molto ascoltatori, anche gente che ci guardano, ma ancora un po' poco interazione. Non esitare a parlare di noi se ti piace, lasciare un commento ogni tanto, dare un feedback o chiedermi delle cose. Vi ascolto e farò sempre del mio meglio per uno migliorare e portare contenuto che mi interessa a me primo e che mi interessa a voi condividere le diverse scoperte. E ecco, lasciate un like, un commento. È la più grande cosa che potete fare dai. A presto ci ritroviamo giovedì, giovedì 9, per l'asetetica e altrimenti la settimana prossima parleremo dello spazio, dello space market e del blob, un organismo unicellulare che è una vera enigma della scienza, cioè non ha il cervello, ma impara, impara processi. È molto, molto interessante. Gli scientifici sono a analizzare questo per cercare di capire il processo di imparamento dai. Un abbraccio ciao, ciao, ciao.

Capacità Emergenti Nei Modelli Linguistici
Interazione E Contenuti Interessanti