Un'abilità è considerata "emergente" se non è presente nei modelli più piccoli ma lo è in quelli più grandi. I modelli linguistici odierni sono stati dimensionati principalmente in base a tre fattori: quantità di calcolo, numero di parametri e dimensione del set di dati di addestramento.
In generale, si può considerare l'emergere di nuove proprietà come una funzione di molte variabili correlate. La scala in cui si osserva per la prima volta l'emergere di un'abilità dipende da una serie di fattori e non è una proprietà immutabile. In figura si vede come le prestazioni esplodano oltre un certo ordine di grandezza dei parametri.
Ecco una breve lista di oltre 200 proprietà emergenti dei modelli:
- La capacità di eseguire un compito tramite brevi serie di prompt legati (few-shots) è emergente quando un modello ha prestazioni casuali fino a una certa scala, dopodiché le prestazioni aumentano fino a diventare ben superiori.
- L'aumento di parametri aumenta le prestazioni della capacità di risolvere domande basate sulla conoscenza che abbraccia una vasta gamma di argomenti.
- Le prestazioni di Word in Context (WiC), che sono una soglia di comprensione semantica, sembrano non molto influenzate dal numero dei parametri, anche fino a 540B+.
- I compiti di ragionamento, in particolare quelli che prevedono più passaggi, sono stati una sfida per i modelli linguistici e per i modelli NLP in generale. Una recente strategia chiamata "chain-of-thought prompting" permette ai modelli linguistici di risolvere tali problemi guidandoli a produrre una sequenza di passaggi intermedi prima di fornire la risposta finale soprattutto quando viene scalato a 100B+ parametri.
Altre proprietà sono: Ragionamento a più Fasi, Seguire Istruzioni, Esecuzione di Programmi, Calibrazione dei Modelli.
The Unpredictable Abilities Emerging From Large AI Models
137 emergent abilities of large language models
209 Emergent Abilities of large language models.pdf
Add new comment