Su reddit l'utente aimikummd pubblica un video di Hatsune Miku che balla.
Fin qui nulla di nuovo, ce ne sono migliaia grazie al software MMD.
Ma ecco che entra in scena un nuovo, significativo passo del processo di animazione automatizzato: l'uso di Controlnet 1.1 Lineart converte l'animazione direttamente in un anime 2D, quasi indistinguibile già ora dallo sforzo di un ottimo animatore, ovvero niente "effetto rotoscoping".
Netflix insiste con le sue pessime conversioni da anime, ma qui si apre uno scenario completamente opposto. Fra poco se non già da ora gli utenti potranno convertire qualsiasi film o serie live action in un anime, facendo letteralmente esplodere la polizia del copyright (c'è già un esempio: Test TemporalKit v1.3/EBsynth, Alita Battle Angel 2019 Movie).
"È come collaborare con un alieno".
"Tutto diventa molto più facile".
"Mi sembra di aver assunto uno stagista".
"Quello che prima mi richiedeva circa mezz'ora per scrivere ora richiede un minuto".
"È molto divertente".
Prima che distrugga il mondo ecco come farsi un idea sui vari modi di usare la AI:
Pianificare giardini, pasti e allenamenti.
Fare un regalo.
Progettare parti di astronavi.
Organizzare il desktop di un computer in disordine o le ricerche per una tesi.
Scrivere un discorso o un'e-mail.
Ottenere una prima lettura o fare l'avvocato del diavolo.
Sfogliare decine di articoli accademici.
Ordinare un archivio di immagini.
Fare ricorso contro un rifiuto dell'assicurazione.
Scrivere formule di Excel.
Ottenere un feedback su un testo di narrativa.
Chiedere aiuto per i compiti.
Imparare il cinese.
Ottenere aiuto quando l'inglese è la vostra seconda lingua.
Creare un'applicazione quando non si è mai codificato prima.
Correggere i bug del codice.
Costruire giochi completamente nuovi.
Descrivere interi mondi di Dungeons & Dragons.
Ars Technica ci svela in questo articolo dedicato a "Smallville" una città RPG nella quale i ricercatori studiano i comportamenti emergenti dell'IA in un mondo sandbox ispirato a The Sims. E succedono cose sorprendenti quando si mettono insieme 25 agenti di intelligenza artificiale in un contesto del genere.
"Gli agenti generativi si svegliano, preparano la colazione e si recano al lavoro; gli artisti dipingono e gli autori scrivono; si formano opinioni, si accorgono l'uno dell'altro e avviano conversazioni; ricordano e riflettono sui giorni passati mentre pianificano il giorno successivo", scrivono i ricercatori nel loro articolo: "Generative Agents: Interactive Simulacra of Human Behavior".
Per studiare il gruppo di agenti AI, i ricercatori hanno creato una città virtuale chiamata "Smallville", che comprende case, un bar, un parco e un negozio di alimentari. Ai fini dell'interazione tra P"N"G, il mondo è rappresentato sullo schermo da una vista dall'alto, utilizzando una grafica pixel in stile retrò che ricorda un classico RPG giapponese a 16 bit.
Tabby è un assistente AI alla programmazione in hosting locale. Un'alternativa opensource / on-premise di GitHub Copilot. E' ancora in fase alfa.
Caratteristiche:
- Autosufficiente, non necessita di un DBMS o di un servizio cloud.
- Interfaccia web per la visualizzazione e la configurazione di modelli e MLOP.
- Interfaccia OpenAPI, facile da integrare con l'infrastruttura esistente (ad esempio Cloud IDE).
- Supporto delle GPU di livello consumer (FP-16 weight loading con varie ottimizzazioni).
- Richiede Pascal or newer NVIDIA GPU
Quando ChatGPT scrive qualcosa come un saggio, ciò che fa è chiedersi ripetutamente "dato il testo fino a qui, quale dovrebbe essere la prossima parola ?",
Questa "parola" aggiunta si definisce "token", e potrebbe anche essere incompleto, per cui a volte possono essere "inventate nuove parole". Ad ogni passo si ottiene un elenco di parole con le relative probabilità.
Se a volte (a caso) si scelgono parole di rango inferiore, si può ottenere un saggio "più interessante".
Il parametro che regola questa scelta si chiama "temperatura", e determina la frequenza con cui vengono usate le parole di rango più basso; in molti casi una "temperatura" di 0,8 sembra essere l'ideale.
Con l'addestramento su un numero sufficiente di testi in lingua, si possono ottenere stime abbastanza buone non solo per le probabilità di singole lettere o coppie di lettere (2-grammi), ma anche per serie di lettere più lunghe. Ad esempio ci sono circa 40.000 parole ragionevolmente usate in inglese.
Esaminando un ampio corpus di testi in inglese (ad esempio qualche milione di libri, con un totale di qualche centinaio di miliardi di parole), possiamo ottenere una stima di quanto sia comune ogni parola.
E con questa si può iniziare a generare "intere frasi", in cui ogni parola è scelta indipendentemente a caso, con la stessa probabilità che appaia nel corpus.
Come per le lettere, possiamo iniziare a prendere in considerazione non solo le probabilità per le singole parole, ma anche quelle per le coppie o per gli n-grammi di parole più lunghi.
Supponiamo di voler sapere (come fece Galileo alla fine del 1500) quanto tempo impiegherà una palla di cannone lanciata da ogni piano della Torre di Pisa a toccare il suolo. Si potrebbe misurare in ogni caso e fare una tabella dei risultati. Immaginiamo di avere dei dati (un po' idealizzati) su quanto tempo impiega una palla di cannone a cadere da vari piani: come facciamo a capire quanto tempo impiega a cadere da un piano di cui non abbiamo dati espliciti?
In questo caso particolare, possiamo usare le leggi fisiche conosciute per calcolarlo.
E da questa linea retta possiamo stimare il tempo di caduta per qualsiasi piano.
Ma per ChatGPT dobbiamo creare un modello di testo in lingua umana del tipo prodotto da un cervello umano. E per una cosa del genere non abbiamo (almeno per ora) nulla di simile alla "matematica semplice".
Se il nostro obiettivo è produrre un modello di ciò che gli esseri umani possono fare nel riconoscimento delle immagini, la vera domanda da porsi è cosa avrebbe fatto un essere umano se gli fosse stata presentata una di quelle immagini sfocate, senza sapere da dove provenisse.
Abbiamo un "buon modello" se i risultati che otteniamo dalla nostra funzione concordano tipicamente con quello che direbbe un umano.
L'approccio attuale più popolare, e di successo, utilizza le reti neurali. Inventate negli anni '40, in una forma molto simile a quella attuale, le reti neurali possono essere considerate come semplici idealizzazioni del funzionamento del cervello.
La configurazione di un "diagramma di Voronoi" separa i punti nello spazio euclideo 2D; il compito di riconoscimento delle cifre può essere pensato come se facesse qualcosa di molto simile, ma in uno spazio a 784 dimensioni formato dai livelli di grigio di tutti i pixel di ogni immagine.
Soprattutto nell'ultimo decennio, ci sono stati molti progressi nell'arte dell'addestramento delle reti neurali.
Ma per lo più le cose sono state scoperte per tentativi ed errori, aggiungendo idee e trucchi che hanno progressivamente costruito una tradizione significativa su come lavorare con le reti neurali.
Questo non vuol dire che non esistano "idee strutturanti" rilevanti per le reti neurali.
Così, ad esempio, avere matrici di neuroni in 2D con connessioni locali sembra almeno molto utile nelle prime fasi di elaborazione delle immagini.
E le attuali reti neurali, con gli attuali approcci all'addestramento delle reti neurali, si occupano specificamente di matrici di numeri.
Ora c'è il problema di ottenere i dati con cui addestrare la rete.
Molte delle sfide pratiche legate alle reti neurali e all'apprendimento automatico in generale si concentrano sull'acquisizione o sulla preparazione dei dati di addestramento necessari. Quanti dati bisogna mostrare a una rete neurale per addestrarla a un compito particolare?
In generale, le reti neurali hanno bisogno di "vedere molti esempi" per allenarsi bene.
È inoltre necessario mostrare alla rete neurale variazioni dell'esempio.
Sumplete è stato progettato e realizzato completamente da chatGPT.
E' stato chiesto prima di consigliare un nuovo rompicapo da giocare per chi apprezza il Sudoku.
Dopo aver ottenuto un buon elenco di risultati, già tutti noti, ci si è chiesto se ChatGPT potesse davvero inventare un proprio rompicapo. Al quarto tentativo è venuto fuori questo "Sum Delete puzzle" che sembrava interessate. Ma è in grado di crearne una versione giocabile ?
30 secondi dopo c'era già una versione completamente giocabile del puzzle nel browser. Alla fine è stato chiesto perfino di migliorare il design aggiungendo alcuni CSS e di inventarsi un nome.
Un'abilità è considerata "emergente" se non è presente nei modelli più piccoli ma lo è in quelli più grandi. I modelli linguistici odierni sono stati dimensionati principalmente in base a tre fattori: quantità di calcolo, numero di parametri e dimensione del set di dati di addestramento.
In generale, si può considerare l'emergere di nuove proprietà come una funzione di molte variabili correlate. La scala in cui si osserva per la prima volta l'emergere di un'abilità dipende da una serie di fattori e non è una proprietà immutabile. In figura si vede come le prestazioni esplodano oltre un certo ordine di grandezza dei parametri.
Ecco una breve lista di oltre 200 proprietà emergenti dei modelli:
- La capacità di eseguire un compito tramite brevi serie di prompt legati (few-shots) è emergente quando un modello ha prestazioni casuali fino a una certa scala, dopodiché le prestazioni aumentano fino a diventare ben superiori.
- L'aumento di parametri aumenta le prestazioni della capacità di risolvere domande basate sulla conoscenza che abbraccia una vasta gamma di argomenti.
- Le prestazioni di Word in Context (WiC), che sono una soglia di comprensione semantica, sembrano non molto influenzate dal numero dei parametri, anche fino a 540B+.
- I compiti di ragionamento, in particolare quelli che prevedono più passaggi, sono stati una sfida per i modelli linguistici e per i modelli NLP in generale. Una recente strategia chiamata "chain-of-thought prompting" permette ai modelli linguistici di risolvere tali problemi guidandoli a produrre una sequenza di passaggi intermedi prima di fornire la risposta finale soprattutto quando viene scalato a 100B+ parametri.
Altre proprietà sono: Ragionamento a più Fasi, Seguire Istruzioni, Esecuzione di Programmi, Calibrazione dei Modelli.
Talk to Wikipedia using chatGPT può sembrare un po' sciocco e troppo di moda, ma è veramente un'esperienza interessante, che mostra in pochissimi istanti come il motore di ricerca di Google sia abbastanza obsoleto, oltre ad essere enshittificato da anni e anni di SEO.
Simple LLaMA Finetuner è un'interfaccia facile da usare per facilitare la messa a punto del modello linguistico LLaMA-7B utilizzando il metodo LoRA tramite la libreria PEFT (State-of-the-art Parameter-Efficient Fine-Tuning) su GPU NVIDIA di qualità.
Con un set di dati di piccole dimensioni e una lunghezza dei campioni di 256, è possibile eseguire questa operazione anche su una normale istanza di Colab Tesla T4.
Grazie a questa intuitiva interfaccia utente, è possibile gestire facilmente il dataset, personalizzare i parametri, addestrare e valutare le capacità di inferenza del modello LL.