categorie
TANGO genera effetti sonori condizionati dal testo, compreso il parlato umano e la musica.
Adotta un LLM FLAN-T5 regolato da istruzioni come codificatore di testo per la generazione di audio da testo (TTA). I lavori precedenti su TTA hanno preaddestrato un codificatore congiunto testo-audio o hanno utilizzato un modello non regolato dalle istruzioni, come il T5. Di conseguenza, questo approccio basato sul modello di diffusione latente (LDM) (TANGO) supera lo stato dell'arte AudioLDM nella maggior parte delle metriche e rimane comparabile sulle altre sul set di test AudioCaps, nonostante l'addestramento dell'LDM su un set di dati molto più piccolo.
Add new comment