Flowtron Text to Speech

categorie

Flowtron


Flowtron è una tecnologia di nVidia che deriva da questo studio: "Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis".

Di cosa si tratta ?. Flowtron è una rete neurale generativa autoregressiva basata sul flusso per la sintesi vocale con il controllo della variazione del parlato e del trasferimento di tono e timbro. Flowtron prende in prestito intuizioni da IAF e rivisita Tacotron per fornire una sintesi MEL-spettrografica di alta qualità ed espressività. E' ottimizzato massimizzando la probabilità dei dati di addestramento, il che rende l'addestramento semplice e stabile. Flowtron apprende una mappatura invertibile dei dati in uno spazio latente che può essere manipolato per controllare molti aspetti della sintesi vocale (altezza, tono, velocità del discorso, cadenza, accento). I risultati sono sorprendenti, e benchè le voci abbiamo qualche distorsione di sintesi qua e là la presenza del tono e del timbro e della cadenza le fa sembrare assolutamente reali, e i difetti sembra siano dei disturbi di trasmissione del segnale, invece che imperfezioni.

Google Colab

SpeechBrain: A general-purpose PyTorch speech processing toolkit

Customize variations and style transfer
style transfer examples

github repo
reddit speechtech


Add new comment

The content of this field is kept private and will not be shown publicly.

Full HTML 2

  • Web page addresses and email addresses turn into links automatically.
  • Lines and paragraphs break automatically.

Filtered HTML

  • Web page addresses and email addresses turn into links automatically.
  • Allowed HTML tags: <a href hreflang> <em> <strong> <cite> <blockquote cite> <code> <ul type> <ol start type='1 A I'> <li> <dl> <dt> <dd> <h2 id='jump-*'> <h3 id> <h4 id> <h5 id> <h6 id>
  • Lines and paragraphs break automatically.
CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.