Ecco il mio problema. Ho alcuni file wav. Uso i wav come input per calcolare gli fbank. Quindi voglio fare alcune cose con fbanks e poi voglio ricreare un file wav associato al nuovo fbank. Sono consapevole che fbank non ha le informazioni sulla fase, tuttavia, dato che ho un file originale, posso (teoricamente) estrarre il fase dal file wav originale.

Per calcolare fbank dai wav che uso:

python_speech_features.fbank() 

Cè un modo per farlo ?

Commenti

  • A quale banco di filtri ti riferisci, mel-scale? Non ho familiarità con la libreria che stai utilizzando, ma librosa ha tutto ciò di cui hai bisogno. Puoi calcolare il mel-spettrogramma utilizzando melspectrogram e invertirlo direttamente in audio utilizzando mel_to_audio o utilizza mel_to_stft, seguito da istft in modo da poter utilizzare la fase originale.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *