Iată problema mea. Am câteva fișiere wav. Folosesc wav-urile ca intrare pentru a calcula bancurile. Apoi vreau să fac unele lucruri cu fbanks și apoi vreau să recreez un fișier wav asociat noii fbank. Sunt conștient de faptul că fbank nu are informațiile de fază, totuși, deoarece am un fișier original, pot (teoretic) extrage fază din fișierul wav original.

Pentru a calcula fbank din wav-urile pe care le folosesc:

python_speech_features.fbank() 

Există o modalitate de a face acest lucru ?

Comentarii

  • La ce bancă de filtre vă referiți, mel-scale? Nu sunt familiarizat cu biblioteca pe care o folosiți, dar librosa are tot ce aveți nevoie. Puteți calcula spectrograma mel utilizând melspectrogram și inversa-l direct în audio folosind mel_to_audio sau utilizați mel_to_stft, urmat de istft, astfel încât să puteți utiliza faza inițială.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *