Här är mitt problem. Jag har några wav-filer. Jag använder wavs som ingång för att beräkna fbankerna. Sedan vill jag göra några saker med fbankerna och sedan vill jag återskapa en wav-fil som är associerad med den nya fbanken. Jag är medveten om att fbank inte har fasinformationen, men eftersom jag har en originalfil kan jag (teoretiskt) extrahera fas från den ursprungliga wav-filen.
För att beräkna fbanken från de wavs jag använder:
python_speech_features.fbank()
Finns det ett sätt att göra det ?
mel_to_stft
, följt avistft
så att du kan använda den ursprungliga fasen.