Her er problemet mitt. Jeg har noen wav-filer. Jeg bruker wavs som input for å beregne fbanks. Så vil jeg gjøre noen ting med fbankene, og så vil jeg gjenskape en wav-fil tilknyttet den nye fbanken. Jeg er klar over at fbanken ikke har faseinformasjonen, men siden jeg har en originalfil, kan jeg (teoretisk sett) trekke ut fase fra den opprinnelige wav-filen.

For å beregne fbank fra wavs bruker jeg:

python_speech_features.fbank() 

Er det en måte å gjøre det ?

Kommentarer

  • Hvilken filterbank refererer du til, mel-skala? Jeg er ikke kjent med biblioteket du bruker, men librosa har alt du trenger. Du kan beregne mel-spektrogrammet ved hjelp av melspectrogram og invertere det direkte til lyd ved hjelp av mel_to_audio eller bruk mel_to_stft, etterfulgt av istft slik at du kan bruke den opprinnelige fasen.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *