これが私の問題です。いくつかのwavファイルがあります。入力としてwavを使用して、fbankを計算します。次に実行します。 fbanksにいくつかのものがあり、新しいfbankに関連付けられたwavファイルを再作成したいと思います。fbankにはフェーズ情報がないことは承知していますが、元のファイルがあるため、(理論的には)抽出できます。元のwavファイルからのフェーズ。
使用するwavからfbankを計算するには:
python_speech_features.fbank()
これを行う方法はありますか。 ?
mel_to_stft
を使用し、続いてistft
を使用して、元のフェーズを利用できるようにします。