これが私の問題です。いくつかのwavファイルがあります。入力としてwavを使用して、fbankを計算します。次に実行します。 fbanksにいくつかのものがあり、新しいfbankに関連付けられたwavファイルを再作成したいと思います。fbankにはフェーズ情報がないことは承知していますが、元のファイルがあるため、(理論的には)抽出できます。元のwavファイルからのフェーズ。

使用するwavからfbankを計算するには:

python_speech_features.fbank() 

これを行う方法はありますか。 ?

コメント

  • どのフィルターバンクを参照していますか、メルスケールですか?私はあなたが使用しているライブラリに精通していませんが、librosaにはあなたが必要とするすべてのものがあります。 melspectrogram を使用してメルスペクトログラムを計算し、 mel_to_audio を使用してオーディオに直接反転するか、 mel_to_stftを使用し、続いてistftを使用して、元のフェーズを利用できるようにします。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です