Fbankをwavに戻す | Complex Solutions

これが私の問題です。いくつかのwavファイルがあります。入力としてwavを使用して、fbankを計算します。次に実行します。 fbanksにいくつかのものがあり、新しいfbankに関連付けられたwavファイルを再作成したいと思います。fbankにはフェーズ情報がないことは承知していますが、元のファイルがあるため、（理論的には）抽出できます。元のwavファイルからのフェーズ。

使用するwavからfbankを計算するには：

python_speech_features.fbank()

これを行う方法はありますか。？

コメント

どのフィルターバンクを参照していますか、メルスケールですか？私はあなたが使用しているライブラリに精通していませんが、librosaにはあなたが必要とするすべてのものがあります。 melspectrogram を使用してメルスペクトログラムを計算し、 mel_to_audio を使用してオーディオに直接反転するか、 mel_to_stftを使用し、続いてistftを使用して、元のフェーズを利用できるようにします。

コメントを残すコメントをキャンセル