Aqui está o meu problema. Eu tenho alguns arquivos wav. Eu uso o wavs como entrada para calcular os fbanks. Então eu quero fazer algumas coisas com o fbanks e depois quero recriar um arquivo wav associado ao novo fbank. Estou ciente de que o fbank não tem as informações de fase, no entanto, como tenho um arquivo original, posso (teoricamente) extrair o fase do arquivo wav original.

Para calcular o fbank a partir dos wavs que eu uso:

python_speech_features.fbank() 

Existe uma maneira de fazer isso ?

Comentários

  • A qual banco de filtros você está se referindo, escala mel? Não estou familiarizado com a biblioteca que você está usando, mas a librosa tem tudo de que você precisa. Você pode calcular o espectrograma mel usando espectrograma mel e invertê-lo diretamente para áudio usando mel_to_audio ou use mel_to_stft, seguido de istft para que possa utilizar a fase original.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *