Aquí está mi problema. Tengo algunos archivos wav. Utilizo los wavs como entrada para calcular los fbanks. Entonces quiero hacer algunas cosas con los fbanks y luego quiero recrear un archivo wav asociado al nuevo fbank. Soy consciente de que el fbank no tiene la información de fase, sin embargo, dado que tengo un archivo original, puedo (teóricamente) extraer el fase del archivo wav original.

Para calcular el fbank a partir de los wavs, utilizo:

python_speech_features.fbank() 

¿Hay alguna manera de hacerlo? ?

Comentarios

  • ¿A qué banco de filtros se refiere, mel-scale? No estoy familiarizado con la biblioteca que estás usando, pero librosa tiene todo lo que necesitas. Puede calcular el espectrograma mel usando melspectrogram e invertirlo directamente en audio usando mel_to_audio o use mel_to_stft, seguido de istft para que pueda utilizar la fase original.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *