Aquí está mi problema. Tengo algunos archivos wav. Utilizo los wavs como entrada para calcular los fbanks. Entonces quiero hacer algunas cosas con los fbanks y luego quiero recrear un archivo wav asociado al nuevo fbank. Soy consciente de que el fbank no tiene la información de fase, sin embargo, dado que tengo un archivo original, puedo (teóricamente) extraer el fase del archivo wav original.
Para calcular el fbank a partir de los wavs, utilizo:
python_speech_features.fbank()
¿Hay alguna manera de hacerlo? ?
mel_to_stft
, seguido deistft
para que pueda utilizar la fase original.