Hier ist mein Problem. Ich habe einige WAV-Dateien. Ich verwende die WAVs als Eingabe, um die Fbanks zu berechnen. Dann möchte ich es tun Einige Sachen mit den fbanks und dann möchte ich eine WAV-Datei neu erstellen, die der neuen fbank zugeordnet ist. Ich bin mir bewusst, dass die fbank nicht über die Phaseninformationen verfügt. Da ich jedoch eine Originaldatei habe, kann ich die (theoretisch) extrahieren Phase aus der ursprünglichen WAV-Datei.
Um die fbank aus den von mir verwendeten WAVs zu berechnen:
python_speech_features.fbank()
Gibt es eine Möglichkeit, dies zu tun ?
Kommentare
- Auf welche Filterbank beziehen Sie sich, Mel-Skala? Ich bin nicht mit der Bibliothek vertraut, die Sie verwenden, aber librosa hat alles, was Sie brauchen. Sie können das Mel-Spektrogramm mit Melspectrogramm berechnen und es mit mel_to_audio oder direkt in Audio umwandeln Verwenden Sie
mel_to_stft
, gefolgt vonistft
, damit Sie die ursprüngliche Phase verwenden können.