Oto mój problem. Mam kilka plików wav. Używam plików wav jako danych wejściowych do obliczenia fbanków. Następnie chcę to zrobić trochę rzeczy z fbankami, a następnie chcę odtworzyć plik wav powiązany z nowym fbankiem. Wiem, że fbank nie ma informacji o fazie, jednak ponieważ mam oryginalny plik, mogę (teoretycznie) wyodrębnić faza z oryginalnego pliku wav.
Aby obliczyć fbank na podstawie plików wav, których używam:
python_speech_features.fbank()
Czy istnieje sposób, aby to zrobić ?
mel_to_stft
, a następnieistft
, aby móc wykorzystać oryginalną fazę.