Oto mój problem. Mam kilka plików wav. Używam plików wav jako danych wejściowych do obliczenia fbanków. Następnie chcę to zrobić trochę rzeczy z fbankami, a następnie chcę odtworzyć plik wav powiązany z nowym fbankiem. Wiem, że fbank nie ma informacji o fazie, jednak ponieważ mam oryginalny plik, mogę (teoretycznie) wyodrębnić faza z oryginalnego pliku wav.

Aby obliczyć fbank na podstawie plików wav, których używam:

python_speech_features.fbank() 

Czy istnieje sposób, aby to zrobić ?

Komentarze

  • Do jakiego banku filtrów się odnosisz, mel-scale? Nie znam biblioteki, której używasz, ale librosa ma wszystko, czego potrzebujesz. Możesz obliczyć spektrogram mel za pomocą melspectrogramu i odwrócić go bezpośrednio na dźwięk za pomocą mel_to_audio lub użyj mel_to_stft, a następnie istft, aby móc wykorzystać oryginalną fazę.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *