여기에 내 문제가 있습니다. wav 파일이 있습니다. wav를 입력으로 사용하여 fbank를 계산합니다. 그런 다음 수행하고 싶습니다. fbank와 관련된 몇 가지 항목을 사용하고 새 fbank에 연결된 wav 파일을 다시 만들고 싶습니다. fbank에 위상 정보가 없다는 것을 알고 있지만 원본 파일이 있으므로 (이론적으로) 원래 wav 파일에서 단계.

내가 사용하는 wav에서 fbank를 계산하려면 :

python_speech_features.fbank() 

그렇게 할 방법이 있습니까? ?

댓글

  • 멜 스케일이라는 필터 뱅크는 무엇입니까? 사용중인 라이브러리에 익숙하지 않지만 librosa에는 필요한 모든 것이 있습니다. melspectrogram 을 사용하여 mel-spectrogram을 계산하고 mel_to_audio 를 사용하여 오디오로 직접 반전 할 수 있습니다. 원래 단계를 활용할 수 있도록 mel_to_stft 다음에 istft를 사용하세요.

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다