Pytorchaudio Spectrogram Output Size:- Unexpected number of SFTs

Paul_Creaser · March 9, 2020, 1:31am

Hi,

I am applying the pyaudio spectrogram to a 512 sample audio sample.

An example below:-

waveform = 512 samples
specgram = torchaudio.transforms.Spectrogram(hop_length=64)(waveform)

I thought this would generate 512/64=8 Hops, so 8 SFTs for the spectrogram, however it generates 9.

waveform = 512 samples
specgram = torchaudio.transforms.Spectrogram(hop_length=128)(waveform)

I thought this would generate 512/128=4 SFTs for the spectrogram, however it generates 5.

I guess it may start at the -hop_length/2 and finishes at 512 + hop_length/2

Pad is set to zero by default. If it is set to 32, it increases the number of SFTs by 1 as expected.