Why does the code in seq2seq tutorial use one GRU across layers?

lmatt · September 20, 2017, 3:50am

class EncoderRNN(nn.Module):
    def __init__(self, input_size, hidden_size, n_layers=1):
        super(EncoderRNN, self).__init__()
        self.n_layers = n_layers
        self.hidden_size = hidden_size

        self.embedding = nn.Embedding(input_size, hidden_size)
        self.gru = nn.GRU(hidden_size, hidden_size)

    def forward(self, input, hidden):
        embedded = self.embedding(input).view(1, 1, -1)
        output = embedded
        for i in range(self.n_layers):
            output, hidden = self.gru(output, hidden)
        return output, hidden

    def initHidden(self):
        result = Variable(torch.zeros(1, 1, self.hidden_size))
        if use_cuda:
            return result.cuda()
        else:
            return result

smth · September 20, 2017, 4:13am

One GRU for many layers: the weights will be shared across all layers

Use n_layers instead: each layer will learn different weights.

lmatt · September 20, 2017, 5:05am

Thanks for your response. Which one is more preferred if i need to use multiple layers?

smth · September 21, 2017, 2:57am

it depends on what you are trying to do. depends on the task at hand.