延后初始化

xiaotinghe · December 7, 2021, 6:27pm

https://zh.d2l.ai/chapter_deep-learning-computation/deferred-init.html

foxhunter · December 30, 2021, 10:59am

5.3. 延后初始化这个不支持`pytorch`嘛??

foxhunter · December 30, 2021, 10:59am

请问这个延后初始化功能 pytorch不支持吗

hanmala123 · January 6, 2022, 3:50pm

支持的，了解一下nn.LazyLinear

Erostrate9 · February 26, 2022, 10:43am

支持的，使用 torch.nn.LazyLinear，但是PyTorch的这个功能正处于开发阶段，API或功能的变化随时可能发生。
以下给出样例代码

import torch
from torch import nn
net = nn.Sequential(nn.LazyLinear(256), nn.ReLU(),nn.Linear(256,10))
print(net)

[net[i].state_dict() for i in range(len(net))]

low = torch.finfo(torch.float32).min/10
high = torch.finfo(torch.float32).max/10
X = torch.zeros([2,20],dtype=torch.float32).uniform_(low, high)
net(X)
print(net)

DJ_Zhu · September 18, 2022, 4:44am

英文版中其实已经补全了pytorch部分的代码，如下：

import torch
from torch import nn

"""延后初始化"""
net = nn.Sequential(nn.LazyLinear(256), nn.ReLU(), nn.LazyLinear(10))
# print(net[0].weight)  # 尚未初始化
print(net)

X = torch.rand(2, 20)
net(X)
print(net)

DJ_Zhu · September 18, 2022, 5:05am

Q1: 如果你指定了第一层的输入尺寸，但没有指定后续层的尺寸，会发生什么？是否立即进行初始化？
A1: 可以正常运行。第一层会立即初始化,但其他层同样是直到数据第一次通过模型传递才会初始化(不知道题目理解的对不对)

net = nn.Sequential(
    nn.Linear(20, 256), nn.ReLU(),
    nn.LazyLinear(128), nn.ReLU(),
    nn.LazyLinear(10)
)
print(net[0].weight)
print(net[2].weight)
net(X)
print(net[2].weight)

Q2: 如果指定了不匹配的维度会发生什么？
A2: 会由于矩阵乘法的维度不匹配而报错

X = torch.rand(2, 10)
net(X)

Q3: 如果输入具有不同的维度，你需要做什么？提示：查看参数绑定的相关内容。
A3: 如果输入维度比指定维度小，可以考虑使用padding填充；如果输入维度比指定维度大，可以考虑用pca等降维方法，将维度降至指定维度。

faye · December 12, 2022, 3:54am

这一节说的“没有指定输入维度”是只针对LazyLinear吗？比如nn.Linear(20, 256)是有指定输入维度吧？

jijingdeyi · April 15, 2023, 10:46am

我认为是的，nn.Linear(20,256)指定了输入维度

PengJinHuang · May 16, 2024, 12:05pm

对啊，看书看到这里，我都懵逼了，明明已经指定输入维度了。

hitori · June 26, 2024, 6:40am

因为英文版在这一章的前面小节都用的LazyLinear

LyricsGo · July 1, 2024, 1:00pm

Q3

class VaryDim(nn.Module):
    def __init__(self):
        super().__init__() 

    def forward(self, X):
        lazy = nn.LazyLinear(256)
        return lazy(X)
    
net = nn.Sequential(VaryDim(), nn.ReLU(), nn.LazyLinear(1))
X = torch.rand(2, 10)
Y = torch.rand(2, 20)
print(net(X))
print(net(Y))

TullyMonster · September 5, 2024, 1:28am

感兴趣的话，大家可以关注我的知识库 ~ 持续更新我的笔记

ButuSun · January 13, 2025, 11:46am

我觉得问题3和参数绑定没关系啊，因为：
参数绑定的目的是控制模型的参数共享，而不是解决输入维度的问题。尽管两者都能减少模型的灵活性，但它们适用场景不同。参数绑定不会改变输入数据的形状需求，绑定的层仍然需要符合前后连接的维度约束。

TT2iris · January 25, 2025, 12:44pm

我有一个数学相关的问题，Z = WY + B, 这里显示的W的size是[256，20]，我觉得应该是[20, 256]。有没有人能帮忙解惑。
下面是报错时弹出的weight矩阵size

osquerkkzlk · June 26, 2025, 9:09am

延后初始化，也就是定义时，不给出输入维度，让系统根据真实的输入shape去判断。定义层大小时即便唯独不匹配，也不会报错，只有在forward（前向传播）并且需要处理数据时，如果维度不匹配会直接报错（维度匹配是根本）

延后初始化

5.3. 延后初始化 这个不支持pytorch嘛??

5.3. 延后初始化这个不支持`pytorch`嘛??