自然语言推断：使用注意力

xiaotinghe · December 7, 2021, 6:27pm

http://zh-v2.d2l.ai/chapter_natural-language-processing-applications/natural-language-inference-attention.html

JH.Lam · January 6, 2025, 10:26am

some questions：

这节看似简单，但模型/代码层面隐含着诸多细节。从这节中我总结了一些rules：
a. 无论是cv，nlp，时序数据等均是 numeric data to numeric data
b. NN 可以优雅处理sum, mean 等价任务
c. 所谓的‘对齐，比较，聚合’ 可看作是 ‘洞察，差异化，预测’，即‘发现问题，分析问题，解决问题’ 过程一致性
看了 attending小节后，我就自然地想到后面的 comparing，aggregating大概要做的事情。其中我使用了另外的comparing方案，虽然效果比MLP差一些

wangyi7099 · September 9, 2025, 1:41pm

少了一句这个吧
net.embedding.weight.requires_grad = False

pentatracy5 · November 12, 2025, 3:31am

我实验了一下，固定词嵌入的权重，loss一直很高，acc也上不去。我猜按照最初的设想，作者也是固定词嵌入的权重不变，但是发现loss降不下来，所以后来就不把requires_grad置为False了。包括在TextCNN的那一节中，搞了一个constant_embedding和一个embedding，只是为了保持行文逻辑的一致，本质上也已经放弃了固定词嵌入的权重的想法