some questions:
-
这节看似简单,但模型/代码层面隐含着诸多细节。从这节中我总结了一些rules:
a. 无论是cv,nlp,时序数据等均是 numeric data to numeric data
b. NN 可以优雅处理sum, mean 等价任务
c. 所谓的‘对齐,比较,聚合’ 可看作是 ‘洞察,差异化,预测’, 即‘发现问题,分析问题,解决问题’ 过程一致性 -
看了 attending小节后,我就自然地想到后面的 comparing,aggregating大概要做的事情。其中我使用了另外的comparing方案,虽然效果比MLP差一些
少了一句这个吧
net.embedding.weight.requires_grad = False
我实验了一下,固定词嵌入的权重,loss一直很高,acc也上不去。我猜按照最初的设想,作者也是固定词嵌入的权重不变,但是发现loss降不下来,所以后来就不把requires_grad置为False了。包括在TextCNN的那一节中,搞了一个constant_embedding和一个embedding,只是为了保持行文逻辑的一致,本质上也已经放弃了固定词嵌入的权重的想法