http://zh-v2.d2l.ai/chapter_natural-language-processing-pretraining/word2vec.html
练习里面的第一问梯度的计算复杂度该怎么求,是指training complexity吗,每一个梯度的计算复杂度是
m*T
吗
1 Like
由于连续词袋模型中存在多个上下文词,因此在计算条件概率时对这些上下文词向量进行平均。 这是依据什么可以做平均处理的?
原始预料中,同一中心词可能存在不同的上下文词,此时其词向量是如何计算的呢?