词嵌入(word2vec)

http://zh-v2.d2l.ai/chapter_natural-language-processing-pretraining/word2vec.html

练习里面的第一问梯度的计算复杂度该怎么求,是指training complexity吗,每一个梯度的计算复杂度是
m*T

1 Like

由于连续词袋模型中存在多个上下文词,因此在计算条件概率时对这些上下文词向量进行平均。 这是依据什么可以做平均处理的?

原始预料中,同一中心词可能存在不同的上下文词,此时其词向量是如何计算的呢?