词嵌入(word2vec)

http://zh-v2.d2l.ai/chapter_natural-language-processing-pretraining/word2vec.html

练习里面的第一问梯度的计算复杂度该怎么求,是指training complexity吗,每一个梯度的计算复杂度是
m*T

1 Like

由于连续词袋模型中存在多个上下文词,因此在计算条件概率时对这些上下文词向量进行平均。 这是依据什么可以做平均处理的?

原始预料中,同一中心词可能存在不同的上下文词,此时其词向量是如何计算的呢?

请问公式14.1.5中 第一个连乘号 从1-T,这T个条件概率连乘的实际意义是代表什么意思?这一步没看懂。

我的理解是:
把一个T个单词组成的序列,拆成T个样本点组成的小数据集,每个样本点是(一个中心词,2m个上下文词),然后那个连乘的概率指的是这T个样本点的联合概率,因为再假设每个样本点是相互独立,所以就可以再写成连乘形式

不知道我上面的理解是否正确?