great question . 不过此时的词频是原来的子集了,感觉不能完全反映真实情况,即此时生成的noise words不能有效消除岐义等问题。另外我有另外想法是不是按照全局概率生成,而是context window外围的words具有较高权重,反之远离的更低。这样理应更容易克服这个问题
另外,目前生成的noise words存在若干问题:
a. 可能包含centers
b. 可能存在重复(即使在同一组中)
great question . 不过此时的词频是原来的子集了,感觉不能完全反映真实情况,即此时生成的noise words不能有效消除岐义等问题。另外我有另外想法是不是按照全局概率生成,而是context window外围的words具有较高权重,反之远离的更低。这样理应更容易克服这个问题
另外,目前生成的noise words存在若干问题:
a. 可能包含centers
b. 可能存在重复(即使在同一组中)
context words不是定长的,即不确定数量
chatgpt果真是master,我想到的只有第一点。
设想如果是固定大小,相当于不同epoch之间进行训练时batch是固定的,这样显然是low diversity
1e-4 / counter[token] * num_tokens 这个写法是对的。
等价于 1e-4 / (counter[token] / num_tokens)