语言模型和数据集

Q1

需要储存100,000个词频与100,000-4+1 = 99,997个相邻词频率

Q2

将一个句子设为一个corpus

Q3

可以通过神经网络回归进行拟合

Q4

使用随机序列长度进行读取,或对长序列进行分段,并在分段中进行随机采样

这里的中文机翻极了,我前面章节和知识都能看懂,这里几乎无法理解

Preformatted text 当设置为二元语法或更多时,每个词元是一个元组或者"UNK",进行排序的时候,如果报错TypeError: ‘<’ not supported between instances of ‘str’ and ‘tuple’
将torch.py对应行改为self.idx_to_token = list(sorted(set(['<unk>'] + reserved_tokens + [ token for token, freq in self.token_freqs if freq >= min_freq]), key=lambda x:' '.join(map(str, x))))即可,这样也保持了字典序排列

可以修改函数d2l.plot,自己定义一个,给它多设置几种线条样式,这样就可以多画几条了。

1 Like

随机抽样和顺序分区得到的结果有什么不同?顺序分区得到的结果哪里体现了相邻呢?