文本预处理

https://zh-v2.d2l.ai/chapter_recurrent-neural-networks/text-preprocessing.html

运行8.2.1时报错UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xc9 in position 1440: invalid continuation byte

已经解决了, 是由于学校内的校园网络问题网络问题

1 Like

对于class vocab的定义在如图所示的位置是否存在重复的定义的问题。
这问题会使得“”的字符与“the”这个字符的索引都是0,正确的“the”字符的索引应该为1

这里确实重复定义了,这句话是多余的。加这句话 unk 实际上没有存进去,改的方法最简单的是直接删除这句话,工具包的源代码就没有这条语句(如下图)。另一种会麻烦很多,就是用别的变量来记录和操作(李沐大神课堂里放的代码用的是这种方法)
1638844432(1)