文本预处理

https://zh.d2l.ai/chapter_recurrent-neural-networks/text-preprocessing.html

Vocab.__init__的实现中,这一行加了以后会把’unk’字符给覆盖掉了,self.idx_to_token, self.token_to_idx = [], dict()