文本预处理

LyricsGo · July 11, 2024, 10:37am

我也疑惑了半天，大意是

def count_corpus(tokens):  #@save
    """统计词元的频率"""
    # 这里的tokens是1D列表或2D列表

当tokens是一维空列表[]时，tokens[0]会报index溢出错误，有了len(tokens) == 0就会跳过if后半句避免bug。

Brian_Pak · November 25, 2024, 9:14am

最后的运行结果28表示：26个字母+空格+表示未知词元的《unk》。

TullyMonster · January 19, 2025, 7:17am

兴许是更 pythonic 的实现。欢迎参观

ytffj · January 23, 2025, 5:08am

为什么self.unk不用类属性定义还要单独用一个属性函数定义？

TullyMonster · January 23, 2025, 9:37am

我也觉得这里不太舒服哈哈哈哈，我后来是这样写的，可能更符合直觉。

liao · January 27, 2025, 8:14am

请问需要将标注了#@save的函数自己添加到d2l中吗？
我发现read_time_machine()、tokenize()等标注了#@save的函数都没有出现在d2l中，后续类似d2l.read_time_machine()会报错

需要自己将这些函数添加到d2l包中吗？
还是我安装的d2l包有问题？
谢谢！

nothankyouzzz · May 12, 2025, 12:34pm

这一节是不是把 corpus（语料）和 token_id 搞混了？

ChatGPT 的说法是 corpus 是原始文本，经过分词（tokenization）后成为词元（token），随后在词元的基础上建立词表（vocab），使 token 与 token_id 形成一一对应的关系（也就是把 token 变成一个数字）

osquerkkzlk · July 5, 2025, 2:48am

这个是双下划线方法，对自定义的类，py是不知道怎么去索引的，所以需要自己写__getitem__去告诉py怎么取索引