我也疑惑了半天,大意是
def count_corpus(tokens): #@save
"""统计词元的频率"""
# 这里的tokens是1D列表或2D列表
当tokens是一维空列表[]
时,tokens[0]会报index溢出错误,有了len(tokens) == 0
就会跳过if后半句避免bug。
我也疑惑了半天,大意是
def count_corpus(tokens): #@save
"""统计词元的频率"""
# 这里的tokens是1D列表或2D列表
当tokens是一维空列表[]
时,tokens[0]会报index溢出错误,有了len(tokens) == 0
就会跳过if后半句避免bug。
最后的运行结果28表示:26个字母+空格+表示未知词元的《unk》。
兴许是更 pythonic 的实现。欢迎参观
为什么self.unk不用类属性定义还要单独用一个属性函数定义?