文本预处理

我也疑惑了半天,大意是

def count_corpus(tokens):  #@save
    """统计词元的频率"""
    # 这里的tokens是1D列表或2D列表

当tokens是一维空列表[]时,tokens[0]会报index溢出错误,有了len(tokens) == 0就会跳过if后半句避免bug。