用bert做预训练时,预测下一个句子时,为什么用<cls>作为输入? 书上的解释是,由于Transformer编码器中的自注意力,特殊词元<cls>的BERT表示已经对输入的两个句子进行了编码。这个怎么理解呢?