bert预训练时，预测下一句的输入问题

happy · February 7, 2023, 12:55pm

用bert做预训练时，预测下一个句子时，为什么用<cls>作为输入？
书上的解释是，由于Transformer编码器中的自注意力，特殊词元<cls>的BERT表示已经对输入的两个句子进行了编码。这个怎么理解呢？