⽐较卷积神经⽹络、循环神经⽹络和⾃注意⼒(10.6.2节)

书里提到卷积神经网络的最短路径长度是O(n / k ),可是transformer原始论文,还要李沐老师的论文解读里,都说是以k为底n的对数,请问是什么原因?