D2L Discussion
⽐较卷积神经⽹络、循环神经⽹络和⾃注意⼒(10.6.2节)
中文版
pytorch
sky_Faded
July 10, 2023, 2:29pm
1
书里提到卷积神经网络的最短路径长度是O(n / k ),可是transformer原始论文,还要李沐老师的论文解读里,都说是以k为底n的对数,请问是什么原因?