注意力评分函数

http://zh.d2l.ai/chapter_attention-mechanisms/attention-scoring-functions.html

请问这里的batch_size 和num_queries的区别是什么 batch_size不应该是代表了一个batch里面查询的数目吗??

查询的shape: (batch_size, num_queries, q)
keys的shape:(batch_size, num_keys, k) (这里假设k和q不同)
我个人理解是比如1组数据包括5个batch(小批量),在CV里面是不是可以理解为有5张图片,每一张图片上做num_queries次询问,每一张图片提供num_keys条线索。
然后在一张图片完成所有的询问;再然后是一个小批量完成所有的询问。(暂时这么理解的,李沐老师后面的课还没有看 :grinning: