多层感知机

https://zh.d2l.ai/chapter_multilayer-perceptrons/mlp.html

这里区别于原文所说应用于小批量中的一个行,也就是一个样本,我不知道应该看出什么问题。最后想到,也许所谓“一次应用于一个小批量”指的是,同一个小批量内各个输入向量(或者张量?)对应的输出在结果中并不是简单的拼接,而是这一个函数使用整个batch的若干个向量作为输入,输出是一个综合的结果,比如batch内的输入向量相加作为输出向量,或者各列的最值组成输出向量。这听起来很奇怪,有点不知所云,但是我想不到题目有可能想表达的别的意思,也不知道怎么出题会导致所谓的一个“问题”。
假如确实是我猜的这个意思,计算网络在不考虑反向传播的情况下其输出结果是与对数据集的划分有关的,会给我们解释训练的原理造成麻烦。学这个模型应该也没有期望着要挖掘出来数据点之间的关系。

3.2说了batch是可以用GPU整个并行计算以节省时间的,这说不能并行计算的话,感觉是前后矛盾了。应该就是不能进行那种不能并行的计算吧,比如对同一个batch里的一个输入向量a和另一个输入向量b计算a+b,这干脆只有一个计算,都谈不上并行了。

现在还开始困惑了。输入层的输入可能是向量也可能是张量,那么隐藏层的输出都一定是向量吗?大概,一个计算神经元有一个激活函数,出来一定是一个实数,整个层的输出就一定是一个向量了。对于输入的一个张量,假如直接拆成一个个向量分别输入当然好处理,但是如果想保留张量的结构信息可能还需要以后再学具体的技术?现在只能是当作只输入向量不考虑输入张量先学着