1、x<0, ∂, x>0 1
2、忽略偏置,很好证,加上偏置就是进行平移
3、带入公式即可
4、直接使用非线性单元,如relu,部分数据会被忽略,丧失部分学习能力。
1 Like
他说的对,直接把这一行注释掉就可以了,没啥用
第二题的完整解法应该是这样的:
简略解释:
- 单个RELU函数是连续的分段线性函数。
- 多个RELU函数的组合(加减)和softmax操作仍然是连续的分段线性函数
- 多层的多个RELU函数的集合虽然函数维度发生变化,但仍然是连续的分段线性函数
通过问题2的延伸学习可得到如下结论:
(证明很复杂,欢迎大神补充通俗易懂的证明过程)
-
含有非线性激活函数的多层感知机在有限空间内能逼近任意连续函数
数学证明:
Multilayer Feedforward Networks are Universal Approximators
Approximation by Superpositions of a Sigmoidal Function -
第二题的结论反过来也成立,任意一个连续的分段线性函数可以被使用ReLU(或pReLU)的多层感知机近似
UNDERSTANDING DEEP NEURAL NETWORKS WITH RECTIFIED LINEAR UNITS的 (Theorem 2.1.)
你第一行把梯度设置为了0,这是有问题的,去掉就行了,具体原因我想看看你的x是怎么设置的
4.小批量数据可能不足以捕获整个数据分布的代表性特征,因此梯度估计不稳定
小批量数据可能学习效果差,导致结果看起来还是线性单元?