批量规范化

教程中使用BN后选择将学习率提高了,这是为什么呢?
我的一个猜想是:BN使得函数的值域变小,成为一个更小的区间,而自变量的范围不变,因此学习的步幅变大在值域上的移动并不会太多,但搜索次数可以变少,更便于找到最优解。是这样吗?