什么是Whitening?经过Wei Wang解释清楚,见其报告"Beyond_WeiWang"第16页,就是每一维除以方差,相当于一方差。为什么说去掉二阶信息?概率论与数理统计上有“矩估计法”,一阶矩为均值,二阶矩为方差,这样所有维都是方差是一,故称去掉二阶信息。不必深究,到底为止。

http://deeplearning.stanford.edu/wiki/index.php/Whitening
点击最下面有中文,对于测试样本应该除以和训练样本一样的数值,因为测试样本可能一个一个来的,不能利用测试样本的信息。
This is recommended by Chong Wang in iim.