这是属于概率论与数理统计中参数估计的内容,见教材第七章P168;模式识别笔记的Section 3.11.1(Section 3.11到Section 3.11.1的内容应该记住)
总结:最大似然函数估计法,首先是假设所得的样本服从某一分布,目标是估计出这个分布中的参数,方法是得到这一组样本的概率最大时就对应了该模型的参数值,写出似然函数,再求对数(得到对数似然),再求对数似然函数的平均(对数平均似然),再对其求导,得出参数值。目前我理解的需要求对数的原因是,通常概率是小数,连乘之后会非常小,对计算机而言,容易造成浮点数下溢,所以用了取对数。
Zhengxia也提到过似然(likelihood)就是概率,观测到的概率。
https://en.wikipedia.org/wiki/Likelihood_function