这次记一个ML里的小概念,bayes model和residual error。
使用算法\(\mathcal{A}\)在数据集\(\mathfrak{L}\)上训练得到模型\(\varphi_\mathfrak{L}\),定义期望预测误差为 \[ \text{Err}(\mathcal{\varphi}_\mathfrak{L})= \mathbb{E}_{\mathcal{X},\mathcal{Y}}[ \mathcal{L}(\mathcal{Y},\mathcal{\varphi}_\mathfrak{L}(\mathcal{X})) ] \] 理论上来说,我们概率分布\(\mathbb{P}(\mathcal{X},\mathcal{Y})\)可知的时候,存在最优的模型\(\mathcal{\varphi}_B\),使得期望误差最小,通过构建\(\mathcal{X}\)的条件概率,我们有 \[ \mathbb{E}_{\mathcal{X},\mathcal{Y}}[\mathcal{L}(\mathcal{Y},\mathcal{\varphi}_B(\mathcal{X})]= \mathbb{E}_\mathcal{X}[\mathbb{E}_{\mathcal{Y}|\mathcal{X}}[\mathcal{L}(\mathcal{Y},\mathcal{\varphi}_B(\mathcal{X})]] \] 在后面的形式中,可以通过最小化里面的期望来最小化整体 \[ \varphi_B=\underset{y\in\mathcal{Y}}{\arg\min} \mathbb{E}_{\mathcal{Y}|\mathcal{X}}[\mathcal{L}(\mathcal{Y},y)] \] 此处\(\varphi_B\)被称为bayes model,误差\(\text{Err}(\varphi_B)\)为residual error,其表示任何监督学习算法能达到的最优的误差,该误差是由于数据随机导致的,对于任意数据集\(\mathfrak{L}\),有 \[ \text{Err}(\varphi_B)\leq\text{Err}(\varphi_\mathfrak{L}) \] 对于分类问题 \[ \begin{aligned} \varphi_B&=\underset{y\in\mathcal{Y}}{\arg\min} \mathbb{E}_{\mathcal{Y}|\mathcal{X}=x}[\mathbb{I}(\mathcal{Y},y)]\\ &=\underset{y\in\mathcal{Y}}{\arg\min}\mathbb{P}(\mathcal{Y}\neq y|\mathcal{X}=x)\\ &=\underset{y\in\mathcal{Y}}{\arg\max}\mathbb{P}(\mathcal{Y}= y|\mathcal{X}=x)\\ \end{aligned} \] 对于回归问题 \[ \begin{aligned} \varphi_B&=\underset{y\in\mathcal{Y}}{\arg\min} \mathbb{E}_{\mathcal{Y}|\mathcal{X}=x}[(\mathcal{Y}-y)^2]\\ &=\mathbb{E}_{\mathcal{Y}|\mathcal{X}=x}[\mathcal{Y}]\\ \end{aligned} \] 顺带一句题外话,Adaboost理论上可以得到bayes model,所以是一个很经典的算法。