Ideal

理想情况： $g = argmin_{h \in H} R [h]$ 通过最小化 $R [h]$ 得到 $g$

期望风险最小化器 / Expected risk minimizer

ERM 的目标是找到一个假设 $\hat{h}$ （或其参数 $\hat{θ}$ ），使训练数据上的经验风险最小化
预测器 $h$ 在特定观测样本数据集 $D = {(x_{1}, y_{1}), \dots, (x_{m}, y_{m})}$ 上的期望损失也可以称为经验风险 $R_{D} [h] = \frac{1}{m} \sum_{i = 1}^{m} [loss (h (x_{i}), y_{i})] = \frac{1}{m} \sum_{i = 1}^{m} {h (x_{i}) \neq = y_{i}}$
- 当使用 0-1 损失时，它就是训练错误率
通常，目标预测器通过以下方式找到： $\hat{h} = argmin_{h \in H} R_{D} [h]$
Parameterize / 参数化 $h (\cdot; θ) \Leftrightarrow θ$ ：表示一个函数 $h$ ，它的具体行为由参数 $θ$ 决定
$\hat{θ} = argmin_{θ \in Θ} R_{D} [θ]$

机器学习的核心在于处理 表示（representation） 和 泛化（generalization）。
数据实例的表示（解释）以及在这些实例上评估的函数是所有机器学习系统的一部分。
泛化（预测）是系统在未见过的数据实例上表现良好的特性。
但我们的最终目标是期望风险最小化
- 在经验风险最小化中，我们使用 $\sum_{i = 1}^{m} loss (h (x_{i}), y_{i}; θ)$ 来近似 $E [loss (h (x), y)]$
- 什么时候是好的泛化？