机器学习原理及算法001:PAC 学习理论(一)

B站影视 欧美电影 2025-09-25 04:08 2

摘要:在学习机器学习前,我们引入 PAC 学习理论,该理论阐明了什么样的问题是可以被机器学习的. 而在介绍该理论之前,我们需要先搭建学习模型的基本框架,以建立机器学习与数学间的联系.

在学习机器学习前,我们引入 PAC 学习理论,该理论阐明了什么样的问题是可以被机器学习的. 而在介绍该理论之前,我们需要先搭建学习模型的基本框架,以建立机器学习与数学间的联系.

以监督学习为例,记 样本空间 X \mathcal{X} X 是由我们希望为其标注标签的全体点构成的集合;标记空间 Y \mathcal{Y} Y 是所有可能的标签构成的集合,学习模型的输入是一个多重集合 S = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x m , y m ) } ⊂ X × Y \mathcal{S} = { (\boldsymbol{x}_1, \space y_1), \space (\boldsymbol{x}_2, \space y_2), \space \dots, \space (\boldsymbol{x}_m, \space y_m) } \subset \mathcal{X} \times \m # #​ #​ #​ #​ #​athcal{Y} S = {( x 1 ​ , y 1 ​ ) , ( x 2 ​ , y 2 ​ ) , … , ( x m ​ , y m ​ )} ⊂ X × Y ,称为 训练集 .

Remark:\color{brown}{\textbf{Remark:}} Remark :上述定义表明,训练集 S \mathcal{S} S 可包含重复的数据,也可包含若干样本点相同但标签不同的数据.

Example:\color{brown}{\textbf{Example:}} Example :假设学习的目标是判断一个木瓜是否好吃,我们可以选择木瓜的颜色和软硬程度两个属性描述木瓜. 将木瓜的这两个属性映射到实数集 R \mathbb{R} R 上,便可以用一个二维向量 ( x 1 , x 2 ) (x_1, \space x_2) ( x 1 ​ , x 2 ​ ) 来描述一个木瓜,称为木瓜的 特征向量 . 此时样本空间定义为 X = R 2 \mathcal{X} = \mathbb{R}^2 X = R 2 ,标记空间可记为 Y = { 0 , 1 } \mathcal{Y} = {0, \space 1} Y = { 0 , 1 } ,其中 0 0 0 表示不好吃,1 1 1 表示好吃. 任意多重集合 S ⊂ X × Y \mathcal{S} \subset \mathcal{X} \times \mathcal{Y} S ⊂ X × Y 是一组训练集. “样本点相同但标签不同的数据”可以解释为当两个木瓜具有相同的属性时,其中一个好吃,另一个不好吃.

学习模型的输出称为 假设 ,一个假设是指一个映射 h : X → Y h: \mathcal{X} \rightarrow \mathcal{Y} h : X → Y ,对任意的 x ∈ X \boldsymbol{x} \in \mathcal{X} x ∈ X ,h ( x ) h(\boldsymbol{x}) h ( x ) 是学习模型对样本 x \boldsymbol{x} x 的标签预测.

假设实际上是对 概念 的近似,一个 概念 是指一个映射 c : X → Y c : \mathcal{X} \rightarrow \mathcal{Y} c : X → Y ,其代表了样本空间与标记空间的真实对应关系(在本文中我们假设这样的 c c c 存在,在以后我们将放宽该假设),假设 c c c 是我们希望学习到的“规律”. 概念的全体称为 概念类 ,记作 C \mathcal{C} C .

对学习模型的评估主要体现为对模型输出的假设的正确性评估,亦即学习模型的正确性是 h ( x ) = c ( x ) h(\boldsymbol{x}) = c(\boldsymbol{x}) h ( x ) = c ( x ) 的概率(不妨设 C = { c } \mathcal{C} = {c} C = { c } 是单点集). 换句话说,学习模型的 误差 是 h ( x ) ≠ c ( x ) h(\boldsymbol{x}) \not= c(\boldsymbol{x}) h ( x )  = c ( x ) 的概率. 以二分类问题为例(即:Y = { 0 , 1 } \mathcal{Y} = { 0, \space 1} Y = { 0 , 1 } ),定义假设 h h h 的 泛化误差 为:

L D , c ( h ) = P x ∼ D [ h ( x ) ≠ c ( x ) ] , \begin{equation} L_{\mathcal{D}, c}(h) = \mathbb{P}_{\boldsymbol{x} \sim \mathcal{D}} \left[ h(\boldsymbol{x}) \not= c(\boldsymbol{x}) \right], \end{equation} L D , c ​ ( h ) = P x ∼ D ​ [ h ( x )  = c ( x ) ] , ​ ​

其中 D \mathcal{D} D 是样本空间 X \mathcal{X} X 的分布,下标 ( D , c ) (\mathcal{D}, \space c) ( D , c ) 表示泛化误差与样本空间的分布与概念有关,后续我们将省略该下标.

在实际应用中,我们并不清楚数据的真实分布 D \mathcal{D} D 和概念 c c c ,学习模型并不能直接计算出 L D , c ( h ) L_{\mathcal{D}, c}(h) L D , c ​ ( h ) . 因此我们将目光从 ( D , c ) (\mathcal{D}, \space c) ( D , c ) 转移到 S \mathcal{S} S 上:由于 S \mathcal{S} S 中的样本是从 D \mathcal{D} D 中独立同分布取得的,且 c ( x i ) = y i c(\boldsymbol{x}_i) = y_i c ( x i ​ ) = y i ​ ,我们可以通过训练集来估计泛化误差. 定义假设 h h h 的 经验误差 为:

L S ( h ) = 1 m ∑ i = 1 m I [ h ( x i ) ≠ c ( x i ) ] . \begin{equation} L_{\mathcal{S}}(h) = \frac{1}{m}\sum\limits_{i = 1}^{m} \mathbb{I}\left[ h(\boldsymbol{x}_i) \not= c(\boldsymbol{x}_i) \right]. \end{equation} L S ​ ( h ) = m 1 ​ i = 1 ∑ m ​ I [ h ( x i ​ )  = c ( x i ​ ) ] . ​ ​

其中 m = ∣ S ∣ m = | \mathcal{S} | m = ∣ S ∣ ,下同. 容易证明成立 E [ L S ( h ) ] = L D , c ( h ) \mathbb{E}\left[ L_{\mathcal{S}}(h) \right] = L_{\mathcal{D}, c}(h) E [ L S ​ ( h ) ] = L D , c ​ ( h ) ,这说明泛化误差是经验误差的期望,经验误差是泛化误差的无偏估计. 通过最小化 L S ( h ) L_{\mathcal{S}}(h) L S ​ ( h ) 获得最优假设 h h h 的过程称为 经验风险最小化 (Empirical Risk Minimization, ERM). 形式上记为:

E R M ( S ) = arg ⁡ min ⁡ h L S ( h ) . \begin{equation} \mathrm{ERM}(\mathcal{S}) = \arg\min\limits_{h} L_{\mathcal{S}}(h). \end{equation} ERM ( S ) = ar g h min ​ L S ​ ( h ) . ​ ​

最后,我们补充说明:对于任意两个假设 h 1 , h 2 h_1, \space h_2 h 1 ​ , h 2 ​ ,其之间的差别可用下式衡量:

d ( h 1 , h 2 ) = P x ∼ D [ h 1 ( x ) ≠ h 2 ( x ) ] . \begin{equation} d(h_1, \space h_2) = \mathbb{P}_{\boldsymbol{x} \sim \mathcal{D}}\left[ h_1(\boldsymbol{x}) \not= h_2(\boldsymbol{x}) \right]. \end{equation} d ( h 1 ​ , h 2 ​ ) = P x ∼ D ​ [ h 1 ​ ( x )  = h 2 ​ ( x ) ] . ​ ​

尽管 E R M \mathrm{ERM} ERM 看似合理,但在某些情况下,由 E R M \mathrm{ERM} ERM 得到的假设也会失败.

Example:\color{brown}{\textbf{Example:}} Example :仍然考虑前文提到的木瓜分类问题,考虑如下预测:

h S ( x ) = { y i , ∃ i ∈ [ m ] , s.t. x = x i 0 , otherwise . \begin{equation} h_{\mathcal{S}}(\boldsymbol{x}) = \begin{cases} y_i, & \exist \space i \in [m], \text{ s.t. } \boldsymbol{x} = \boldsymbol{x}_i \ 0, & \text{otherwise} \end{cases}. \end{equation} h S ​ ( x ) = { y i ​ , 0 , ​ ∃ i ∈ [ m ] , s.t. x = x i ​ otherwise ​ . ​ ​

虽然对任意样本 S \mathcal{S} S ,成立 L S ( h S ) = 0 L_{\mathcal{S}}(h_{\mathcal{S}}) = 0 L S ​ ( h S ​ ) = 0 (这使得 E R M \mathrm{ERM} ERM 很有可能返回 h S h_{\mathcal{S}} h S ​ ),但是 h S h_{\mathcal{S}} h S ​ 在实际应用中不一定很理想(即 L D , c ( h S ) L_{\mathcal{D}, c}(h_{\mathcal{S}}) L D , c ​ ( h S ​ ) 可能很大),导致学习的效果较差. 这样的情况称为 过拟合 .

Remark:\color{brown}{\textbf{Remark:}} Remark :上式定义的 h S ( x ) h_{\mathcal{S}}(\boldsymbol{x}) h S ​ ( x ) 带有明显的“人工痕迹”. 事实上,若定义 p ( x ) = − ∏ y i = 1 ∥ x − x i ∥ 1 p(\boldsymbol{x}) = -\prod\limits_{y_i = 1} \parallel \boldsymbol{x} - \boldsymbol{x}i \parallel_1 p ( x ) = − y i ​ = 1 ∏ ​ ∥ x − x i ​ ∥ 1 ​ ,则 h S ( x ) = 1 h}(\boldsymbol{x}) = 1 h S ​ ( x ) = 1 当且仅当 p ( x ) ≥ 0 p(\boldsymbol{x}) \geq 0 p ( x ) ≥ 0 . 这样定义的假设 h S ′ ( x ) = I [ p ( x ) ≥ 0 ] h'_{\mathcal{S}}(\boldsymbol{x}) = \mathbb{I}[p(\boldsymbol{x}) \geq 0] h S ′ ​ ( x ) = I [ p ( x ) ≥ 0 ] 则十分自然,这也表明若使用全体多项式作为待选假设,E R M \mathrm{ERM} ERM 可能导致过拟合.

尽管 E R M \mathrm{ERM} ERM 可能导致过拟合,但相较于抛弃 E R M \mathrm{ERM} ERM ,更好的选择是对其进行修正. 我们可以预先为学习模型指定一个可选择的假设集合 H = { h } \mathcal{H} = {h} H = { h } ,称为 假设空间 . 对于给定的训练集 S \mathcal{S} S 和假设空间 H \mathcal{H} H ,E R M H \mathrm{ERM}_{\mathcal{H}} ERM H ​ 要求在 H \mathcal{H} H 中寻找经验误差最小的假设,形式上记为:

E R M H ( S ) = arg ⁡ min ⁡ h ∈ H L S ( h ) . \begin{equation} \mathrm{ERM}{\mathcal{H}}(\mathcal{S}) = \arg\min\limits}} L_{\mathcal{S}}(h). \end{equation} ERM H ​ ( S ) = ar g h ∈ H min ​ L S ​ ( h ) . ​ ​

E R M H \mathrm{ERM}_{\mathcal{H}} ERM H ​ 称为 带归纳偏置的经验风险最小化 (ERM with Inductive Bias).

Example:\color{brown}{\textbf{Example:}} Example :对于木瓜分类问题,我们可以选择 R 2 \mathbb{R}^2 R 2 下的矩形 [ a , b ] × [ c , d ] [a, \space b] \times [c, \space d] [ a , b ] × [ c , d ] 作为 假设空间 :将矩形中的样本标记为 1 1 1 ,将其它的样本标记为 0 0 0 . 这样,我们更倾向于在一个特别的假设集合中选取合理的假设,可以在一定程度上避免过拟合.

显然,E R M H \mathrm{ERM}_{\mathcal{H}} ERM H ​ 仍然不足以防止过拟合. 在学习理论中,一个基本的问题是:选择哪种假设空间不会导致过拟合?本系列博客将在后续章节中探讨该问题.

设假设空间为 H \mathcal{H} H ,概率近似学习理论 (PAC 学习理论,Probably Approximately Correct)关注的核心问题是:一个学习算法 L \mathfrak{L} L 好不好?要解决该问题,首先要定义什么是“好”的学习算法,我们依次从以下两个角度考虑:

算法返回的假设要否近似正确 :算法得到的假设 h h h 的泛化误差要尽可能小,即:当给定 ε > 0 \varepsilon > 0 ε > 0 时,要求 L D , c ( h ) ≤ ε L_{\mathcal{D}, c}(h) \leq \varepsilon L D , c ​ ( h ) ≤ ε ,我们称这样的假设是一个近似正确的假设;算法能以一定概率返回近似正确的假设 :算法能以一定的概率下返回近似正确假设,即:对给定 δ ∈ ( 0 , 1 ) \delta \in (0, 1) δ ∈ ( 0 , 1 ) ,成立 P [ L D , c ( h ) ≤ ε ] ≥ 1 − δ \mathbb{P} \left[ L_{\mathcal{D}, c}(h) \leq \varepsilon \right] \geq 1 - \delta P [ L D , c ​ ( h ) ≤ ε ] ≥ 1 − δ .

Remark:\color{brown}{\textbf{Remark:}} Remark :我们对第二点作进一步说明:E R M \mathrm{ERM} ERM 规则返回的假设 h h h 依赖于训练集 S \mathcal{S} S ,而 S \mathcal{S} S 可能对于分布 D \mathcal{D} D 不具有代表性(在 E R M H \mathrm{ERM}_{\mathcal{H}} ERM H ​ 下,这会导致过拟合),使得算法难以返回近似正确的假设. 一般地,我们记训练集不具有代表性的概率为 δ \delta δ ,称 1 − δ 1 - \delta 1 − δ 为 置信参数 .

Example:\color{brown}{\textbf{Example:}} Example :在木瓜的例子中,若训练集选取的木瓜都是深黄色且软烂的,学习模型便难以预测青色或较硬的木瓜是否好吃,这很容易导致学习模型返回的假设的泛化误差较大.

根据上述讨论,我们给出 PAC 辨识 的定义:

Def 1.1 PAC 辨识(PAC Identify): \color{blue}{\textbf{Def 1.1 PAC 辨识(PAC Identify): }} Def 1.1 PAC 辨识( PAC Identify ) : 对给定的 0

P [ L D , c ( h ) ≤ ε ] ≥ 1 − δ , \begin{equation} \mathbb{P} \left[ L_{\mathcal{D}, c}(h) \leq \varepsilon \right] \geq 1 -

\end{equation} P [ L D , c ​ ( h ) ≤ ε ] ≥ 1 − δ , ​ ​

则称学习算法 L \mathfrak{L} L 能从假设空间 H \mathcal{H} H 中 PAC 辨识 概念类 C \mathcal{C} C .

PAC 辨识保证了学习算法 L \mathfrak{L} L 能以较高概率(不小于 1 − δ 1 - \delta 1 − δ )学得概念 c c c 的近似假设(误差至多为 ε \varepsilon ε ,称为 精度参数 ).

接下来,我们要明晰概念类 C \mathcal{C} C 能否被学习算法 L \mathfrak{L} L 习得,我们给出 PAC 可学习 的定义:

Def 1.2 PAC 可学习(PAC Learnable): \color{blue}{\textbf{Def 1.2 PAC 可学习(PAC Learnable): }} Def 1.2 PAC 可学习( PAC Learnable ) : 对 0 PAC 可学习 的.

多项式 m : ( 0 , 1 ) 2 → N m: (0, 1)^2 \rightarrow \mathbb{N} m : ( 0 , 1 ) 2 → N 决定了训练集的 采样复杂度 ,即保证学习模型返回概率近似正确假设所需的样本数量. 以下给出最简单的情况:当概念 c ∈ H c \in \mathcal{H} c ∈ H 且 ∣ H ∣

Proof:\color{brown}{\textbf{Proof:}} Proof :​既然有 c ∈ H c \in \mathcal{H} c ∈ H ,那么只需在算法中淘汰掉 H \mathcal{H} H 中与训练集 S \mathcal{S} S 不能完美匹配的假设,直至 H \mathcal{H} H 中仅剩一个假设,即得到 c c c . 通常情况下,由于训练集规模有限,假设空间中可能不止一个与 S \mathcal{S} S 匹配,且上述算法无法区分这些假设的优劣. 于是,我们要讨论的问题转换为:究竟需要多大规模的训练集,才能保证 c c c 是可以被以不小于 1 − δ 1 - \delta 1 − δ 的概率筛选出来?只需使:

P [ h ∈ H : L D , c ( h ) > ε ∧ L S ( h ) = 0 ] \varepsilon \land L_{\mathcal{S}}(h) = 0 \right] ε ∧ L S ​ ( h ) = 0 ]

假设 h h h 的泛化误差大于 ε \varepsilon ε ,对分布 D \mathcal{D} D 上随机采样得到的任何样例 ( x , y ) (\boldsymbol{x}, y) ( x , y ) ,有:

P [ h ( x ) = y ] = 1 − P [ h ( x ) ≠ y ] = 1 − L D , c ( h )

\end{align} P [ h ( x ) = y ] ​ = 1 − P [ h ( x )  = y ] = 1 − L D , c ​ ( h )

故 h h h 在 S \mathcal{S} S 上表现完美的概率为:

P [ L S ( h ) = 0 ] = P [ h ( x i ) = y i , ∀ ( x i , y i ) ∈ S ] = ( P [ h ( x ) = y ] ) m

\end{align} P [ L S ​ ( h ) = 0 ] ​ = P [ h ( x i ​ ) = y i ​ , ∀ ( x i ​ , y i ​ ) ∈ S ] = ( P [ h ( x ) = y ] ) m

因此有:

P [ h ∈ H : L D , c ( h ) > ε ∧ L S ( h ) = 0 ] \varepsilon \land L_{\mathcal{S}}(h) = 0 \right]

\end{equation} P [ h ∈ H : L D , c ​ ( h ) > ε ∧ L S ​ ( h ) = 0 ]

令不等式右侧不大于 δ \delta δ ,得:

m ≥ 1 ε ( ln ⁡ ∣ H ∣ +

m \geq \dfrac{1}{\varepsilon} \left( \ln \vert \mathcal{H} \vert +

\end{equation} m ≥ ε 1 ​ ( ln ∣ H ∣ + ln δ 1 ​ ) . ​ ​

由此可见,概念 c c c 是 PAC 可学习的. □ \square □

在实际生活中,c ∈ H c \in \mathcal{H} c ∈ H 一般不成立. 我们需要对该过程进行进一步讨论(这里我们仍然认为 ∣ H ∣

Lem 1.3 Hoeffding 不等式: \color{blue}{\textbf{Lem 1.3 Hoeffding 不等式: }} Lem 1.3 Hoeffding 不等式 : ​ 设 X 1 , X 2 , … , X n X_1, \space X_2, \space \dots, \space X_n X 1 ​ , X 2 ​ , … , X n ​ 是独立同分布的随机变量,其中 X i ∈ [ a i , b i ] , i = 1 , 2 , … , n X_i \in [a_i, b_i], \space i = 1, \space 2, \space \dots, \space n X i ​ ∈ [ a i ​ , b i ​ ] , i = 1 , 2 , … , n . 记这些随机变量的均值为 X ‾ = 1 n ∑ i = 1 n X i \overline{X} = \frac{1}{n}\sum\limits_{i = 1}^{n} X_i X = n 1 ​ i = 1 ∑ n ​ X i ​ ,则对任意 ε > 0 \varepsilon > 0 ε > 0 ,成立:

P ( ∣ X ‾ − E ( X ‾ ) ∣ ≥ ε ) ≤ 2 exp ⁡ ( − 2 ε 2 n 2 ∑ i = 1 n ( b i − a i ) 2 ) . \begin{equation} \mathbb{P} \left( \vert \overline{X} -

\end{equation} P ( ∣ X − E ( X ) ∣ ≥ ε ) ≤ 2 exp ​ − i = 1 ∑ n ​ ( b i ​ − a i ​ ) 2 2 ε 2 n 2 ​ ​ . ​ ​

对于 PAC 学习理论,固定 h h h ,将 X ‾ = L S ( h ) \overline{X} = L_{\mathcal{S}}(h) X = L S ​ ( h ) ,E ( X ‾ ) = L D , c ( h ) \mathbb{E} (\overline{X}) = L_{\mathcal{D}, c}(h) E ( X ) = L D , c ​ ( h ) ,a i = 0 , b i = 1 ( i = 1 , 2 , … , n ) a_i = 0, \space b_i = 1 \space (i = 1, 2, \dots, n) a i ​ = 0 , b i ​ = 1 ( i = 1 , 2 , … , n ) 代入,得:

P ( ∣ L S ( h ) − L D , c ( h ) ∣ ≥ ε ) ≤ 2 exp ⁡ ( − 2 m ε 2 ) . \begin{equation} \mathbb{P} \left( \vert L_{\mathcal{S}}(h) -

\end{equation} P ( ∣ L S ​ ( h ) − L D , c ​ ( h ) ∣ ≥ ε ) ≤ 2 exp ( − 2 m ε 2 ) . ​ ​

类似前文的讨论,考虑:

P [ h ∈ H : ∣ L S ( h ) − L D , c ( h ) ∣ ≥ ε ] ≤ 2 ∣ H ∣ exp ⁡ ( − 2 m ε 2 ) . \begin{equation} \mathbb{P}\left[ h \in \mathcal{H} : \vert L_{\mathcal{S}}(h) -

\end{equation} P [ h ∈ H : ∣ L S ​ ( h ) − L D , c ​ ( h ) ∣ ≥ ε ] ≤ 2∣ H ∣ exp ( − 2 m ε 2 ) . ​ ​

令不等式右侧等于 δ \delta δ ,有:

ε = ln ⁡ ∣ H ∣ +

\varepsilon = \sqrt{\frac{\ln \vert \mathcal{H} \vert +

\end{equation} ε = 2 m ln ∣ H ∣ + ln ( δ /2 ) ​ ​ , ​ ​

从而有:

P ( ∣ L S ( h ) − L D , c ( h ) ∣ ≤ ln ⁡ ∣ H ∣ +

\mathbb{P} \left( \vert L_{\mathcal{S}}(h) -

\end{equation} P ( ∣ L S ​ ( h ) − L D , c ​ ( h ) ∣ ≤ 2 m ln ∣ H ∣ + ln ( δ /2 ) ​ ​ ) ≥ 1 − δ . ​ ​

在上述推导中,我们并未给出也无法给出 P [ L D , c ( h ) ≤ ε ] \mathbb{P} \left[ L_{\mathcal{D}, c}(h) \leq \varepsilon \right] P [ L D , c ​ ( h ) ≤ ε ] 的度量,但是当假设空间 H \mathcal{H} H 给定且有限时,其中必存在一个泛化误差最小的假设. 我们只需要找出该假设的近似假设即可,以此为目标的学习称为 不可知 PAC 可学习 .

Def 1.4 不可知 PAC 可学习(Agnostic PAC Learnable): \color{blue}{\textbf{Def 1.4 不可知 PAC 可学习(Agnostic PAC Learnable): }} Def 1.4 不可知 PAC 可学习( Agnostic PAC Learnable ) : 对 0

P [ L D , c ( h ) − min ⁡ h ′ ∈ H L D , c ( h ′ ) ≤ ε ] ≥ 1 − δ , \begin{equation} \mathbb{P} \left[ L_{\mathcal{D}, c}(h) -

\end{equation} P [ L D , c ​ ( h ) − h ′ ∈ H min ​ L D , c ​ ( h ′ ) ≤ ε ] ≥ 1 − δ , ​ ​

则称概念类 C \mathcal{C} C 对假设空间 H \mathcal{H} H 是 不可知 PAC 可学习 的.

显然,PAC 可学习是不可知 PAC 可学习的特例(前者满足 min ⁡ h ′ ∈ H L D , c ( h ′ ) = 0 \min\limits_{h' \in \mathcal{H}} L_{\mathcal{D}, c}(h') = 0 h ′ ∈ H min ​ L D , c ​ ( h ′ ) = 0 ). 下面说明有限假设空间下概念类 C \mathcal{C} C 一定是不可知 PAC 可学习的.

Proof:\color{brown}{\textbf{Proof:}} Proof :将 1 2 ε \frac{1}{2}\varepsilon 2 1 ​ ε 代入式 ( 15 ) (15) ( 15 ) ,有:

P ( h ∈ H : ∣ L S ( h ) − L D , c ( h ) ∣ ≥ 1 2 ε ) ≤ 2 ∣ H ∣ exp ⁡ ( − m ε 2 2 ) . \begin{equation} \mathbb{P} \left( h \in \mathcal{H} : \vert L_{\mathcal{S}}(h) -

\end{equation} P ( h ∈ H : ∣ L S ​ ( h ) − L D , c ​ ( h ) ∣ ≥ 2 1 ​ ε ) ≤ 2∣ H ∣ exp ( − 2 m ε 2 ​ ) . ​ ​

记 h ∗ = arg ⁡ min ⁡ h ′ ∈ H L D , c ( h ′ ) h^ = \arg\min\limits_{h' \in \mathcal{H}} L_{\mathcal{D}, c}(h') h ∗ = ar g h ′ ∈ H min ​ L D , c ​ ( h ′ ) ,学习算法返回的假设为 h S h_{\mathcal{S}} h S ​ ;记 ∣ L S ( h S ) − L D , c ( h S ) ∣ ≤ 1 2 ε \vert L_{\mathcal{S}}(h_{\mathcal{S}}) - L_{\mathcal{D}, c}(h_{\mathcal{S}}) \vert \leq \frac{1}{2} \varepsilon ∣ L S ​ ( h S ​ ) − L D , c ​ ( h S ​ ) ∣ ≤ 2 1 ​ ε 为事件 A A A ,∣ L S ( h ∗ ) − L D , c ( h ∗ ) ∣ ≤ 1 2 ε \vert L_{\mathcal{S}}(h^) - L_{\mathcal{D}, c}(h^*) \vert \leq \frac{1}{2} \varepsilon ∣ L S ​ ( h ∗ ) − L D , c ​ ( h ∗ ) ∣ ≤ 2 1 ​ ε 为事件 B B B ,则由 E R M \mathrm{ERM} ERM 规则可知,当 A A A 和 B B B 同时成立时:

L D , c ( h ∗ ) ≤ L D , c ( h S ) ≤ L S ( h S ) +

L_{\mathcal{D}, c}(h^*) \leq L_{\mathcal{D}, c}(h_{\mathcal{S}}) \leq L_{\mathcal{S}}(h_{\mathcal{S}}) +

\end{equation} L D , c ​ ( h ∗ ) ≤ L D , c ​ ( h S ​ ) ≤ L S ​ ( h S ​ ) + 2 1 ​ ε ≤ L S ​ ( h ∗ ) + 2 1 ​ ε ≤ L D , c ​ ( h ∗ ) + ε . ​ ​

由 P ( A ‾ ∪ B ‾ ) ≥ 0 \mathbb{P}(\overline{A} \cup \overline{B}) \geq 0 P ( A ∪ B ) ≥ 0 及 P ( A ‾ ) , P ( B ‾ ) ≤ 2 ∣ H ∣ exp ⁡ ( − m ε 2 2 ) \mathbb{P}(\overline{A}), \space \mathbb{P}(\overline{B}) \leq 2 \vert \mathcal{H} \vert \exp\left( -\frac{m\varepsilon^2}{2} \right) P ( A ) , P ( B ) ≤ 2∣ H ∣ exp ( − 2 m ε 2 ​ ) 可得:

P [ L D , c ( h S ) − L D , c ( h ∗ ) ≤ ε ] ≥ 1 − P ( A B ‾ ) = 1 +

\mathbb{P} \left[ L_{\mathcal{D}, c}(h_{\mathcal{S}}) -

\end{equation} P [ L D , c ​ ( h S ​ ) − L D , c ​ ( h ∗ ) ≤ ε ] ≥ 1 − P ( A B ) = 1 + P ( A ∪ B ) − P ( A ) − P ( B ) ≥ 1 − 4∣ H ∣ exp ( − 2 m ε 2 ​ ) , ​ ​

或等价地:

P [ L D , c ( h S ) − L D , c ( h ∗ ) ≥ ε ] ≤ 4 ∣ H ∣ exp ⁡ ( − m ε 2 2 ) , \begin{equation} \mathbb{P} \left[ L_{\mathcal{D}, c}(h_{\mathcal{S}}) -

\end{equation} P [ L D , c ​ ( h S ​ ) − L D , c ​ ( h ∗ ) ≥ ε ] ≤ 4∣ H ∣ exp ( − 2 m ε 2 ​ ) , ​ ​

令不等式右边小于 δ \delta δ ,有:

m ≥ 2 ε 2 ( ln ⁡ ( 4 ∣ H ∣ ) +

m \geq \frac{2}{\varepsilon^2} \left( \ln \left( 4\vert \mathcal{H} \vert \right) +

\end{equation} m ≥ ε 2 2 ​ ( ln ( 4∣ H ∣ ) + ln δ 1 ​ ) . □ ​ ​

综合上述讨论,我们给出如下结论:

Thm 1.5 有限假设空间是不可知 PAC 可学习的: \color{blue}{\textbf{Thm 1.5 有限假设空间是不可知 PAC 可学习的: }} Thm 1.5 有限假设空间是不可知 PAC 可学习的 : 假设空间 H \mathcal{H} H 是有限维的,当 c ∈ H c \in \mathcal{H} c ∈ H 时称假设空间 H \mathcal{H} H 是 可分的 ;否则称假设空间 H \mathcal{H} H 是 不可分的 . 当 H \mathcal{H} H 可分时,概念类 C \mathcal{C} C 一定是 PAC 可学习的(当然也是不可知 PAC 可学习的);当 H \mathcal{H} H 不可分时,概念类 C \mathcal{C} C 一定是(退化为)不可知 PAC 可学习的.

截至目前,我们以二分类问题为例,在概念 c c c 存在的基础上给出了 PAC 可学习和不可知 PAC 可学习的定义,并且指出有限假设空间都是不可知 PAC 可学习的. 接下来,我们对该理论进行推广.

首先,我们考虑去除掉对概念 c c c 的依赖. 这样的操作是合理的,因为在现实生活中,样本与标签的对应关系往往并非确定性映射,而是概率性的对应关系.

Example:\color{brown}{\textbf{Example:}} Example :在木瓜的例子中,具有同样属性的木瓜可能好吃也可能不好吃,“规律”实际应该表示在该属性下,木瓜好吃的概率和不好吃的概率,而非确定性的“木瓜要么好吃,要么不好吃”.

我们将样本空间的分布 D \mathcal{D} D 记为 D x \mathcal{D}_{\boldsymbol{x}} D x ​ ,将 X × Y \mathcal{X} \times \mathcal{Y} X × Y 上的分布重新记为 D \mathcal{D} D ,称为样本空间和标记空间的 联合分布 . 在此基础上,我们重新定义假设 h h h 的泛化误差:

L D ( h ) = P ( x , y ) ∼ D [ h ( x ) ≠ y ] . \begin{equation} L_{\mathcal{D}}(h) = \mathbb{P}_{(\boldsymbol{x}, y) \sim \mathcal{D}} \left[ h(\boldsymbol{x}) \not= y \right]. \end{equation} L D ​ ( h ) = P ( x , y ) ∼ D ​ [ h ( x )  = y ] . ​ ​

假设 h h h 的经验误差定义不变. 我们可将上述定义的 PAC 可辨识、PAC 可学习及不可知 PAC 可学习中的 L D , c L_{\mathcal{D}, c} L D , c ​ 替换为 L D L_{\mathcal{D}} L D ​ ,且仍然可以证明有限假设空间是不可知 PAC 可学习的.

其次,我们考虑将二分类的限定推广至多分类和回归问题,这需要我们进一步推广误差函数. 对于给定假设空间 H \mathcal{H} H 和定义域 Z \mathcal{Z} Z ,称 l : H × Z → R + \mathscr{l}: \mathcal{H} \times \mathcal{Z} \rightarrow \mathbb{R}_+ l : H × Z → R + ​ 为问题的一个 损失函数 . 对于多分类问题,Z = X × Y \mathcal{Z} = \mathcal{X} \times \mathcal{Y} Z = X × Y ;对于回归问题,Z = X × R \mathcal{Z} = \mathcal{X} \times \mathbb{R} Z = X × R . 定义假设 h h h 的泛化误差与经验误差为:

L D ( h ) = E z ∼ D [ l ( h , z ) ] , L S ( h ) = 1 m ∑ i = 1 m l ( h , z ) . \begin{align} L_{\mathcal{D}}(h) &= \mathbb{E}{\boldsymbol{z} \sim \mathcal{D}} \left[ \mathscr{l}(h, \boldsymbol{z}) \right], \nonumber \ L}(h) &= \frac{1}{m} \sum\limits_{i = 1}^{m} \mathscr{l}(h, \boldsymbol{z}). \end{align} L D ​ ( h ) L S ​ ( h ) ​ = E z ∼ D ​ [ l ( h , z ) ] , = m 1 ​ i = 1 ∑ m ​ l ( h , z ) . ​ ​

在分类问题和回归问题中,损失函数通常分别采用以下两种形式:

0 − 1 0-1 0 − 1 损失 : Z = X × Y \mathcal{Z} = \mathcal{X} \times \mathcal{Y} Z = X × Y ,损失函数为: l 0 − 1 ( h , ( x , y ) ) = I ( h ( x ) ≠ y ) \mathscr{l}_{0-1}\left( h, (\boldsymbol{x}, y) \right) = \mathbb{I}(h(\boldsymbol{x}) \not= y) l 0 − 1 ​ ( h , ( x , y ) ) = I ( h ( x )  = y ) ;平方损失 : Z = X × R \mathcal{Z} = \mathcal{X} \times \mathbb{R} Z = X × R ,损失函数为: l s q ( h , ( x , y ) ) = ( h ( x ) − y ) 2 \mathscr{l}_{\mathrm{sq}}\left( h, (\boldsymbol{x}, y) \right) = \left( h(\boldsymbol{x}) - y \right)^2 l sq ​ ( h , ( x , y ) ) = ( h ( x ) − y ) 2 .

在此基础上,我们可以进一步推广 PAC 可学习及不可知 PAC 可学习的定义:

Def 1.2’ PAC 可学习(PAC Learnable): \color{blue}{\textbf{Def 1.2' PAC 可学习(PAC Learnable): }} Def 1.2’ PAC 可学习( PAC Learnable ) : Q \mathfrak{Q} Q 是一个学习问题,若对任意给定的 0

P [ L D ( h ) ≤ ε ] ≥ 1 − δ , \begin{equation} \mathbb{P} \left[ L_{\mathcal{D}}(h) \leq \varepsilon \right] \geq 1 -

\end{equation} P [ L D ​ ( h ) ≤ ε ] ≥ 1 − δ , ​ ​

则称问题 Q \mathfrak{Q} Q 对假设空间 H \mathcal{H} H 是 PAC 可学习 的.

Def 1.4’ 不可知 PAC 可学习(Agnostic PAC Learnable): \color{blue}{\textbf{Def 1.4' 不可知 PAC 可学习(Agnostic PAC Learnable): }} Def 1.4’ 不可知 PAC 可学习( Agnostic PAC Learnable ) : Q \mathfrak{Q} Q 是一个学习问题,若对任意给定的 0

P [ L D ( h ) − min ⁡ h ′ ∈ H L D ( h ′ ) ≤ ε ] ≥ 1 − δ , \begin{equation} \mathbb{P} \left[ L_{\mathcal{D}}(h) -

\end{equation} P [ L D ​ ( h ) − h ′ ∈ H min ​ L D ​ ( h ′ ) ≤ ε ] ≥ 1 − δ , ​ ​

则称问题 Q \mathfrak{Q} Q 对假设空间 H \mathcal{H} H 是 不可知 PAC 可学习 的.

同样地,我们可以证明无论是多分类问题还是回归问题,有限假设空间都是不可知 PAC 可学习的,这只需注意到前文在证明有限假设空间总是不可知 PAC 可学习时,未使用到 L D L_{\mathcal{D}} L D ​ 和 L S L_{\mathcal{S}} L S ​ 的真实表达式和概念 c c c 的任何信息.

Lem 1.6 Markov 不等式: \color{blue}{\textbf{Lem 1.6 Markov 不等式: }} Lem 1.6 Markov 不等式 : 对任意非负随机变量 X X X 和任意给定实数 ε > 0 \varepsilon > 0 ε > 0 ,有:

P ( X > ε ) ≤ 1 ε E ( X ) . \begin{equation} \mathbb{P}(X > \varepsilon) \leq \dfrac{1}{\varepsilon} \mathbb{E}(X). \end{equation} P ( X > ε ) ≤ ε 1 ​ E ( X ) . ​ ​

Proof:\color{brown}{\textbf{Proof:}} Proof :设 X X X 的概率密度函数为 f ( x ) f(x) f ( x ) ,则:

E ( X ) = ∫ 0 +

\mathbb{E}(X) = \int_{0}^{+\infty} x f(x) \mathrm{d}x &\geq \int_{\varepsilon}^{+\infty} x f(x) \mathrm{d}x \nonumber \ &\geq \varepsilon \int_{\varepsilon}^{+\infty} f(x) \mathrm{d}x \nonumber \ &= \varepsilon \mathbb{P}(X \geq \varepsilon). \end{align} E ( X ) = ∫ 0 + ∞ ​ x f ( x ) d x ​ ≥ ∫ ε + ∞ ​ x f ( x ) d x ≥ ε ∫ ε + ∞ ​ f ( x ) d x = ε P ( X ≥ ε ) . ​ ​

两边同时除以 ε \varepsilon ε 即证. □ \square □

Lem 1.7 Hoeffding 引理: \color{blue}{\textbf{Lem 1.7 Hoeffding 引理: }} Lem 1.7 Hoeffding 引理 : 对任意随机变量 X X X ,若 X ∈ [ a , b ] X \in [a, \space b] X ∈ [ a , b ] 且 E ( X ) = 0 \mathbb{E}(X) = 0 E ( X ) = 0 ,则对任意实数 s s s 成立:

E ( e s X ) ≤ e 1 8 λ 2 ( b − a ) 2 . \begin{equation} \mathbb{E}(\mathrm{e}^{sX}) \leq \mathrm{e}^{\frac{1}{8}\lambda^2(b -

\end{equation} E ( e s X ) ≤ e 8 1 ​ λ 2 ( b − a ) 2 . ​ ​

Proof:\color{brown}{\textbf{Proof:}} Proof :记 f ( X ) = e λ X f(X) = \mathrm{e}^{\lambda X} f ( X ) = e λ X ,则 f ′ ′ ( X ) = λ 2 e λ X > 0 f''(X) = \lambda^2\mathrm{e}^{\lambda X} > 0 f ′′ ( X ) = λ 2 e λ X > 0 ,因此 f ( x ) f(x) f ( x ) 是凸函数. 由凸函数性质,令 θ = b − X b − a ∈ ( 0 , 1 ) \theta = \frac{b - X}{b - a} \in (0, \space 1) θ = b − a b − X ​ ∈ ( 0 , 1 ) :

e λ X = f ( X ) = f ( θ a +

\mathrm{e}^{\lambda X} = f(X) &= f(\theta a + (1 - \theta) b) \geq \theta f(a) + (1 - \theta) f(b) \nonumber \ &= \dfrac{b -

\end{align} e λ X = f ( X ) ​ = f ( θ a + ( 1 − θ ) b ) ≥ θ f ( a ) + ( 1 − θ ) f ( b ) = b − a b − X ​ e λa + b − a X − a ​ e λb , ​ ​

对不等式两边同时取期望,得:

E [ e λ X ] = b − E [ X ] b − a e λ a +

\mathbb{E}\left[\mathrm{e}^{\lambda X}\right] = \dfrac{b -

\end{align} E [ e λ X ] = b − a b − E [ X ] ​ e λa + b − a E [ X ] − a ​ e λb = b − a b e λa − a e λb ​ . ​ ​

只需证明:

b e λ a − a e λ b b − a ≤ e 1 8 λ 2 ( b − a ) 2 ⇔ ln ⁡ ( b e λ a − a e λ b b − a ) ≤ 1 8 λ 2 ( b − a ) 2 . \begin{equation} \dfrac{b\mathrm{e}^{\lambda a} -

\end{equation} b − a b e λa − a e λb ​ ≤ e 8 1 ​ λ 2 ( b − a ) 2 ⇔ ln ( b − a b e λa − a e λb ​ ) ≤ 8 1 ​ λ 2 ( b − a ) 2 . ​ ​

令 t = b − a t = b - a t = b − a ,则 b = t + a b = t + a b = t + a ,有:

ln ⁡ ( b e λ a − a e λ b b − a ) = ln ⁡ ( ( t +

\ln \left( \dfrac{b\mathrm{e}^{\lambda a} - a\mathrm{e}^{\lambda b}}{b - a} \right) &= \ln \left( \dfrac{(t + a)\mathrm{e}^{\lambda a} - a\mathrm{e}^{\lambda(t + a)}}{t} \right) \nonumber \ &= \lambda a +

\end{align} ln ( b − a b e λa − a e λb ​ ) ​ = ln ( t ( t + a ) e λa − a e λ ( t + a ) ​ ) = λa + ln ( t + a − a e λ t ) − ln t . ​ ​

记 φ ( u ) = λ a + ln ⁡ ( t + a − a e u ) − ln ⁡ t \varphi(u) = \lambda a + \ln \left( t + a - a\mathrm{e}^u \right) - \ln t φ ( u ) = λa + ln ( t + a − a e u ) − ln t ,则对目标不等式的证明等价于证明:

φ ( λ t ) ≤ 1 8 ( λ t ) 2 . \begin{equation} \varphi(\lambda t) \leq \dfrac{1}{8} (\lambda t)^2. \end{equation} φ ( λ t ) ≤ 8 1 ​ ( λ t ) 2 . ​ ​

易知 φ ∈ C ∞ \varphi \in C^{\infty} φ ∈ C ∞ ,对 φ ( u ) \varphi(u) φ ( u ) 进行二阶 Taylor 展开,得:

φ ( u ) = φ ( 0 ) +

\varphi(u) = \varphi(0) +

\end{equation} φ ( u ) = φ ( 0 ) + φ ′ ( 0 ) u + 2 1 ​ φ ′′ ( α ) u 2 , ​ ​

其中 α ∈ ( 0 , u ) \alpha \in (0, \space u) α ∈ ( 0 , u ) ,容易计算:

φ ( 0 ) = λ a +

\varphi(0) &= \lambda a +

\varphi'(0) &= \dfrac{-a\mathrm{e}^{u}}{t +

\varphi''(\alpha) &= \dfrac{-a\mathrm{e}^{u}(t +

\end{align} φ ( 0 ) φ ′ ( 0 ) φ ′′ ( α ) ​ = λa + ln ( t + a − a ) − ln t = λa , = t + a − a e u − a e u ​ ​ u = 0 ​ = − t a ​ , = ( t + a − a e u ) 2 − a e u ( t + α ) ​ ​ u = α ​ = ( t + a − a e u ) 2 − a e u ​ ⋅ ( 1 − ( t + a − a e u ) 2 − a e u ​ ) ​ u = α ​ ≤ 4 1 ​ . ​ ​

将式 ( 37 ) (37) ( 37 ) 代入式 ( 36 ) (36) ( 36 ) ,得:

φ ( λ t ) ≤ λ a +

\varphi(\lambda t) \leq \lambda a +

\end{equation} φ ( λ t ) ≤ λa + ( − t a ​ ⋅ λ t ) + 2 1 ​ ⋅ 4 1 ​ ( λ t ) 2 = 8 1 ​ ( λ t ) 2 . ​ ​

综上所述,不等式 ( 30 ) (30) ( 30 ) 得证. □ \square □

Lem 1.3 Hoeffding 不等式: \color{blue}{\textbf{Lem 1.3 Hoeffding 不等式: }} Lem 1.3 Hoeffding 不等式 : ​ 设 X 1 , X 2 , … , X n X_1, \space X_2, \space \dots, \space X_n X 1 ​ , X 2 ​ , … , X n ​ 是独立同分布的随机变量,其中 X i ∈ [ a i , b i ] , i = 1 , 2 , … , n X_i \in [a_i, b_i], \space i = 1, \space 2, \space \dots, \space n X i ​ ∈ [ a i ​ , b i ​ ] , i = 1 , 2 , … , n . 记这些随机变量的均值为 X ‾ = 1 n ∑ i = 1 n X i \overline{X} = \frac{1}{n}\sum\limits_{i = 1}^{n} X_i X = n 1 ​ i = 1 ∑ n ​ X i ​ ,则对任意 ε > 0 \varepsilon > 0 ε > 0 ,成立:

P ( ∣ X ‾ − E ( X ‾ ) ∣ ≥ ε ) ≤ 2 exp ⁡ ( − 2 ε 2 n 2 ∑ i = 1 n ( b i − a i ) 2 ) . \begin{equation} \mathbb{P} \left( \vert \overline{X} -

\end{equation} P ( ∣ X − E ( X ) ∣ ≥ ε ) ≤ 2 exp ​ − i = 1 ∑ n ​ ( b i ​ − a i ​ ) 2 2 ε 2 n 2 ​ ​ . ​ ​

Proof:\color{brown}{\textbf{Proof:}} Proof :由 Markov 不等式,得:

P ( X ‾ − E ( X ‾ ) ≥ ε ) = P [ exp ⁡ ( λ [ X ‾ − E ( X ‾ ) ] ) ≥ exp ⁡ ( λ ε ) ] ≤ exp ⁡ ( − λ ε ) ⋅ E [ exp ⁡ ( λ [ X ‾ − E ( X ‾ ) ] ) ] , \begin{equation} \mathbb{P}\left( \overline{X} -

= \mathbb{P}\left[ \exp\left(\lambda[\overline{X} -

\leq \exp \left(-\lambda\varepsilon \right) \cdot \mathbb{E}\left[ \exp\left( \lambda[\overline{X} -

\end{equation} P ( X − E ( X ) ≥ ε ) = P [ exp ( λ [ X − E ( X )] ) ≥ exp ( λ ε ) ] ≤ exp ( − λ ε ) ⋅ E [ exp ( λ [ X − E ( X )] ) ] , ​ ​

其中:

E [ exp ⁡ ( λ [ X ‾ − E ( X ‾ ) ] ) ] = ∏ i = 1 n E [ exp ⁡ ( λ ⋅ X i − E ( X i ) n ) ] . \begin{equation} \mathbb{E}\left[ \exp\left( \lambda[\overline{X} -

\end{equation} E [ exp ( λ [ X − E ( X )] ) ] = i = 1 ∏ n ​ E [ exp ( λ ⋅ n X i ​ − E ( X i ​ ) ​ ) ] . ​ ​

又因为 E [ X i − E ( X i ) n ] = 0 \mathbb{E}\left[ \frac{X_i - \mathbb{E}(X_i)}{n} \right] = 0 E [ n X i ​ − E ( X i ​ ) ​ ] = 0 ,由 Hoeffding 引理可知:

E [ exp ⁡ ( λ ⋅ X i − E ( X i ) n ) ] ≤ exp ⁡ ( λ 2 ⋅ ( b i − a i ) 2 8 n 2 ) . \begin{equation} \mathbb{E}\left[ \exp\left( \lambda \cdot \dfrac{X_i -

\end{equation} E [ exp ( λ ⋅ n X i ​ − E ( X i ​ ) ​ ) ] ≤ exp ( λ 2 ⋅ 8 n 2 ( b i ​ − a i ​ ) 2 ​ ) . ​ ​

于是有:

P ( X ‾ − E ( X ‾ ) ≥ ε ) ≤ exp ⁡ ( − λ ε +

\mathbb{P}\left( \overline{X} -

\end{equation} P ( X − E ( X ) ≥ ε ) ≤ exp ​ − λ ε + λ 2 ⋅ 8 n 2 i = 1 ∑ n ​ ( b i ​ − a i ​ ) 2 ​ ​ . ​ ​

由于式 ( 43 ) (43) ( 43 ) 对任意实数 λ \lambda λ 成立,取 λ 0 \lambda_0 λ 0 ​ 使不等式右侧指数项最小,得:

P ( X ‾ − E ( X ‾ ) ≥ ε ) ≤ exp ⁡ ( − 2 ε 2 n 2 ∑ i = 1 n ( b i − a i ) 2 ) . \begin{equation} \mathbb{P}\left( \overline{X} -

\end{equation} P ( X − E ( X ) ≥ ε ) ≤ exp ​ − i = 1 ∑ n ​ ( b i ​ − a i ​ ) 2 2 ε 2 n 2 ​ ​ . ​ ​

于是得到:

P ( ∣ X ‾ − E ( X ‾ ) ∣ ≥ ε ) ≤ 2 exp ⁡ ( − 2 ε 2 n 2 ∑ i = 1 n ( b i − a i ) 2 ) . □ \begin{equation} \mathbb{P} \left( \vert \overline{X} -

\end{equation} P ( ∣ X − E ( X ) ∣ ≥ ε ) ≤ 2 exp ​ − i = 1 ∑ n ​ ( b i ​ − a i ​ ) 2 2 ε 2 n 2 ​ ​ . □ ​ ​

Thm 1.6 Bayes 最优假设: \color{blue}{\textbf{Thm 1.6 Bayes 最优假设: }} Thm 1.6 Bayes 最优假设 : 给定 X × { 0 , 1 } \mathcal{X} \times {0, \space 1} X × { 0 , 1 } 上的任意分布 D \mathcal{D} D ,将 X \mathcal{X} X 映射到 { 0 , 1 } {0, \space 1} { 0 , 1 } 上的最好的假设为:

B a y e s D ( x ) = { 1 , P ( x , y ) ∼ D ( y = 1 ∣ x ) ≥ 1 2 0 , otherwise . \begin{equation} \mathrm{Bayes}{\mathcal{D}}(\boldsymbol{x}) = \begin{cases} 1, & \mathbb{P}, y) \sim \mathcal{D}} \left( y = 1 \mid \boldsymbol{x} \right) \geq \dfrac{1}{2} \ 0, & \text{otherwise} \end{cases}. \end{equation} Bayes D ​ ( x ) = ⎩ ⎨ ⎧ ​ 1 , 0 , ​ P ( x , y ) ∼ D ​ ( y = 1 ∣ x ) ≥ 2 1 ​ otherwise ​ . ​ ​

Proof:\color{brown}{\textbf{Proof:}} Proof :设 h h h 是任意 X \mathcal{X} X 到 { 0 , 1 } {0, \space 1} { 0 , 1 } 上的假设,则:

L D ( h ) − L D ( B a y e s D ) = E ( x , y ) ∼ D [ I ( h ( x ) ≠ y ) ] − E ( x , y ) ∼ D [ I ( B a y e s D ( x ) ≠ y ) ] = E x ∼ D x ( E y ∣ x [ I ( h ( x ) ≠ y ) − I ( B a y e s D ( x ) ≠ y ) ] ) . \begin{align} L_{\mathcal{D}}(h) - L_{\mathcal{D}}(\mathrm{Bayes}{\mathcal{D}}) &= \mathbb{E}, y) \sim \mathcal{D}} [\mathbb{I}(h(\boldsymbol{x}) \not= y)] - \mathbb{E}{(\boldsymbol{x}, y) \sim \mathcal{D}} [\mathbb{I}(\mathrm{Bayes}}(\boldsymbol{x}) \not= y)] \nonumber \ &= \mathbb{E}{\boldsymbol{x} \sim\mathcal{D}}} \left( \mathbb{E}_{y \mid \boldsymbol{x}}\left[ \mathbb{I}(h(\boldsymbol{x}) \not= y) -

\end{align} L D ​ ( h ) − L D ​ ( Bayes D ​ ) ​ = E ( x , y ) ∼ D ​ [ I ( h ( x )  = y )] − E ( x , y ) ∼ D ​ [ I ( Bayes D ​ ( x )  = y )] = E x ∼ D x ​ ​ ( E y ∣ x ​ [ I ( h ( x )  = y ) − I ( Bayes D ​ ( x )  = y ) ] ) . ​ ​

对于任意 x ∈ D x \boldsymbol{x} \in \mathcal{D}_{\boldsymbol{x}} x ∈ D x ​ ,定义:

Δ ( x ) = I ( h ( x ) ≠ y ) − I ( B a y e s D ( x ) ≠ y ) . \begin{equation} \Delta(\boldsymbol{x}) = \mathbb{I}(h(\boldsymbol{x}) \not= y) -

\end{equation} Δ ( x ) = I ( h ( x )  = y ) − I ( Bayes D ​ ( x )  = y ) . ​ ​

若 h ( x ) = B a y e s D ( x ) h(\boldsymbol{x}) = \mathrm{Bayes}{\mathcal{D}}(\boldsymbol{x}) h ( x ) = Bayes D ​ ( x ) ,则 Δ ( x ) = 0 \Delta(\boldsymbol{x}) = 0 Δ ( x ) = 0 ;否则记 η ( x ) = P ( y = 1 ∣ x ) \eta(\boldsymbol{x}) = \mathbb{P}(y = 1 \mid \boldsymbol{x}) η ( x ) = P ( y = 1 ∣ x ) ,当 η ( x ) ≥ 1 2 \eta(\boldsymbol{x}) \geq \frac{1}{2} η ( x ) ≥ 2 1 ​ 时,B a y e s D ( x ) = 1 \mathrm{Bayes}}(\boldsymbol{x}) = 1 Bayes D ​ ( x ) = 1 ,故 h ( x ) = 0 h(\boldsymbol{x}) = 0 h ( x ) = 0 ,有:

I ( h ( x ) ≠ y ) = I ( y = 1 ) , I ( B a y e s D ( x ) ≠ y ) = I ( y = 0 ) ⟹ Δ ( x ) = I ( y = 1 ) − I ( y = 0 ) = η ( x ) − [ 1 − η ( x ) ] = 2 η ( x ) − 1 ≥ 0. \begin{align} &\mathbb{I}(h(\boldsymbol{x}) \not= y) = \mathbb{I}(y = 1), \space \mathbb{I}(\mathrm{Bayes}_{\mathcal{D}}(\boldsymbol{x}) \not= y) = \mathbb{I}(y = 0) \nonumber \ \implies \Delta(\boldsymbol{x}) &= \mathbb{I}(y = 1) -

\end{align} ⟹ Δ ( x ) ​ I ( h ( x )  = y ) = I ( y = 1 ) , I ( Bayes D ​ ( x )  = y ) = I ( y = 0 ) = I ( y = 1 ) − I ( y = 0 ) = η ( x ) − [ 1 − η ( x )] = 2 η ( x ) − 1 ≥ 0. ​ ​

同理,当 η ( x )

E y ∣ x [ Δ ( x ) ] ≥ 0 , ∀ x ∈ X , \begin{equation} \mathbb{E}_{y \mid \boldsymbol{x}} \left[ \Delta(\boldsymbol{x}) \right] \geq 0, \space \forall \boldsymbol{x} \in \mathcal{X}, \end{equation} E y ∣ x ​ [ Δ ( x ) ] ≥ 0 , ∀ x ∈ X , ​ ​

即:

L D ( h ) − L D ( B a y e s D ) ≥ 0.

L_{\mathcal{D}}(h) -

\end{equation} L D ​ ( h ) − L D ​ ( Bayes D ​ ) ≥ 0. ​ ​

这说明 B a y e s D ( x ) \mathrm{Bayes}_{\mathcal{D}}(\boldsymbol{x}) Bayes D ​ ( x ) 是 X \mathcal{X} X 到 { 0 , 1 } {0, \space 1} { 0 , 1 } 上的最优假设. □ \square □

Remark:\color{brown}{\textbf{Remark:}} Remark :在实际应用中,由于不清楚真实分布 D \mathcal{D} D ,我们不能直接使用 B a y e s D ( x ) \mathrm{Bayes}_{\mathcal{D}}(\boldsymbol{x}) Bayes D ​ ( x ) .

无限假设空间也可能是 PAC 可学习的,我们分别给出可列假设空间和连续假设空间上的例子:

Example 可列假设空间:\color{brown}{\textbf{Example 可列假设空间:}} Example 可列假设空间:考虑 X \mathcal{X} X 可列,Y = { 0 , 1 } \mathcal{Y} = {0, \space 1} Y = { 0 , 1 } ,令 H = { h z : z ∈ X , h z ( x ) = I ( x = z ) } ∪ { h − ≡ 0 } \mathcal{H} = { h_{\boldsymbol{z}} : \boldsymbol{z} \in \mathcal{X}, \space h_{\boldsymbol{z}}(\boldsymbol{x}) = \mathbb{I}(\boldsymbol{x} = \boldsymbol{z}) } \cup { h^- \equiv 0} H = { h z ​ : z ∈ X , h z ​ ( x ) = I ( x = z )} ∪ { h − ≡ 0 } ,则当 H \mathcal{H} H 可分时,问题是 PAC 可学习的.

Proof:\color{brown}{\textbf{Proof:}} Proof :根据 E R M \mathrm{ERM} ERM 法则,构建如下算法:若训练集中全部样本点的标记为 0 0 0 ,则返回 h − h^- h − ,否则若存在样本点 z ∗ \boldsymbol{z}^ z ∗ 标记为 1 1 1 ,则返回 h z ∗ h_{\boldsymbol{z}^} h z ∗ ​ . 若最优假设为 h − h^- h − ,算法显然会返回 h − h^- h − ,L D ( h − ) = 0 L_{\mathcal{D}}(h^-) = 0 L D ​ ( h − ) = 0 ,问题是 PAC 可学习的;若最有假设为 h z ∗ h_{\boldsymbol{z}^} h z ∗ ​ ,设取样到 z ∗ \boldsymbol{z}^ z ∗ 的概率为 p p p ,则训练集中不包含 p p p 的概率为 ( 1 − p ) m ≤ e − p m (1 - p)^m \leq \mathrm{e}^{-pm} ( 1 − p ) m ≤ e − p m ,令 e − p m ≤ δ \mathrm{e}^{-pm} \leq \delta e − p m ≤ δ ,得 m ≥ 1 p ln ⁡ 1 δ m \geq \frac{1}{p} \ln \frac{1}{\delta} m ≥ p 1 ​ ln δ 1 ​ ,因而其也是 PAC 可学习的. □ \square □

Example 连续假设空间:\color{brown}{\textbf{Example 连续假设空间:}} Example 连续假设空间:考虑 X = R 2 \mathcal{X} = \mathbb{R}^2 X = R 2 ,Y = { 0 , 1 } \mathcal{Y} = {0, \space 1} Y = { 0 , 1 } ,令 H = { h r : r ∈ R + , h r ( x ) = I ( ∥ x ∥ ≤ r ) } \mathcal{H} = { h_r : r \in \mathbb{R}_+, \space h_r(\boldsymbol{x}) = \mathbb{I}(| \boldsymbol{x} | \leq r)} H = { h r ​ : r ∈ R + ​ , h r ​ ( x ) = I ( ∥ x ∥ ≤ r )} ,则当 H \mathcal{H} H 可分时,问题是 PAC 可学习的.

Proof:\color{brown}{\textbf{Proof:}} Proof :根据 E R M \mathrm{ERM} ERM 法则,构建算法返回的假设 h r ^ h_{\hat{r}} h r ^ ​ 满足 r ^ \hat{r} r ^ 等于标记为 1 1 1 的样本的范数最大值. 设 X \mathcal{X} X 的密度函数为 f ( x ) f(\boldsymbol{x}) f ( x ) ,记 F ( r ) = ∫ ∥ x ∥ ≤ r f ( x ) d x F(r) = \int_{| \boldsymbol{x} | \leq r} f(\boldsymbol{x}) \mathrm{d}\boldsymbol{x} F ( r ) = ∫ ∥ x ∥ ≤ r ​ f ( x ) d x ,最优假设为 h r ∗ h_{r^} h r ∗ ​ ,则 r ^ ≤ r ∗ \hat{r} \leq r^ r ^ ≤ r ∗ ,则:

L D ( h r ^ ) = P x ∼ f [ h r ^ ( x ) ≠ h r ∗ ( x ) ] = F ( r ∗ ) − F ( r ^ ) . \begin{equation} L_{\mathcal{D}}(h_{\hat{r}}) = \mathbb{P}{\boldsymbol{x} \sim f} \left[ h}(\boldsymbol{x}) \not= h_{r^}(\boldsymbol{x}) \right] = F(r^) -

\end{equation} L D ​ ( h r ^ ​ ) = P x ∼ f ​ [ h r ^ ​ ( x )  = h r ∗ ​ ( x ) ] = F ( r ∗ ) − F ( r ^ ) . ​ ​

对于任意给定 ε ∈ ( 0 , 1 ) \varepsilon \in (0, \space 1) ε ∈ ( 0 , 1 ) ,只需让 F ( r ∗ ) − F ( r ^ ) ≤ ε F(r^) - F(\hat{r}) \leq \varepsilon F ( r ∗ ) − F ( r ^ ) ≤ ε . 若 F ( r ∗ ) ≤ ε F(r^) \leq \varepsilon F ( r ∗ ) ≤ ε ,不等式直接成立,不妨设 F ( r ∗ ) > ε F(r^) > \varepsilon F ( r ∗ ) > ε ,记 r ε r_{\varepsilon} r ε ​ 满足 F ( r ε ) = F ( r ∗ ) − ε F(r_{\varepsilon}) = F(r^) - \varepsilon F ( r ε ​ ) = F ( r ∗ ) − ε ,样本中标记为 1 1 1 的样本数为 m + m^+ m + ,则 m + ∼ B i n o m i a l ( m , F ( r ∗ ) ) m^+ \sim \mathrm{Binomial}(m, \space F(r^*)) m + ∼ Binomial ( m , F ( r ∗ )) ,且有:

P ( r ^

\mathbb{P}(\hat{r}

\end{equation} P ( r ^

对等式两边取期望,得:

P ( r ^

\mathbb{P}(\hat{r}

\end{equation} P ( r ^

根据二项分布的矩母函数,有:

E [ exp ⁡ ( − ε m +

\mathbb{E} \left[ \exp\left( -\dfrac{\varepsilon m^+}{F(r^*)} \right)\right] = \left[ 1 -

\end{equation} E [ exp ( − F ( r ∗ ) ε m + ​ ) ] = [ 1 − p ( 1 − e − q ) ] m , ​ ​

其中 p = F ( r ∗ ) p = F(r^) p = F ( r ∗ ) ,q = ε F ( r ∗ ) q = \frac{\varepsilon}{F(r^)} q = F ( r ∗ ) ε ​ . 容易证明 e − q ≤ 1 − q + 1 2 q 2 \mathrm{e}^{-q} \leq 1 - q + \frac{1}{2} q^2 e − q ≤ 1 − q + 2 1 ​ q 2 ,故 1 − e − q ≥ q − 1 2 q 2 ≥ 1 2 q 1 - \mathrm{e}^{-q} \geq q - \frac{1}{2}q^2 \geq \frac{1}{2}q 1 − e − q ≥ q − 2 1 ​ q 2 ≥ 2 1 ​ q ( 0 ≤ q ≤ 1 0 \leq q \leq 1 0 ≤ q ≤ 1 ),因此:

[ 1 − p ( 1 − e − q ) ] m ≤ [ 1 − p ( q 2 ) ] m ≤ ( 1 − 1 2 ε ) 2 ≤ exp ⁡ ( − ε m 2 ) . \begin{equation} \left[ 1 -

\end{equation} [ 1 − p ( 1 − e − q ) ] m ≤ [ 1 − p ( 2 q ​ ) ] m ≤ ( 1 − 2 1 ​ ε ) 2 ≤ exp ( − 2 ε m ​ ) . ​ ​

故:

P ( r ^

令不等式右侧小于 δ \delta δ ,得:

m ≥ 2 ε ln ⁡ 1 δ . \begin{equation} m \geq \dfrac{2}{\varepsilon} \ln \dfrac{1}{\delta}. \end{equation} m ≥ ε 2 ​ ln δ 1 ​ . ​ ​

综上所述,该问题是 PAC 可学习的,且采样复杂度 m ≤ ⌈ 2 ε ln ⁡ 1 δ ⌉ m \leq \Big\lceil \frac{2}{\varepsilon} \ln \frac{1}{\delta} \Big\rceil m ≤ ⌈ ε 2 ​ ln δ 1 ​ ⌉ . □ \square □

来源:墨码行者

相关推荐