朴素贝叶斯处理混合数据类型，基于投票与堆叠集成的系统化方法

摘要：本文深入探讨朴素贝叶斯算法的数学理论基础，并重点分析其在处理混合数据类型中的应用。通过投票集成和堆叠集成方法，构建了一个能够有效处理包含二元、类别、多项式和高斯分布特征的综合分类框架。实验基于电信客户流失数据集，验证了该方法在多样化数据环境中的有效性。

本文深入探讨朴素贝叶斯算法的数学理论基础，并重点分析其在处理混合数据类型中的应用。通过投票集成和堆叠集成方法，构建了一个能够有效处理包含二元、类别、多项式和高斯分布特征的综合分类框架。实验基于电信客户流失数据集，验证了该方法在多样化数据环境中的有效性。

朴素贝叶斯算法作为经典的生成式机器学习算法，在分类任务中具有重要地位。现实世界的数据集往往包含多种数据类型，如何有效整合这些异构特征进行准确分类是一个重要的研究课题。本文提出基于集成学习的解决方案，通过投票机制和堆叠方法处理混合数据类型，为实际应用提供理论指导和技术实现。

朴素贝叶斯是一种基于贝叶斯定理的生成式学习算法，专门用于解决分类问题。该算法的核心在于朴素贝叶斯假设，即条件独立性假设：给定类别标签的情况下，所有输入特征相互独立。

以动物分类任务为例，假设我们需要分类的动物集合为 {大象, 狗, 猫}，输入特征包括 weight 和 height。朴素贝叶斯假设认为，在预测动物类别时，体重特征和身高特征是条件独立的。具体而言，当模型计算某动物因体重为10磅而被分类为猫的条件概率 P(weight = 10 pounds | class = 'cat') = 0.9 时，这个概率值不会因身高特征（如2英尺）的变化而改变。

虽然该假设在现实中往往不成立，但它显著简化了计算复杂度，使得算法在数据稀疏的情况下仍能保持良好性能。这与需要估计协方差矩阵的二次判别分析（QDA）等算法形成鲜明对比。

目标函数定义

朴素贝叶斯的核心目标是寻找具有最大后验概率的类别标签。给定输入向量 x 和候选类别集合，算法寻求最优分类决策：

贝叶斯定理的应用

为计算后验概率 P(y|x)，朴素贝叶斯运用贝叶斯定理，将其分解为先验概率和似然函数的乘积：

其中，分母 P(x) 表示特征的边际概率。在二元分类场景中，该概率可表示为：

由于 P(x) 对所有候选类别而言都是常数，因此在最终的分类决策中可以忽略，这进一步简化了计算过程。

条件独立性假设的数学意义

朴素贝叶斯假设的核心价值在于显著降低计算复杂度。在没有独立性假设的情况下，条件概率 P(x|y) 需要通过乘法法则展开：

其中 n 表示输入特征的维数。

这种展开方式带来的计算复杂度是指数级的。以二元分类为例，所需计算的依赖关系数量随特征数量呈指数增长：当 n=10 时，需要计算约 2,046 个依赖关系；当 n=20 时，这个数字达到约 200 万；当 n=30 时，则超过 20 亿。

朴素贝叶斯假设通过消除特征间的条件依赖关系，将复杂的多元条件概率简化为一元条件概率的乘积：

因此，最终的目标函数可以表示为：

最大似然估计

朴素贝叶斯分类器采用最大似然估计（MLE）方法确定最优参数。MLE 的目标是寻找能够最大化似然函数的参数集合 Θ。

为提高数值计算的稳定性，通常对似然函数取对数，将乘积运算转换为求和运算：

其中 Θ 表示完整的参数集合，L(Θ) 表示似然函数。

预测决策规则

在学习得到最优参数 Θ* 后，模型通过寻找最大化后验概率的类别标签进行预测：

ŷ(x;Θ) 表示预测函数，它以新的输入向量 x 和学习得到的参数 Θ 为输入P(y|x,Θ) 表示给定输入 x 和学习参数 Θ 时类别 y 的后验概率P(y|Θ*) 表示基于学习参数的类别先验概率估计P(xⱼ|y,Θ*) 表示给定类别 y 时特征 xⱼ 的条件概率估计

现实世界的数据集通常包含多种数据类型，包括二元特征、类别特征、连续数值特征等。不同类型的特征具有不同的概率分布特性，需要采用相应的朴素贝叶斯变体进行处理。

本文采用来自 UC Irvine 机器学习存储库的伊朗客户流失数据集进行验证。该数据集包含 3,500 个样本和 14 个特征，是一个典型的二元分类任务（流失预测）。

数据集特征分布如下：

朴素贝叶斯算法假设条件概率 P(x|y) 遵循特定的预定义分布：

如果假设的分布不能准确反映真实的数据分布，则估计的概率将出现偏差。因此，本文采用以下系统性方法：

分布分析方法

本文通过生成分位数-分位数（QQ）图来分析各特征在不同类别条件下的分布特性。QQ 图将实际数据分布与理论正态分布进行比较，帮助识别最适合的概率分布模型。

分析结果将特征分为四个主要类别：

二元特征

识别出的二元特征包括：complains、tariff_plan、status

这些特征表现出明显的二元分布特性，适合使用伯努利朴素贝叶斯（BernoulliNB）处理。

类别特征

识别出的类别特征：age_group

该特征具有有序类别的特性，适合使用类别朴素贝叶斯（CategoricalNB）处理。

多项式特征

识别出的多项式特征包括：age、charge_amount

这些特征呈现离散计数分布特性，适合使用多项式朴素贝叶斯（MultinomialNB）处理。

高斯特征

识别出的高斯特征包括：call_failure、subscription_length、seconds_of_use、frequency_of_use、frequency_of_sms、distinct_called_numbers、customer_value

这些特征近似服从正态分布，适合使用高斯朴素贝叶斯（GaussianNB）处理。

数据加载与分割

import os import pandas as pd from sklearn.model_selection import train_test_split from sklearn.compose import ColumnTransformer from collections import Counter from imblearn.over_sampling import SMOTE # 数据集加载current_dir = os.getcwd parent_dir = os.path.dirname(current_dir) csv_file_path = f'{parent_dir}/_datasets/{file_name}' df = pd.read_csv(csv_file_path) # 特征与目标变量分离target_col = 'churn' X = df.drop(target_col, axis=1) y = df[target_col] X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=42 ) # 使用SMOTE处理类别不平衡问题minority_class = y_train.value_counts.idxmin minority_df = y_train[y_train == minority_class] majority_class = y_train.value_counts.idxmax majority_df = y_train[y_train == majority_class] smote_target = min(len(minority_df) * 3, len(majority_df)) sampling_strategies = { majority_class: max(len(majority_df), smote_target), minority_class: smote_target } smote_train = SMOTE(sampling_strategy=sampling_strategies, random_state=42) X_train, y_train = smote_train.fit_resample(X_train, y_train) print(Counter(y_train))

处理结果显示：SMOTE前类别分布为 Counter({0: 2135, 1: 385})，SMOTE后为 Counter({0: 2135, 1: 1155})，有效改善了类别不平衡问题。

针对不同数据类型构建相应的处理流水线：

from sklearn.naive_bayes import MultinomialNB, BernoulliNB, GaussianNB, CategoricalNB from sklearn.preprocessing import MinMaxScaler, OneHotEncoder, OrdinalEncoder from sklearn.compose import ColumnTransformer from sklearn.pipeline import Pipeline # 二元特征处理流水线binary_features = ['complains', 'tariff_plan', 'status'] bnb = Pipeline([ ('preprocessor', ColumnTransformer([ ('passthrough', 'passthrough', binary_features)], remainder='drop') ), ('classifier', BernoulliNB) ]) # 类别特征处理流水线categorical_features = ['age_group',] catnb = Pipeline([ ('preprocessor', ColumnTransformer([ ('ordinal_encoder', OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1), categorical_features)], remainder='drop') ), ('classifier', CategoricalNB) ]) # 多项式特征处理流水线multinomial_features = ['age', 'charge_amount'] mnb = Pipeline([ ('preprocessor', ColumnTransformer([ ('onehot', OneHotEncoder(handle_unknown='ignore'), multinomial_features)], remainder='drop') ), ('classifier', MultinomialNB) ]) # 高斯特征处理流水线continuous_features = [ 'call_failure', 'subscription_length', 'seconds_of_use', 'frequency_of_use', 'frequency_of_sms', 'distinct_called_numbers', 'customer_value' ] gnb = Pipeline([ ('preprocessor', ColumnTransformer([ ('scaler', MinMaxScaler, continuous_features)], remainder='drop') ), ('classifier', GaussianNB) ])

投票集成方法

from sklearn.ensemble import VotingClassifier voting_classifier = VotingClassifier( estimators=[ ('gnb', gnb), ('bnb', bnb), ('mnb', mnb), ('cnb', catnb) ], voting='soft', # 软投票：基于概率平均weights=[1, 1, 1, 1] # 等权重设置).fit(X_train, y_train)

堆叠集成方法

import numpy as np from sklearn.linear_model import LogisticRegression X_meta_train = np.hstack( (prob_train_bnb, prob_train_catnb, prob_train_mnb, prob_train_gnb) ) meta_learner = LogisticRegression( # 逻辑回归作为元学习器random_state=42, solver='liblinear', multi_class='auto' ).fit(X_meta_train, y_train) # 基于组合特征训练元模型y_pred_voting = voting_classifier.predict(X_test) X_meta_test = np.hstack((prob_test_bnb, prob_test_catnb, prob_test_mnb, prob_test_gnb)) y_pred_stacking = meta_learner.predict(X_meta_test)

堆叠集成模型在测试集上达到了 81.6% 的准确率和 53.6% 的 F1 分数。该结果表明模型在多数类预测方面表现良好，但在少数类（类别1）的精确率方面仍有改进空间。

具体性能指标如下：

训练集准确率：0.8103测试集准确率：0.8159训练集F1分数：0.7239测试集F1分数：0.5360