摘要:通过向输入数据添加细微且难以察觉的扰动来诱使机器学习模型产生错误输出的数据点。这些样本常用于测试模型的安全性和鲁棒性。
大模型领域常用名词之模型评估与调试篇——数字化转型网人工智能专题
对抗样本(Adversarial Examples)
通过向输入数据添加细微且难以察觉的扰动来诱使机器学习模型产生错误输出的数据点。这些样本常用于测试模型的安全性和鲁棒性。
可解释性(Explainability)
指的是模型决策过程的透明度和可理解性,即能够清楚地解释模型为什么做出特定预测的能力。这对于确保模型的公平性、避免偏见以及增强用户信任至关重要。
局部搜索(Local Search)
一种优化算法,通过在解空间中寻找局部最优解,并试图从局部最优解出发找到全局最优解。尽管不是直接与模型评估相关,但在某些情况下可用于优化模型参数。
模型的可扩展性(Scalability)
指模型处理大规模数据和复杂任务时的扩展能力,包括计算资源的有效利用和分布式训练策略的应用等。
模型的鲁棒性(Robustness)
模型在面对噪声、对抗攻击或数据分布偏移时保持稳定性和准确性的能力。一个鲁棒性强的模型能够在各种条件下保持良好的性能。
模型的泛化能力(Generalization)
模型在未见过的新数据上表现良好的能力,是衡量模型是否过拟合的重要指标。良好的泛化能力意味着模型不仅能在训练数据上表现良好,在新数据上也能有出色的表现。
交叉验证(Cross-validation)
一种统计方法,通过将数据集划分为几个子集并循环使用这些子集进行训练和测试来评估模型性能。这种方法有助于更准确地估计模型的泛化能力,并减少因数据划分不同而导致的结果波动。
混淆矩阵(Confusion Matrix)
用于描述分类模型性能的一种表格,显示了每个类别的实际值与预测值之间的对比情况,提供了关于分类器误差类型的详细信息。
精确率、召回率和F1分数(Precision, Recall, F1 Score)
精确率是指预测为正类的样本中有多少是真正正确的;召回率是指所有实际为正类的样本中有多少被正确识别出来;F1分数则是精确率和召回率的调和平均数,提供了一个单一的指标来评价模型性能。
AUC-ROC曲线(Area Under the Curve - Receiver Operating Characteristic Curve)
用于评估二分类模型性能的一个图形工具,展示了模型区分正负类的能力。AUC值越接近于1,表示模型的分类效果越好。
模型校准(Model Calibration)
偏差-方差权衡(Bias-Variance Tradeoff)
描述了模型复杂度与误差之间的关系。高偏差通常意味着模型过于简单而欠拟合,高方差则意味着模型过于复杂而过拟合。
来源:小田田是90后