摘要:日前,工业和信息化部正式发布2024年未来产业创新发展优秀典型案例名单,三六零集团(以下简称“360”)自主研发的大模型安全护栏产品解决方案(360“智盾”)成功入选,成为人工智能安全领域标志性产品。本次优秀案例征集与评选严格按照工业和信息化部等七部门《关于推
日前,工业和信息化部正式发布2024年未来产业创新发展优秀典型案例名单,三六零集团(以下简称“360”)自主研发的大模型安全护栏产品解决方案(360“智盾”)成功入选,成为人工智能安全领域标志性产品。本次优秀案例征集与评选严格按照工业和信息化部等七部门《关于推动未来产业创新发展的实施意见》的部署要求,聚焦未来制造、未来信息、未来材料、未来能源、未来空间、未来健康等六大方向,旨在从国家层面遴选出一批具有标杆作用和样本示范引领作用的典型优秀案例。
在人工智能大模型高速发展的背景下,模型在实际应用中暴露出诸多安全隐患,包括恶意操控、内容违规、隐私泄露、幻觉误导等问题,带来了前所未有的挑战。
中国信息通信研究院发起的AI Safety Benchmark(大模型安全基准测试)结果显示,当模型面临恶意攻击时,生成有害内容的成功率显著上升,凸显安全防护机制的迫切需求。
以模制模:用大模型守护大模型
面对大模型落地应用中不断演化的内容安全挑战,360智脑团队深入探索、持续创新,率先提出“以模制模”理念——用大模型能力保障大模型自身的安全,并将相关能力产品化,打造出业界领先的大模型内容安全解决方案360“智盾”。
模型层:打造超级安全的“安全回复大模型”
360团队通过持续预训练(Safety Continual Pretraining)、安全监督微调(Safety Supervised Fine-Tuning)、安全对齐(Safety Alignment)等方式,结合插值/外插训练技术和真实场景数据,不断提升模型本身的原生安全性能,最终构建出一个能够应对越狱攻击、处理高风险问题时依然保持“向善”响应的“安全回复大模型”。
应用层:构建多层次内容护栏体系
在应用层,360“智盾”为业务大模型外部加装“内容防护盔甲”:
输入端:用户输入内容首先经过风险识别分类器,根据风险等级进行分级处理:
红线类内容直接拒答;
敏感但可答类交由“安全回复大模型”处理;
安全内容正常进入业务模型;
输出端:模型生成内容再次经过检测,确保无违规风险。
语义理解驱动的风险识别模型
360自研的风险内容分类器基于语义大模型构建,在识别精度和训练效率上全面优于传统关键词匹配和BERT类分类模型。
其训练数据严格对标《生成式人工智能服务安全基本要求(TC260-003)》中5大类31小类的违法不良信息类型,并结合实际业务场景细化出100余类风险标签。仅需少量示例样本,即可训练出行业领先水平的检测能力。
红蓝对抗攻防靶场:模拟实战,快速迭代
线上大模型服务所面临的风险复杂多变,360创新构建基于大模型的红蓝对抗靶场体系,实现自动化、系统化评估与迭代:
红方(攻击方):由“360红蓝对抗攻击大模型”模拟真实攻击者,主动发起越狱、诱导等攻击;
蓝方(防御方):包括“安全回复大模型”在内的防护模型,接收攻击并构建防御机制;
裁判员:由“360安全评测大模型”担任,对每轮输入输出进行定量分析,自动评估攻防成效。
通过标准化指标与自动化评估流程,大大提高评测效率与覆盖率,实现产品能力的快速闭环迭代。
赋能行业落地,服务全面升级
目前,360“智盾”已全面部署于360内部各大模型业务中,为C端用户提供可靠的内容安全保障。同时也积极拓展外部服务,为政企客户提供大模型生态链漏洞安全检测、内容安全防护与评估、备案合规咨询、可信增强搜索等多项AI安全产品能力与服务,助力其在AI大模型应用落地过程中实现“安全可控”。截至目前,360“智盾”已在政务、金融、交通、能源等重点行业完成落地,持续为行业客户打造更稳固的大模型安全底座。
除“智盾”外,360推出的大模型安全产品还包括“360智鉴”和“360智搜”。其中,“360智鉴”为大模型系统安全检测平台(AISE),该产品覆盖了从模型训练到推理的全链路安全检测,支持对模型服务的相关组件识别、生态链漏洞扫描和多语言代码审计,确保大模型系统安全;“360智搜”则是一款大模型可信增强(AISO)工具,融合多模态检索与语义理解技术,能够提供精准的搜索结果,并支持基于企业私域数据的知识提炼与总结。其独特之处在于整合多领域精品知识库,实现全网与私域知识的无缝对接,提升信息获取效率,并可帮助大模型缓解幻觉问题,减少虚假或不准确信息,提升大模型的可信度与可靠性,从而为企业提供更安全、更高效的业务支持。
安全可控,向善可信
此次入选工信部《2024年未来产业创新发展优秀典型案例》,是唯一一个入选的大模型安全防护产品案例。这不仅是对360在大模型安全领域长期投入与领先能力的高度肯定,更充分体现出在AI应用加速落地的今天,安全可控的重要性正日益凸显。
未来,360 AI安全团队将继续在内容安全、漏洞安全、可信安全等方向深耕,为构建一个安全、向善、可信、可控的大模型应用环境持续贡献力量。
上游新闻 马亮
来源:上游新闻