摘要:目前,电信网络诈骗、金融诈骗手段层出不穷。我们也经常在网上看到此类新闻——一位客户声称自己被“AI换脸”技术诈骗,对方利用伪造的视频通话骗走了大额资金。调查发现,诈骗者通过生成了一段与客户本人几乎一致的动态视频,连眨眼频率和微表情都毫无破绽。而这类深度伪造攻击
目前,电信网络诈骗、金融诈骗手段层出不穷。我们也经常在网上看到此类新闻——一位客户声称自己被“AI换脸”技术诈骗,对方利用伪造的视频通话骗走了大额资金。调查发现,诈骗者通过生成了一段与客户本人几乎一致的动态视频,连眨眼频率和微表情都毫无破绽。而这类深度伪造攻击,正是蚂蚁集团“蚁鉴”智能体重点攻克的难题之一。
从安全检测到智能体进化:蚁鉴的技术迭代
蚁鉴的诞生源于AI大规模应用后的安全隐忧。2022年世界人工智能大会上,蚂蚁集团联合中国信通院、清华大学首次发布AI安全检测平台“蚁鉴1.0”,这也是行业首个面向工业场景全数据类型的AI安全检测产品。该平台基于蚂蚁多年的风险对抗实践,集1000多件可信AI专利于一身,融合了自研的智能博弈对抗技术,可以实现文本、图像、表格、序列等不同数据类型的自动化测试、量化评分和安全性增强。
随着大模型爆发,2024年“蚁鉴2.0”(又称“蚁天鉴2.0”)问世,蚁蚁天鉴2.0有两大特色,一是在测评端研发了业内首个“测评智能体”。该测评智能体提供全流程自动化的安全测评工具,支持各种形式模型和深度学习框架,可扩展测评垂类大模型、多模态大模型及Agent智能体,并能根据被测大模型的安全水位动态调整攻击策略和出具测试用例,保障测评效果和效率。与此同时,该智能体也增加了两项新功能。一是大模型X-ray,可针对大模型的内在神经元进行X光扫描来做探查和判断,让研究人员了解大模型内部在发生什么、定位可能引发风险的神经元、并进行编辑修正,从而在模型内部治理幻觉,实现从源头识别和抑制风险。二是大模型基础设施测评,蚁天鉴2.0从攻击者全链路视角出发,深入扫描模型算法组件及软件系统,可及时准确发现大模型供应链及运行环境安全问题,保障云到端的应用安全可控。同时,蚁天鉴2.0防御端新增AI鉴真功能。支持多模态内容真实性及深度伪造检测,可快速精准鉴别图像、视频、音频、文本内容的真伪,图像识别准确率99.9%达到行业最高优秀级。
不眠不休的“安全法师”
目前,蚁天鉴2.0依托生成模型自建百万量级音视图多模态合成数据集,覆盖主流生成方案,有效应对AI换脸、声音模拟、证件伪造等各类深度伪造风险场景。蚁天鉴的检测与防御产品已开放给20家外部机构和企业使用,为通用大模型及医疗、金融、政务等垂直领域行业大模型应用安全保驾护航。
例如,蚂蚁AI金融助理“支小宝”结合蚁天鉴,通过大模型训练与推理风险管控、大模型风险点全方位评测、大模型用户交互风险管控等举措保障大模型应用安全,确保数据的准确性和金融逻辑的严格性。
上海市第一人民医院引用了蚂蚁自主技术研发的一站式大模型安全解决方案“蚁天鉴”,通过全方位智能化的大模型安全评测和防御产品与方案,可有效应对医疗领域大模型应用中的信息安全与隐私保护、双向内容风险防控等挑战。
还有媒体评它为金融风控的终极裁判。在小微贷款场景中,依托蚁天鉴智能体的评估能力,网商银行实现贷款秒批服务,且坏账率仅为1.3%,远低于行业8%的平均水平,为小微企业发展注入强劲动力。在反洗钱战场上,蚁天鉴智能体化身精密雷达,3年时间精准揪出3700个地下钱庄,拦截超万亿元涉案资金,成功阻断非法资金链条。其内置的1000多条风控策略具备自进化能力,能日均完成200亿次风险决策,推动行业风控效率与准确性迈向新高度。
目前,类似于蚁天鉴的智能体在行业中尚属少数,但随着AI安全重要性日益凸显,相关探索正不断涌现。一些科技企业和研究机构已投身于AI安全产品的研发,像部分企业推出了针对内容安全的检测工具,可对文本、图像中的敏感信息进行筛查,在一定程度上能防范不良内容的传播。然而,这些工具往往仅聚焦于单一维度的安全检测,缺乏从模型基础设施到应用全链路的深度扫描能力,难以应对复杂多变的深度伪造风险场景。此外,一些企业的研究成果大多停留在实验室阶段,尚未实现大规模的商业化应用,无法为医疗、金融、政务等众多行业的实际业务提供稳定可靠的安全保障。
行业内对AI安全的关注度持续上升,企业只有打造自己无与伦比的优势,在数字世界的安全保卫战中,才能占据着无可替代的重要地位。
来源:小象科技观