摘要:在人工智能平台方面,2016 年谷歌 DeepMind 开源了 DeepMindLab 3D 游戏平台,主要面向智能体的人工智能研究,代表性工作包括 AlphaGo、AlphaZero、具有计划能力的 MuZero和AlphaFold。
大模型人工智能平台国内外发展现状
1. 国际人工智能平台
在人工智能平台方面,2016 年谷歌 DeepMind 开源了 DeepMindLab 3D 游戏平台,主要面向智能体的人工智能研究,代表性工作包括 AlphaGo、AlphaZero、具有计划能力的 MuZero和AlphaFold。
OpenAI 发布了 Universe AI 平台,通过世界范围内提供的游戏、网站或其他的应用程序评价和训练一个 AI 通用智能模型,代表性的工作是 Gym 训练接口和 GPT-3 系列。2019 年谷歌在Google Cloud Next2019 大会推出了 AI 平台,便于开发人员和数据科学家构建、测试和部署机器学习模型的端到端平台,包括
自动机器学习表格(AutoML Tables)获取数据库中的表数据并自动创建模型预测目标列值;自动视频智能自动为视频添加注释和标签,使用目标识别对视频内容进行分类便于其搜索;
自动机器学习视觉智能(AutoMLVision)便于在边缘设备上部署并检测图片中的物体。
这些工具和服务可以组合起来应用在特定垂直领域,譬如新零售、搜索等。2018年脸书开源强化学习 AI 平台 Horizon 主要解决端到端行业应用的强化学习平台,主要应用在机器人和游戏等场景。
大模型方面,国际上比较有代表性的单位有 OpenAI、微软、谷歌、英伟达、Facebook 等。自从 GPT/Bert 模型提出后,深度学习预训练模型迎来了爆发式发展,GPT-2、XLNet、GPT-3 等模型的训练数据和参数呈指数上升,通过无监督学习条件下的“大数据+大模型”方式,各项自然语言理解任务的性能显著提升。
特别是 2020 年 5 月,OpenAI 发布超大规模的自然语言处理模型 GPT-3,采用 Transformer作为基本模型,通过设计基于自监督学习的预训练任务,从大量无标注的自由文本中学习语言知识。
GPT-3 几乎“无所不能”:自动答题、模仿写作、翻译、聊天、生成代码、数学分析、数据图表、玩游戏、制作简历、设计网页等,因此吸引了全球 AI 领域的关注,被广泛认为是通往通用人工智能(AGI)的重要途径之一。
GPT-3 采用预训练语言模型,通过高质量训练样本整理或生成、自监督学习和小样本学习等方法,证明了基于“大数据+大规模”的技术路线可显著提升下游任务的训练性能。虽然 GPT-3 在文本生成方面取得重大突破,可以回答问题、撰写论文、总结长篇文章、翻译语言、记录备忘,甚至创建计算机代码并具有巨大的潜力——如果它创建的计算机代码被证明有效,则可能对将来开发软件和应用程序的方式产生重大影响;GPT-3能够编写出人类难以区分的新闻文章,该能力的社会影响力未知。
但也存在许多不足之处:模型计算能力要求高,成本昂贵,一般机构无法承受;目前仍以英文文本为主,不具备跨模态信息处理能力;模型生成结果仍有待提高,特别是要求生成长而复杂的内容时;相对于填词、语法纠错,阅读理解和推理能力偏弱;目前不具有常识发现能力。
2021年1月Google率先发布了万亿大模型Switch Transformer,使用了稀疏激活(Sparsely Activated)技术,该技术只使用了神经网络权重的子集,或者是转换模型内输入数据的参数。在相同计算资源下,其训练速度上比 Google 之前研发的最大模型 T5-XXL 还要快 4倍。
它由混合专家(Mix of Expert,MoE)AI 模型范式发展而来。MoE模型是指将多个专家或专门从事不同任务的模型放在一个较大的模型中,并有一个“门控网络(Gating Network)”来选择为任何给定数据要咨询哪些专家。
2021年1月OpenAI发布了基于Transformer的语言模型DALL-E,使用了 GPT-3 的 120 亿参数版本,可实现从文本生成图像示例,生成的 图 像 可 以 像 在 现 实 世 界 中 拍 摄 的 一 样 。 与 此 同 时 发 布 的CLIP(Contrastive Language–Image Pre-training)是一个从互联网上收集的 4 亿对图像和文本来进行训练的多模态模型,可以从自然语言监督中有效地学习视觉概念,可以应用于任何视觉分类基准,只需提供要识别的视觉类别的名称,类似于 GPT-2 和 GPT-3 的“ zero-shotlearning”能力。
2021 年 10 月 12 日,微软和英伟达宣布了由 DeepSpeed 和Megatron 驱动的 Megatron-Turing 自然语言生成模型(MT-NLG),这是迄今为止训练的最大和最强大的解码语言模型。这个模型包括5300 亿个参数,与现有最大的模型 GPT-3 相比,参数数量是其 3 倍。
2021 年 12 月 OpenAI 发布了可为应用定制 GPT-3 的一键微调平台,开发人员现在可以在他们自己的数据上对 GPT-3 进行微调,创建一个适合他们应用的定制版本,只需要不到 100 个样本就可以开始感到微调 GPT-3 的收益,而且随着你添加更多的数据,性能会继续提高。
在 2020 年 6 月发表的研究中,研究者展示了用不到 100 个样本进行微调可以提高 GPT-3 在某些任务上的性能。OpenAI 还发现,结果质量会随着样本量翻倍有线性提高。定制使 GPT-3 在更广泛的使用情况下变得可靠,并使模型的运行更加便宜和快速。
用户可以使用几乎任何形状和大小的现有数据集,或根据用户反馈逐步增加数据。通过微调,一个用户能够将正确输出率从 83%提高到 95%。另一用户通过每周添加他们产品的新数据,将错误率降低了 50%。
2. 国内人工智能平台
国内主要的大模型人工智能平台包括北京智源的“悟道”平台、鹏城云脑、中科院自动化所的“紫东太初”跨模态人工智能平台、阿里的 M6、华为云盘古大模型、腾讯云 NLP 大模型、浪潮“源 1.0”等。
2021 年 6 月 1 日北京智源人工智能研究院发布了“悟道”大模型开发平台、大模型高效推理工具包 BMInf、全新升级的 AI 文图绘画大师 CogView 和实现大模型群聊的对话模型 EVA,形成超大规模智能模型训练技术体系,训练出中文、多模态、认知、蛋白质预测在内的系列模型,构建中国人工智能应用基础设施。同时,构建大规模智能模型应用生态,推动相关机构和个人开发者基于模型研发各类新型智能应用,服务中国实体经济产业升级。
“鹏城云脑 Ⅱ”是自主研发的国内首个 E 级 AI 算力平台,曾在多个国际性能测试比赛中夺冠;飞桨是中国首个自主研发的深度学习开源开放平台,创建了端到端自适应分布式训练框架,实现多硬件支持,并行效率高达 90%。2021 年 12 月 8 日,鹏城实验室与百度举办新闻发布会,联合发布全球首个知识增强千亿大模型 ——“鹏城-百度・文心”(模型版本号:ERNIE 3.0 Titan),该模型参数规模达 2600 亿,是目前全球最大的中文单体模型。
“鹏城-百度・文心”在机器阅读理解、文本分类、语义相似度计算等 60 多项任务中取得很好效果,并在 30 余项小样本和零样本任务上刷新基准。为解决“鹏城-百度・文心”大模型应用落地难题,百度团队首创大模型在线蒸馏技术,模型参数压缩率可达 99.98%。压缩版模型仅保留 0.02%参数规模就能与原有模型效果相当,更有利于产业大规模应用。
中科院自动化所“紫东太初”跨模态通用人工智能平台以多模态大模型为核心,基于全栈国产化基础软硬件平台,可支撑全场景 AI应用。
多模态预训练模型被广泛认为是从限定领域的弱人工智能迈向通用人工智能路径的探索。“紫东太初”跨模态通用人工智能平台包括三大关键技术和六大核心能力。三大关键技术为多模态理解与生成多任务统一建模、面向国产化软硬件的高效训练与部署、多模态预训练模型架构设计与优化。
六大核心能力则体现为多模态统一表示与语义关联、跨模态内容转化与生成、预训练模型网络架构设计、标注受限自监督模型学习、模型适配与分布式训练、模型轻量化与推理加速。
“紫东太初”实现了图、文、音三种模态的统一表达,以图生音,以音生图,将开拓 AI 在视频配音、语音播报、标题摘要、海报创作等更多元场景的应用。
百度 AI 开放服务平台提供全栈的 AI 能力(包括语音识别、身份验证、实体标注、内容审核、文字识别、车牌识别等)便于进行端到端软硬一体的应用(人脸实名、工业智能质检),该平台已经进行了商业化落地。
自 2016 年开始,百度 AI 开放平台把积累多年的人工智能技术全面对外开放,从底端智能云,中间百度大脑,到顶层的DuerOS,百度打造整体人工智能开放生态,旨在帮助企业、业界能够更快速地使用、应用人工智能的技术去发展,为人类带来更好的生活。
基本架构为:最底层是微芯片层:
第二层是百度自研的深度学习框架PaddlePaddle;
第三层是定制化的平台与工具,零算法基础的定制化训练平台;第四层是场景化的能力,这是百度训练、优化打磨出来的即查即用的能力。
另一方面,随着端的计算能力和云需求越来越大,百度在开发方式方面提供云和端两种开放的方式-云端结合。
最右侧的 AI 市场是为开发者和合作伙伴、企业搭建的上下游产品服务交易平台,希望能够让他们的能力更好地被工业、企业界认识,并大规模地应用在行业中。
2021 年 9 月 22 日,百度发布新一代对话生成模型PLATO-XL,一举超过 Facebook Blender、谷歌 Meena 和微软 DialoGPT,成为全球首个百亿参数中英文对话预训练生成模型,刷新了开放域对话效果。
阿里云 AI 平台依托其算法技术、云计算基础设施和平台服务,帮助企业简化 IT 开发架构,实现商业价值和加速数智化转型。2021年 11 月 8 日,阿里巴巴达摩院在阿里云 PAI 自研 Whale 框架上搭建了 MoE 模型,并通过更细粒度的 CPU offload 技术,最终实现将 10万亿参数放进 512 张 GPU。
阿里公布了多模态大模型 M6 的最新进展,其参数已从万亿跃迁至 10 万亿,成为全球最大的 AI 预训练模型。作为通用性 AI 大模型,M6 拥有多模态、多任务能力,尤其擅长设计、写作、问答,在电商、制造业、文学艺术、科学研究等领域有广泛应用前景。
与传统 AI 相比,大模型拥有成百上千倍神经元数量,认知和创造能力也更胜一筹,被普遍认为是未来的基础模型。但是,大模型的算力成本相当高昂,比如训练 1750 亿参数语言大模型 GPT-3 所需能耗,能让一辆汽车在地月之间往返一趟。
2021 年 5 月,通过专家并行策略及优化技术,达摩院 M6 团队将万亿模型能耗降低超过80%,效率提升近 11 倍。10 月,M6 再次突破业界极限,使用 512 颗GPU,在 10 天内就训练出了具有可用水平的 10 万亿模型,相比 2020年发布的大模型 GPT-3,M6 实现了同等参数规模,能耗却只有 1%。
华为 HiAI 能力开放平台主要面向终端的 AI 能力开放平台,基于“芯、端、云”三层开放架构,即芯片能力开放、应用能力开放、服务能力开放,构筑全面开放的智慧生态,让开发者能够快速地利用华为强大的 AI 处理能力。
华为云盘古系列大模型包括 NLP(中文语言)大模型、CV(视觉)大模型、多模态大模型和科学计算大模型。华为云盘古大模型旨在建立一套通用、易用的人工智能开发工作流,以赋能更多的行业和开发者,实现人工智能工业化开发。
通过与行业知识结合,盘古大模型能快速实现不同场景的适配,加速 AI 行业应用,让 AI 开发由作坊式转变为工业化开发的新模式。2021 年 7 月 7 日华为云盘古大模型在世界人工智能大会上进行开放体验,盘古大模型家族还在不断壮大,2021 年 9 月华为云新推出盘古药物分子大模型,其研究了 17 亿个小分子的化学结构,可以高效生成药物新分子,计算蛋白质靶点匹配,预测新分子生化属性,并对筛选后的先导药进行定向优化,实现全流程的 AI 辅助药物设计。
结合华为云盘古大模型搭载的自动数据增广以及类别自适应损失函数优化策略,可以做到一个模型适配上百种缺陷,一个模型就可以替代永川原先的 20 多个小模型,极大地减少了模型维护成本,平均精度提升 18.4%,模型开发成本降低 90%。
腾讯云 TI 平台是基于腾讯云强大计算能力的一站式机器学习生态服务平台。它能够对各种数据源、组件、算法、模型和评估模块进行组合,使得算法工程师和数据科学家在其之上能够方便地进行模型训练、评估和预测。
TI 系列产品支持公有云访问、私有化部署以及专属云部署。TI-ACC 是腾讯云 AI 和优图实验室最新发布的一款 AI加速组件产品,是基于优图实验室开源的跨平台高性能推理框架 TNN和训练框架(TI 系列)基础上的一次全新升级,能同时为企业提供 AI模型训练和推理加速服务,支持多种框架和场景,能够显著提高模型训练推理效率、降低成本。
2021 年 11 月 2 日腾讯云 AI 与腾讯优图实验室的加速团队在 CLUE 语言分类任务上进行试验,一举在 CLUE 分类任务 1.0 和 1.1 中拿下业界第一的好成绩。
腾讯云自然语言处理(Natural Language Process,NLP)深度整合了腾讯内部顶级的 NLP技术,依托千亿级中文语料累积,提供 16 项智能文本处理能力,包括智能分词、实体识别、文本纠错、情感分析、文本分类、词向量、关键词提取、自动摘要、智能闲聊、百科知识图谱查询等。
2021 年 9 月 28 日,浪潮人工智能研究院宣布推出大模型“源1.0”,10 月 27 日浪潮宣布“源 1.0”开源。按照介绍,“源 1.0”是全球最大中文预训练语言模型,历时四个月研发,其参数量为 2457亿,训练数据集规模达到 5000GB。相比 GPT-3 模型的 1750 亿参数量和 570GB 训练数据集,“源 1.0”的参数规模增加了 40%,训练数据集规模增加近 10 倍。
来源:教育资讯源一点号