摘要:亚马逊云科技人工智能与数据部门副总裁Dr. Swami在主题演讲中以莱特兄弟在1903年的首次飞行举例。12秒的飞行并非孤立发生,它代表了多个世纪的技术进步,从达芬奇为人类飞行奠定概念基础的草图,到固定翼飞机早期设计分开升力和推进概念,再到第一架蒸汽动力飞机展
眼花缭乱,目不暇接。这两天亚马逊云科技2024 re:Invent大会的密集发布给了大家足够的冲击力,来自全球的从业者来这里沉浸式体验先进的技术和方案。
围绕生成式AI的系统性创新是今年大会的主旋律。显然,亚马逊云科技是不同意“在生成式AI道路上追赶”这一说法的,要做就做生成式AI落地应用的引路者。
数据与AI技术融合 迎来生成式AI转折
亚马逊云科技人工智能与数据部门副总裁Dr. Swami在主题演讲中以莱特兄弟在1903年的首次飞行举例。12秒的飞行并非孤立发生,它代表了多个世纪的技术进步,从达芬奇为人类飞行奠定概念基础的草图,到固定翼飞机早期设计分开升力和推进概念,再到第一架蒸汽动力飞机展示动力飞行潜力,以及一系列滑翔机实验提供升力和阻力关键数据,这些都直接启发了莱特兄弟。
也就是说,所有的成就加上材料科学、制造和内燃机创新,最终使动力飞行成为可能。所以,虽然莱特兄弟不能独占这12秒成功的全部功劳,但他们成了在前辈基础上继续梦想者的整合者。
同样,AI应用创新绝不是一个孤立的事情,从第一个人工神经网络感知机模型,到反向传播使多层模型高效训练成为可能,AI创新汇集了数十年研究和科学进步。然而,仅靠这些发现还不够。大规模数据集和通过云提供的专用计算资源融合,为AI蓬勃发展创造了完美条件。
回顾生成式AI的融合历史, Dr. Swami不禁回想起亚马逊的18年历程以及亚马逊云科技的创立,他说:“好奇心和解决实际客户问题的渴望驱使。在旅程中的每一项创新,从可扩展基础设施Amazon S3到数据库突破Amazon DynamoDB,再到可扩展分析服务Amazon EMR和Amazon Redshift,以及通过Amazon SageMaker和Amazon Bedrock实现的机器学习与生成式AI普及,都为客户解锁增量价值。
比如,Intuit利用Amazon S3在亚马逊云科技上构建数据湖,使用Amazon Athena、EMR和Amazon Glue运行分析,将 Amazon SageMaker作为机器学习战略核心要素;GE Healthcare用Amazon S3、Redshift和Amazon SageMaker为医疗用例运行分析和机器学习工作流。
如今,生成式AI又达到一个转折点,越来越多的客户关注在数据治理、数据处理,希望利用大数据分析、机器学习和生成式AI融合创造新统一体验的机会,既做到数据处理,同时还可以把数据作为生成式AI去用,能加速工作流程、增强协作。
重新定义Amazon SageMaker
为生成式AI全生命周期提供一站式服务
现在围绕客户需求,亚马逊云科技一直思考如何构建一个整合的体验。因此,亚马逊云科技从产品和品牌层面重新定义Amazon SageMaker,整合大数据、快速SQL分析、机器学习、模型开发和生成式AI关键经验到单一统一平台。
在数据库分析技术上,Amazon Aurora DSQL以及Amazon DynamoDB global tables目前可以做到全球强一致性,作为全球性的数据库来说,亚马逊云科技系统创新解决了维护节点等问题,给客户完整的使用体验,客户需要在多个区域中边同时写入,还可以得到低延时的需求。
从数据的角度,从数据库到数据仓库、数据分析的平台中间其实有很多的一些工作。亚马逊云科技去年发布了非常多的Zero-ETL 的功能,今年继续加强在 Zero-ETL for application data ,并能够实现从数据库到新的 Amazon SageMaker Lake House Unified Studio 之间的数据集成。大大的简化从数据在线的数据库,到离线的数仓分析,再到后面的机器学习中整个的一个工作流。
而全新发布Amazon SageMaker Unified Studio提供整合的数据和人工智能开发环境。这不仅是一个集成工具,比如整合包括像EMR、Glue、Redshift 和 OpenSearch等功能,也融合了多年亚马逊云科技与无数客户交流、团队集体的专业知识。
Amazon SageMaker AI:
从根本上重新构想和扩展模型训练
亚马逊云科技不会放慢提升Amazon SageMaker功能的步伐,尤其是训练功能,现在它被升级为Amazon SageMaker AI。它将数据和机器学习世界创新融合。
基于数十年神经网络研究,亚马逊云科技首次使深度学习更易访问和扩展,成为计算能力、机器学习分布式系统和用户体验设计突破的结晶。Amazon SageMaker AI提供工具和工作流程,从数据准备到创建机器学习模型,再到训练、部署和可观察性,减轻机器学习和分析生命周期的繁重工作,将所有工具整合一处。
这正是数十万客户用Amazon SageMaker训练和部署基础模型的原因。
去年亚马逊云科技推出Amazon SageMaker HyperPod。Amazon SageMaker HyperPod有先进弹性能力,确保集群从全栈故障自动恢复,有快速检查点和主动计算资源管理功能,成为客户训练基础模型的首选基础设施。
然而,随着领域快速发展,规模增长空前,模型训练面临关键转折点,模型越来越复杂。在计算资源、能源消耗和数据质量,行业内都面临前所未有的挑战。前文我们分析过,当前训练大型模型的范式促使行业内都在探索更高效架构和训练方法。传统扩展技术接近物理和经济限制,这也是亚马逊云科技大力投资提供一流机器学习基础设施Trn2和专用GPU实例的动力所在。
在这样的背景下,若能定义计算需求和训练时间框架,岂不是可以软硬联动解决客户难题?因此。为了确保和有效管理计算资源,亚马逊云科技发布Amazon SageMaker HyperPod灵活训练计划(Amazon SageMaker HyperPod flexible training plans)。
这真的是一项改变游戏规则的功能。这项功能快速创建训练计划自动预留容量,设置集群,创建模型训练作业,为数据科学团队节省数周训练时间。Amazon SageMaker HyperPod可基于Amazon EC2容量块,根据时间线和预算创建最佳训练计划。比如Amazon SageMaker HyperPod会呈现时间片和可用区加速模型准备,通过高效检查点和恢复功能,在全球容量动态情况下自动处理实例中断,无需手动干预即可继续训练。
我们生活在计算资源有限且昂贵的世界,很难最大化利用率和有效分配资源,通常靠电子表格和日历完成。比如白天有1000个Trn2加速器用于推理,晚上大部分闲置,若没有战略资源分配方法,不仅错过机会还浪费金钱。
所以客户还面临另一个挑战是有效管理跨多团队和项目的计算资源。亚马逊云科技发布Amazon SageMaker HyperPod任务治理功能(Amazon SageMaker HyperPod task governance),这项创新通过自动化生成式AI任务的优先级排序和管理,帮助客户实现最大化计算资源利用率,通过Amazon SageMaker HyperPod任务治理最多可降低40%成本。客户能轻松为从推理到微调、训练等各种模型任务定义优先级,业务部门或技术领导者可为团队或项目设置计算资源限制,Amazon SageMaker HyperPod动态分配资源,确保分配给最高优先级任务并按时完成,还可监控资源利用率和实时洞察任务,通过调整优先级和分配减少等待时间。
当这些问题一一解决后,客户还想在Amazon SageMaker上使用支持机器学习的专业第三方应用程序怎么办?
于是又有了新的发布:Amazon SageMaker 合作伙伴AI应用支持功能(Al apps from AWS partners now available in Amazon SageMaker),客户在Amazon SageMaker中部署所有这些合作伙伴AI应用程序(比如Comet Deep、Jax、Fiddler等等),加速模型开发生命周期,无需预配或管理基础设施,数据永远不会离开Amazon SageMaker开发环境,保证了安全性和隐私性。
而在推理的过程中,Amazon Bedrock变成为客户生成式AI推理的构建模块。篇幅有限,我们下一篇单独详细解读亚马逊云科技从选择和优化正确的模型开始,实际解决客户的模型使用问题。
其实分享到这,我不禁想起美国计算机科学家、图灵奖获得者Alan Kay曾经说过的一句话:“真正认真对待软件的人应该制造自己的硬件。面对生成式AI和数据需求,亚马逊云科技可以通过系统的创新,上层的应用部署更加灵活,让底层硬件资源可以发挥更好的效能。”
基于客户需求 架构演进繁简之道
生成式AI融合之路上,亚马逊云科技端到端、完整的系统创新能力构建并非一朝一夕,在今天的主题演讲中,亚马逊副总裁兼CTO Dr.Werner Vogels将亚马逊云科技20年构建底层架构的经验浓缩成四个字:繁简之道,在简单和复杂统一过程中,Werner与客户、团队列举亚马逊云科技技术演进,给大家带了六大思考:
1、将可演化性作为一项要求,可演化性是应对复杂性的一种预判(Make evolvability a requirement Evolvability is a prediction for managing complexity)
2、将复杂性拆解成多个部分,分解为内聚性高且有明确定义API的构建模块(Break complexity into pieces Disaggregate into building blocks with high-cohesion and well-defined APIs)
3、让组织与架构相匹配,组建小团队,挑战现状并鼓励主人翁意识(Align organization to architecture Build small teams, challenge the status quo, and encourage ownership)
4、组织成单元形式,在复杂系统中必须缩小影响范围(Organize into Cells In a complex system you must reduce the scope of impact)
5、设计可预测的系统,降低不确定性的影响( Design predictable systems Reduce the impact of uncertainty)
6、使复杂性自动化,将不需要高度判断力的一切事务自动化(Automate Complexity Automate everything that doesn’t require high judgement )
这里的每一项都可以汇聚成一本教科书,Dr.Werner用每项技术更新举例,团队如何在实践中突破与创新,就如他倡导:作为技术专家,我们创造不了所有美好的东西,但我们有责任使用技术来解决世界上一些最困难的问题。
这也呼应了亚马逊云科技的价值主张,围绕客户业务需求和挑战进行创新,这不仅是亚马逊云科技持续创新的动力,也是生成式AI落地的基本叙事逻辑。
*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您发展海外业务和/或了解行业前沿技术选择推荐该服务。
来源:DT时代