摘要:随着人工智能(AI)技术的革命性飞跃,近两年各行业的上下游企业均纷纷投身于AI化的浪潮之中。这场技术的革新,正在以其独特的方式重塑着世界,开启一个新的智能化时代。在消费电子领域,上游芯片企业正在设计和生产针对于AI计算优化的方案,下游终端品牌也在积极探索AI应
随着人工智能(AI)技术的革命性飞跃,近两年各行业的上下游企业均纷纷投身于AI化的浪潮之中。这场技术的革新,正在以其独特的方式重塑着世界,开启一个新的智能化时代。在消费电子领域,上游芯片企业正在设计和生产针对于AI计算优化的方案,下游终端品牌也在积极探索AI应用的创新产品和功能。整个产业链的紧密协作,正加速推动AI应用的落地和普及。
端侧AI技术在音频领域的融合与创新丨炬芯科技,点击链接查看详细视频内容!
在我爱音频网专注的无线音频市场,AI革新也在如火如荼的进行之中,众多搭载AI技术的新一代产品,不仅增强了产品的基本体验,还带来了众多新的AI功能,极大地丰富和便利了人们的日常生活、工作和学习。近期,我爱音频网有幸邀请到了炬芯科技董事长兼CEO周正宇博士,为我们详细介绍AI在音频领域的机遇与挑战,以及炬芯科技在端侧AI音频芯片上的部署。
随着生成式AI大模型ChatGPT的发布和迅速火爆市场,AI技术的发展进入了全新的阶段,文本、图像、视频、音频等生成式AI模型如雨后春笋般快速涌现。在生成式AI爆发的初期,云端处理是AI应用的主要方式,其提供了强大的计算能力和存储资源。但随着数据量不断增加导致的成本问题、用户隐私问题,以及数据传输带来的网络问题、延迟问题等,混合AI(Hybrid AI)架构成为了市场新的方向。其通过结合云端AI和端侧AI的优势,能够提供更高效、节能、隐私、安全和个性化的AI解决方案。
目前的混合AI架构,针对于不同的终端产品和使用场景,主要可以分为三种模式,包括以终端为中心的混合AI、基于终端感知的混合AI和终端与云端协同处理的混合AI。
其中,以终端为中心的混合AI主要处理在终端上进行,云端仅用于分流处理终端无法充分执行的任务,典型应用如AI端侧服务器,AI端侧PC,以及未来可能应用的AI端侧手机等。
基于终端感知的混合AI以AI耳机、AI语音遥控器等终端产品为代表,其主要进行数据和环境的感知,比如语音采集、按键/触控交互等,然后将数据进行预处理,再传输到云端进行处理。
未来包括智能手机、智能手表、智能眼镜、智能音箱、无线麦克风等产品,更多的将会采用终端与云端协同处理的混合AI,也就是通过双端配合,协调和分配不同的推理任务,以达到低延迟、隐私性、个性化,以及本地化的更好体验。
虽然混合AI模式在应用上拥有着更多的优势,而端侧AI也同时面临两大挑战:一是性能、功耗和成本之间的平衡,在提高算力的同时,如何在合理功耗和成本下达到最佳效果,特别是在电池驱动低功耗设备上的应用挑战巨大;二是生态系统的构建,类似于CPU、GPU的发展,需要形成统一的生态,包括工具链、语言、通用性以及开发便利性,以促进AI技术的普及和规模化应用。
特别是以电池驱动的AIoT设备,比如上文中提到的智能手表、智能眼镜等产品。其中,最主要的挑战是能效比,如何在不显著提升耗电的情况下,能够实现比传统计算架构提升几十倍、上百倍甚至是上千倍的算力的同时,还拥有一个能够让大众认可的能够广泛普及的价格。
现有的解决方案主要是CPUs+DSPs,虽然有非常好的算法弹性,但是算力和能效比远远达不到需求;基于数字逻辑硬化的ASIC NPU,虽然算力和能效比大幅提升,但没有升级的弹性,无法适应新模型的涌现。
以上传统的解决方案中,无法很好的满足低功耗端侧AI应用的主要原因,就是大家熟知的冯•诺伊曼架构。在此架构中,计算单元要先从内存中读取数据,计算完成后,再存回内存。随着半导体产业的发展和需求的差异,处理器和存储器二者之间走向了不同的工艺路线。由于工艺、封装、需求的不同,存储器数据访问速度跟不上处理器的数据处理速度,数据传输就像处在一个巨大的漏斗之中,不管处理器灌进去多少,存储器都只能“细水长流”。两者之间数据交换通路窄以及由此引发的高能耗两大难题,在存储与运算之间筑起了一道“存储墙”。
此外,在传统架构下,数据从内存单元传输到计算单元需要的功耗是计算本身的许多倍,因此真正用于计算的能耗和时间占比很低,数据在存储器与处理器之间的频繁迁移带来严重的传输功耗问题,称为“功耗墙”。
周正宇博士表示:弱化或消除“存储墙”及“功耗墙”问题的方法是采用存内计算Computing-in-Memory(CIM)结构。其核心思想是将部分或全部的计算移到存储中,让存储单元具有计算能力,数据不需要单独的运算部件来完成计算,而是在存储单元中完成存储和计算,消除了数据访存延迟和功耗,是一种真正意义上的存储与计算融合。同时,由于计算完全依赖于存储,因此可以开发更细粒度的并行性,大幅提升性能尤其是能效比。
因此,如果实现了存内计算,解决“存储墙”和“功耗墙”的问题,就能够更好地实现低功耗端侧AI的应用。当然,存内计算架构的实现并非易事,但得益于AI技术的进步,尤其是通过利用大量神经网络的计算能力,利用存内计算解决AI运算已不再是不可逾越的难题。正因如此,市场上开始出现一些创新性的计算架构。
要在存储上做计算,存储介质的选择是成本关键。以“单芯片为王”的目标是将低功耗端侧AI的计算能力和其他SoC的模块集成于一颗芯片中,于是使用特殊工艺的DDR RAM和Flash无法在考虑范围内。而采用标准SoC适用的CMOS工艺中的SRAM和新兴NVRAM(如RRAM或者MRAM)进入视野。SRAM工艺非常成熟,且可以伴随着先进工艺升级同步升级,读写速度快、能效比高,并可以无限多次读写。唯一缺陷是存储密度较低,但对于绝大多数端侧AI的算力需求,该缺陷不会成为阻力。短期内,SRAM是在低功耗端侧AI设备上打造高能效比的最佳技术路径,且可以快速落地,没有量产风险。
长期来看,新兴NVRAM 如RRAM由于密度高于SRAM,读功耗低,也可以集成入SoC,给存内计算架构提供了想象空间。但是RRAM工艺尚不成熟,大规模量产依然有一定风险,制程最先进只能到22nm,且存在写次数有限的致命伤(超过会永久性损坏)。预期未来当RRAM技术成熟以后,SRAM 跟RRAM的混合技术有机会成为最佳技术路径,需要经常写的AI计算可以基于SRAM的CIM实现,不经常或者有限次数写的AI计算由RRAM的CIM实现,基于这种混合技术有望实现更大算力和更高的能效比。
相较于ChatGPT这样包罗万象的云端大模型,针对于智能耳机、智能手表、智能音箱等电池驱动的AIoT设备应用的端侧AI,如果仅用于降噪、音效、健康监测等专项功能,对于模型和算力的要求则相对更低。
对于主要以电池驱动的中小模型端侧机器学习IoT应用领域,炬芯科技针对于端侧AI落地,提出了“Actions Intelligence”战略,聚焦于模型规模在一千万参数(10M)以下的低功耗音频端侧AI应用,致力于为低功耗AIoT设备打造在10mW~100mW的功耗下,提供0.1~1TOPS的通用AI算力。也就是说“Actions Intelligence”将挑战目标10TOPS/W-100TOPS/W的AI算力能效比。
针对于Actions Intelligence战略需求,以及低功耗端侧AI面临的问题,炬芯科技创新性的采用了基于模数混合设计的电路实现存内计算。通过在SRAM介质内用客制化的模拟设计实现数字计算电路,既实现了真正的CIM,又保证了计算精度和量产一致性。
周正宇博士认为,炬芯科技选择基于模数混合电路的SRAM存内计算(Mixed-Mode SRAM based CIM,简称MMSCIM)的技术路径,具有以下几点显著的优势: 第一,比纯数字实现的能效比更高,并几乎等同于纯模拟实现的能效比; 第二,无需ADC/DAC, 数字实现的精度,高可靠性和量产一致性,这是数字化天生的优势; 第三,易于工艺升级和不同FAB间的设计转换; 第四,容易提升速度,进行性能/功耗/面积(PPA)的优化; 第五,自适应稀疏矩阵,进一步节省功耗,提升能效比。
而对于高质量的音频处理和语音应用,MMSCIM是最佳的未来低功耗端侧AI音频技术架构。由于减少了在内存和存储之间数据传输的需求,它可以大幅降低延迟,显著提升性能,有效减少功耗和热量产生。对于要在追求极致能效比电池供电IoT设备上赋能AI,在每毫瓦下打造尽可能多的 AI 算力,炬芯科技采用的MMSCIM技术是真正实现端侧AI落地的最佳解决方案。
从炬芯科技公布的MMSCIM路线规划来看:
炬芯第一代(GEN1)MMSCIM已经在2024年落地, GEN1 MMSCIM采用22 纳米制程,每一个核可以提供100 GOPS的算力,能效比高达6.4 TOPS/W@INT8;到 2025 年,炬芯科技将推出第二代(GEN2)MMSCIM,GEN2 MMSCIM采用22 纳米制程,性能将相较第一代提高三倍,每个核提供300GOPS算力,直接支持Transformer模型,能效比也提高到7.8TOPS/W@INT8;到 2026 年,推出新制程12 纳米的第三代(GEN3)MMSCIM,GEN3 MMSCIM每个核达到1 TOPS的高算力,支持Transformer,能效比进一步提升至15.6TOPS/W @INT8。
以上每一代MMSCIM技术均可以通过多核叠加的方式来提升总算力,比如MMSCIM GEN2单核是300 GOPS算力,可以通过四个核组合来达到高于1TOPS的算力。
基于模数混合SRAM存内计算技术,炬芯科技推出了第一代端侧AI音频芯片,采用了ARM CPU+HiFi5 DSP+MMSCIM三核异构的AI架构,炬芯的研发人员将MMSCIM和先进的HiFi5 DSP融合设计形成了炬芯科技“Actions Intelligence NPU(AI-NPU)”架构,并通过协同计算,形成一个既高弹性又高能效比的NPU架构。在这种AI-NPU架构中MMSCIM支持基础性通用AI算子,提供低功耗大算力。同时,由于AI新模型新算子的不断涌现,MMSCIM没覆盖的新兴特殊算子则由HiFi5 DSP来予以补充,用于支持未来端侧AI音频平台。
第一代MMSCIM端侧AI音频芯片包括了ATS323X、ATS286X、ATS3262X三个系列。其中,炬芯科技ATS323X面向低延迟、高音质的私有无线音频领域;炬芯科技ATS286X面向蓝牙AI音频领域;炬芯科技ATS3262X是纯算力芯片,面向AI DSP领域,为客户提供更纯粹的AI算力。
炬芯科技推出的第一代MMSCIM端侧AI音频芯片,在500MHz的运行频率下可以提供0.1TOPS AI算力,在全矩阵状态下,能效比可以达到6.4TOPS/W@INT8,同时,还支持自适应稀疏矩阵,遇0自动不耗电,从而实现更高的能效比。支持全部主要的AI模型,同时炬芯科技为AI-NPU打造了专用AI开发工具“ANDT”,该工具支持业内主流深度学习框架如TensorFlow、Caffe、TFLite、PyTorch和ONNX等,ANDT是打造炬芯低功耗端侧音频AI生态的重要武器。借助炬芯ANDT工具链轻松实现算法的融合,帮助开发者迅速地完成产品落地。
炬芯科技前身是炬力集成,曾在纳斯达克上市,2014年退市,2021年再次以炬芯科技(688049.SH)在国内科创板上市。公司在音频领域有20多年沉淀,拥有三百多名员工,其中70%为研发工程师,拥有三百多项全球专利,服务一百多个全球品牌客户。公司过去主要在珠海、深圳、上海和香港等地运营,近年增加了合肥和成都两个研发中心。
炬芯科技主营业务为中高端智能音频SoC芯片的研发、设计及销售,产品主要围绕手机周边、电视周边和电脑周边三大领域,主要服务于全球一二线音频品牌及电商、互联网和手机品牌,产品涵盖了TWS/OWS耳机、蓝牙音箱、智能手表、无线麦克风、无线家庭影院、AR眼镜、电竞耳机、无线收发Dongle以及端侧AI处理器等。
炬芯科技近几年主要驱动增长的动力涵盖了三个方面。第一是对于如哈曼、索尼、BOSE等一线品牌的突破,实现了销售和利润的增长;第二是打造了基于2.4G私有无线协议的低延迟高音质系列方案,获得了市场的广泛认可,在低延迟高音质音频市场成为主流供应商;第三个便是我们上文中提到的全新一代端侧AI音频解决方案,未来也将成为炬芯科技的主要增长动力。
作为“第四代工业革命”的核心推动力量,AI正在重塑着各行各业,并为未来的发展带来了无限的畅享和美好的憧憬。作为身处于其中的企业,谁能够在市场的变革中掌握主动权,将对未来的发展产生深远的影响。
通过周正宇博士的介绍,我们可以了解到,目前低功耗端侧AI的应用还面临着许多挑战,需要行业去优化和解决。而作为音频领域的深耕者,炬芯科技基于深厚的技术积累,针对于低功耗端侧AI应用的需求,提出了Actions Intelligence战略,推出了第一代MMSCIM端侧AI音频芯片,助力AI技术在端侧AIoT设备上的应用。
作为专注于蓝牙音频及智能穿戴市场的传播者,我爱音频网未来将会持续关注炬芯科技旗下方案及在端侧AI设备上的应用,还有整个市场在AI应用上的发展,为大家带来实时的相关报道,敬请期待。
来源:我爱音频网