摘要:在年初的CES 2025上,AMD首次发布了锐龙AI Max 300系列处理器。彼时对于多数玩家而言,最引人注目的莫过于内置Radeon 8060S显卡,其图形性能接近RTX 4060,已成为一大亮点。而这款处理器真正引以为傲的AI算力,却在当时尚未被广泛关注
在年初的CES 2025上,AMD首次发布了锐龙AI Max 300系列处理器。彼时对于多数玩家而言,最引人注目的莫过于内置Radeon 8060S显卡,其图形性能接近RTX 4060,已成为一大亮点。而这款处理器真正引以为傲的AI算力,却在当时尚未被广泛关注。随着AI Max+系列处理器逐渐被各大OEM厂商采用,加之软件生态持续完善,其强劲的AI性能也开始逐步显现。
今天,热点科技拿到了一台搭载AMD锐龙 AI Max+ 395处理器的迷你主机——极摩客 EVO-X2桌面Mini AI工作站。接下来,就让我们看看这款处理器在这台小钢炮上的实际表现如何。
外观设计
极摩客EVO-X2的外观十分符合极摩客的品牌调性,在简约的整体设计中加入几分极客要素。机身采用了铝合金原色的金属外壳以及黑色的塑料主体框架。极摩客EVO-X2顶部设置了一枚切换风扇氛围灯的三角形按键,十分微妙地融入“斜切”外观语言之中。在切角处印有极摩客的品牌Logo“GMKtec”。
在顶盖(竖直状态下为右侧)后方,还贴上了“RYZEN AI MAX+”字样的贴纸,暗示整机拥有旗舰级的AI性能,同时也表明,极摩客设计之时默认用户将该机竖直放置,而并非平躺于桌上。
极摩客EVO-X2底部(竖直状态下为左侧)采用了方格形进气开窗设计,在其下方为两枚涡轮风扇,因此大家最好不要将极摩客EVO-X2平放,以免影响进气效率。
机箱前部IO十分丰富,从左至右依次为1枚开关机按键、1枚性能模式切换按键(按下可在静音、平衡以及性能模式之间切换)、1个SD读卡器插槽(UHS-II)、1个USB-C 40Gbps(USB 4)接口、2个USB-A 10Gbps接口以及1个3.5mm接口。
后置IO从左至右依次为1个DC 5525供电接口、1个3.5mm音频接口、1个RJ45 2.5G网口、1个USB-A 10Gbps接口、1个USB-C 40Gbps接口(USB 4)、1个DisplayPort 1.4接口、1个HDMI 2.1接口以及2个USB-A 480Mbps接口。
值得一提的是,后置IO下方采用了大面积的散热开孔镂空设计,黑化的散热鳍片直接裸露在外,非常硬核。
在极摩客EVO-X2右侧(竖直状态下为底部),激光雕刻了极摩客EVO-X2的铭牌信息,配置参数和SN编码则是简单地打印在一张贴纸上。
简单拆解
极摩客EVO-X2的拆解十分简单,首先撕下右侧(竖直状态下为底部)的两枚脚垫,然后用十字螺丝刀拧开脚垫下方的6枚螺丝即可。外壳与塑料主体的固定采用一侧螺丝、一侧卡扣的组合固定方式,在拆下螺丝之后,仅需轻轻抬起外壳就可以揭开顶盖,底壳同理。
打开顶盖,首先看到就是一枚很少会出现在迷你主机中的12025风扇,右侧的开窗则是硬盘位,出厂已经预装了1块带有散热片的雷克沙固态硬盘,容量为2TB,空余1个2280的硬盘位,速率可支持到PCIe 4.0x4。
其实通过观察顶盖可以发现,极摩客EVO-X2为主板倒置设计,背面风扇除了散热还能提供灯光效果。插上电源,启动极摩客EVO-X2,顶盖中的RGB风扇开始发光,边框以及轴心都采用了“无限镜”设计,比较炫酷。
看完了顶部,再来看看底部。极摩客EVO-X2底部拥有两枚涡轮风扇,直接通过底壳的散热开孔从外吸入冷空气,然后吹向尾部的鳍片,最后由尾部IO处的开孔排出废热。
每枚风扇采用3颗螺丝与散热器主体进行固定,拆下合计6颗螺丝后,拔出排线即可将风扇与散热器本体分离。
散热器本体使用6颗螺丝固定在主板上,分别是CPU核心处的4枚弹簧螺丝以及两侧的2枚小号螺丝。
拆下散热器可以发现,该散热器为三热管设计,但并非铜管直触也不是均热板,而是在热管下方焊接了一块铜片,从而平摊核心以及内存颗粒的热量,内存颗粒与铜片直接采用导热硅胶垫作为介质。
由内存颗粒表面的丝印代码可知,核心周围为8颗来自美光的LPDDR5x内存,单颗16GB,合计128GB。核心为AMD锐龙AI Max+ 395,从图片可以发现,该处理器为3个Die,其中右侧两个小Die为CPU单元的两枚CCD,采用台积电4nm工艺制造,每一个CCD拥有8个Zen5核心,两个CCD合计16个核心。左侧较大的Die则为IO Die,之所以如此巨大,是因为其中还加入了目前最强的集成显卡——Radeon 8060S,毕竟拥有高达40个RDNA 3.5单元,合计多达2560个流处理器,这么强悍的集显性能,在当前市场里绝无仅有。
性能测试
说完了外观、拆解,现在是时候聊聊性能了,本次测试全程基于性能模式进行(性能释放140W)。
CPU以及集显的具体规格性能就不多做赘述了,大家可以直接查看下方的CPU-Z以及GPU-Z列出的信息。
虽然锐龙AI Max+ 395这个名字令很多老玩家一时搞不清楚,但实际上大家可以将其类比移动端上的锐龙9 9955HX,均采用了16个Zen5核心,仅在具体频率和性能释放上有所差别。此外,由于其采用了更高效的硅中介层作为封装技术,因此IO互联效率要更高。
在Cinebench R23测试中,锐龙AI MAX+ 395的单核得分为1993,多核得分为36342,整体较之移动端上的锐龙9 9955HX相近,毕竟是同根同源。
在CineBench 2024中,锐龙AI MAX+ 395的单核得分为112,多核得分为1861,在一众移动端处理器中依然是遥遥领先的水平。
内存方面,锐龙AI MAX+ 395采用了较为独特的可变显存架构,系统内存与显存共用板载的128GB LPDDR5x内存,速率为8000MT/s。用户可在BIOS或驱动软件中自定义内存分配,显卡最多可调用96GB作为显存。
我们简单测试了一下它在AIDA64内存与缓存测试中的成绩。从结果来看,其写入带宽可以达到211.54GB/s,不过受限于移动端设计,内存延迟较高。
再来看看图形性能。锐龙AI Max+ 395的图形单元实际上与本世代的RDNA 4有所区别,就技术路线来看,依旧是移动端的AI 9系列处理器的续写,与Radeon 890M一样采用了RDNA 3.5架构,台积电4nm工艺。不过计算单元由16CU暴增至40CU,堪称是力大砖飞。在命名上,倒是继承了RDNA 4的策略,叫做“Radeon 8060S”,剑指英伟达的RTX 4060等60系显卡。
在经典的TimeSpy测试中,锐龙AI MAX+ 395的显卡得分为11417,超越了移动端的RTX 4060(3DMark数据库均分为10412),相当于桌面端的RTX 3060 Ti(3DMark数据库均分为11707)。
在DX11的Fire Strike测试中,锐龙AI MAX+ 395的显卡得分为30471,大幅超越了移动端的RTX 4060(3DMark数据库均分为26498)。可见,锐龙AI Max+ 395虽然定位是AI特化型号,但是由于其强大的集显性能,目前已有大部分轻薄游戏本、桌面Mini AI工作站和掌机产品选用其作为处理器。
AI体验
锐龙AI MAX+ 395的强大集显性能,最初的设计目的并非用于游戏。诚然,可变显存结构巧妙地将相对廉价的系统内存划作显存,使得在较低成本下也能运行过去难以承载的大模型。但仅有大容量显存远远不够,如果集显计算能力不足,即使模型能跑起来,等待一个答案可能也是遥遥无期。而Radeon 8060S出色的通用计算性能,正好解决了这一关键瓶颈。接下来,我们通过实际的AI应用来看看这颗锐龙AI MAX+ 395的表现如何。
Amuse图片生成
Amuse是AMD与TensorStack合作开发的完全本地运行的生成式AI工具,可进行文生图、图生图、手绘生图、图片修复、以及短视频生成等常见的AI图片生成任务。
在上个月月底,AMD联合Stable Diffusion(下称SD)官方Stability AI,推出了首款基于NPU运算的Stable Diffusion 3.0 Medium模型,在最新版本的Amuse 3.1已经实现对搭载XDNA 2 NPU的锐龙处理器的支持,我们也在极摩客EVO-X2上进行了测试。
受限于网络环境,我们建议大家在下载模型时采用设置代理,否则可能需要等待很久并且发生中断。没有条件设置代理的朋友可以去Hugging Face的镜像网站魔搭社区下载模型手动部署。
Amuse默认打开为EZ模式,也就是简单模式。整个界面非常简单清爽,不过目前尚没有中文支持,只能期待AMD早点适配了。
想要使用基于NPU运算的SD 3 Medium模型,只需要将“Performance”滑块选择为“Balanced”,然后勾选下方的“AMD XDNA2 Stable Diffusion”(不勾选则会使用集显进行运算),之后输入提示词就可以开始生成图片了。需要注意的是,首次使用需要下载模型,网络不好的话速度可能有点慢。
我们输入提示词“Some men took group photos with their mobile phones”,图片数量选择为4张,开启“AMD XDNA Super Resolution”超分技术。在等待了大约268.5s后,四张图片全部生成完毕,但从细节来看,“6根手指”这样的AI困境仍然存在,但整体质量尚可。生图速度为0.33 it/s,平均一张图耗时67s左右。对于一个完全基于NPU生成的结果而言是比较出色的。
如果觉得图片质量还不够好的话,点击左下角的“Expert Mode”按钮可以切换至专家模式,在右上角的“Model Manger”中可以选择更强大的模型。
我们以FLUX.1-schnell模型为例,再进行一次生图测试。设置提示词为“a cheetah running on the grassland”,迭代步数为10步,图片分辨率为1024x1024,开启超分,在等待大约3分钟后,便生成了一张2048x2048的图片。就图片来看,符合提示词要求,但在动作方面略有瑕疵,如果大家追求更快的速度,可以适当调低迭代步数。
在测试过程中,我们也发现了,虽然FLUX.1-schnell已经属于FLUX.1模型中较小尺寸的版本,但是其实际运行中显存占用依旧超过了消费级显卡可以承受的范围,实测在任务管理器中,显存占用已达到35.3GB。在这种情况下,即便是RTX 5090来了也难以运行(指模型全部加载到显存中)。
本地大语言模型部署及RAG知识库配置
在AI生图的体验中,锐龙AI MAX+ 395的可变显存设计已经小试牛刀,展露出以往消费级PC所无法实现的能力,即部署大尺寸的AI模型。不过FLUX.1-schnell的显存占用并不能充分显示出AI MAX+ 395最多96GB显存的实力,因此我们进一步部署更大尺寸的本地大语言模型来榨干这台极摩客EVO-X2的性能。
正如上文所提及的SD 3 Medium适配NPU一样,AMD在软件适配上十分积极,例如与模优优MoYoYo科技合作,推出了Qwen3-235B-A22B(IQ_2S)以及DeepSeek-V2 236B(IQ_2M)的2bit量化模型。我们也测试了这两款模型在极摩客EVO-X2上的表现。
为了确保Radeon 8060S能够分到足够大的显存,我们首先需要在BIOS中将“UMA Frame Buffer Size”选项调整为96G,也就是将96GB的内存划分给显卡充作显存。
之后我们使用LM Studio作为框架来部署这两款模型,或许是ROCm目前兼容性还存在问题,因此我们在Runtime运行环境选择Vulkan API。
首先是DeepSeek-V2 236B(IQ_2M)模型(格式为GGUF,以下所有测试的模型均为该格式),上下文长度选择默认的4096,GPU卸载拉满至60,在等待一段时间过后,模型已经完全被加载到显存中。虽然是2bit量化,但是满血版的DeepSeek-V2的体积仍然庞大,此时的显存占用已经来到了骇人的94GB左右,达到了极摩客EVO-X2的极限。
此时我们让它帮我们写一篇短篇小说,体感反应很快,属于非常可用的状态。结果显示,整篇文章吐词速度为9.14 Token/s,首词延迟仅为1.02s。很难想象这是在一台迷你主机中实现的成绩。
紧接着测试的是Qwen3-235b-a22b模型,我们同样使用默认的4096上下文,GPU卸载拉满。结果显示,Qwen3-235b-a22b完全部署进显存后占用为74.9GB左右,这么大的容量同样并非省油的灯。不过这也正好说明了锐龙AI MAX+ 395的可变显存技术的优势所在。
同样让Qwen3-235b-a22b写一篇短篇小说,同样十分迅速,实测吐词速度达到了12.24 Token/s,首词延迟为0.69s。这么快的反应速度一定程度上要归功于235b是一个MoE模型,激活参数较少,因此效率更高。
除了常规的大模型部署,RAG知识库也是本地使用AI大语言模型所不可或缺的一环。通过建立专属的文档知识库,大模型可根据知识库中的数据给出更加精准的回答,从而一定程度上减少“幻觉”胡编乱造的现象,对于特定领域(如AI客服)而言十分重要。
我们依旧使用LM Studio作为框架,采用ROCm API,为了综合效率,主要模型选择小尺寸的MoE模型,Qwen3-30b-a3b-instruct-2507(Q4_K_M)4bit量化版,上下文参数提高到50000,GPU卸载拉满。
嵌入模型选择目前在中文领域较为强大的Qwen3-embedding-8b,由于我们的显存还较为宽裕且该嵌入模型体积相对较小,因此我们选择精度更高的8bit量化版,上下文参数默认,GPU卸载拉满。此外,阿里巴巴虽然发布了Qwen3-reranker重排模型,不过目前缺乏稳定的GGUF格式模型,因此本次测试并未采用。
在部署主模型以及嵌入模型之后,发现此时的显存占用已经来到了37.4GB左右,同样严重超出了常规消费级PC的承受水平。因此如果大家硬件性能不够宽裕的话,最好还是使用常规主流的BGE嵌入及重排模型,不过由于咱们拥有96GB的超大显存,所以可以随便搞。
在LM Studio部署完成模型之后,在Cherry Studio中简单搭建知识库,首先我们将一百余万字的《红楼梦》程高本全文投喂到知识库中,向量化时间略久,接近1小时。需要注意的是,投喂的txt文件最好先转为UTF-8编码,如果采用GB2312编码等其他编码格式则大概率导致乱码。
在嵌入模型处理完文档后,我们在Cherry Studio中询问“贾宝玉最后的结局是什么?”Qwen3-30b-a3b很快通过知识库中的相关段落给出了推断答案——贾宝玉出家为僧。总体而言还是可圈可点的。
MCP大模型上下文协议
平时我们使用AI模型,无论是云端的还是端侧的,一般都只局限在一个聊天框中,很难让大模型代替我们直接去撰写Word、Excel表格等任务。而MCP协议的出现正是为了解决这一问题,它就相当于在大模型和各种应用工具之间的一个拓展坞,各种工具可以通过MCP协议和大模型连接起来,从而让大模型去直接执行对应任务,从而进一步解放我们的双手。
MCP服务同样可以分为云端与本地两种,例如查询对应服务商提供的信息就必须依赖互联网,如高德地图提供的MCP服务,可以让大模型直接通过高德地图查询并设计合适的出行计划,而通过MCP服务命令大模型修改本地的Word文件等,这完全属于本地服务。
本次测试中,我们通过Cherry Studio分别部署了1个本地MCP服务word-document-server以及一个云端MCP服务kuaidi100。前者可以实现大模型直接创建编辑Word文档,后者则可以通过快递100的API直接查询快递价格、时效等。
在我们下达命令之后,大模型成功地运用了对应的MCP工具创建了文档并添加了内容,打开文档可以发现,确实是一篇名为《海阔天空》的短篇小说,字数为969字,完全符合我们之前提出的要求。
虽然我们是本地部署大模型,但是在信息时代,人本身就难以脱离互联网,更何况为人服务的大模型呢,联网的各种MCP服务同样十分重要。我们也测试了快递100提供的MCP服务,需要注意的是,联网的MCP服务一般都需要使用私有收费API,因此并不是完全免费的。
我们询问了一个简单的问题,即“从上海普陀寄一个2kg的顺丰快递到北京大学需要多少钱?”大模型也很快调用了对应的价格工具查询了价格,并给出了回答,就结果来看,可用度还是非常高的。
写在最后
整场测试下来,我们发现锐龙AI Max+ 395展现出的不只是性能,更是一种架构层面的能力整合。16超大核32线程的Zen 5 CPU提供了强大的CPU算力,40CU的RDNA 3.5集显则兼顾图形与AI计算需求,而XDNA 2 NPU则是其区别于传统处理器的关键所在,真正实现了AI应用的高效能。
我们完整部署了SD 3.0 Medium、FLUX.1-schnell图像生成模型,并加载运行了Qwen3-235B与DeepSeek-V2 236B等大语言模型,在96GB共享显存的加持下,模型运行稳定、响应及时,结合RAG知识库与MCP任务插件,还能辅助用户进行搜索、摘要、文档管理等多任务协同操作,已然可以满足普通AI爱好者甚至是小型企业的本地AI需求。
此外,与以往依赖多卡高性能独显才能完成的大模型部署相比,锐龙AI Max+ 395的优势在于高度整合。在AMD可变显存的设计下,无需再为中轻度的AI需求额外搭建复杂平台,通过一枚芯片即可完成AI计算、图像生成、日常办公等多种类型的工作负载。并且由于该芯片的高能效比,即便放在仅有一升多的小主机中,仍然能保持良好的功耗表现与运行稳定性。
当然,锐龙AI Max+ 395的潜力远不止于此,随着AMD持续推进XDNA 2生态建设,后续肯定还会有更多AI工具、模型与服务对其进行适配。而以极摩客 EVO-X2 桌面Mini AI工作站为代表的一众迷你主机的涌现也进一步说明了市场对于高性能端侧部署的需求。因此,随着AI时代的进一步深入,端侧AI部署将变得更加普遍,也更具性价比,而AMD锐龙AI Max+ 395处理器无疑是一名优秀的先行者。
来源:ITheat热点科技