摘要:近几年在生成式AI技术和商业创新飞速发展的背景下,创建高质量且低成本的生成式AI应用在业界仍有相当难度,主要原因在于缺乏系统化的调试和优化方法。近日,UCSD张怡颖教授的GenseeAI团队推出了首款可自动提升AI工作流生成质量并降低生成成本的工具Cognif
近几年在生成式AI技术和商业创新飞速发展的背景下,创建高质量且低成本的生成式AI应用在业界仍有相当难度,主要原因在于缺乏系统化的调试和优化方法。近日,UCSD张怡颖教授的GenseeAI团队推出了首款可自动提升AI工作流生成质量并降低生成成本的工具Cognify。Cognify可以自动优化AI工作流,支持LangChain、DSPy、Python等语言框架。Cognify的核心思路是一种创新的分层工作流级优化方法。Cognify可将生成式AI应用的生成质量提高多达48%,并将执行成本降低多达90%。Cognify现已开源。
开源地址:https://github.com/GenseeAI/cognify
生成式AI工作流
当前的生成式AI产品通常都是以生成式AI工作流的形式构建和部署。AI工作流内部可以调用各类AI模型、工具、数据源及其他类型的系统。典型的AI工作流包括Agent工作流和LLM+RAG等。
与单次调用AI模型相比,AI工作流提供了更强大、可定制和集成化的解决方案。当前业界的AI工作流通常由工程师编写。在部署之前,工程师需要手动调整AI工作流的结构和提示词(prompt),并为工作流中的各个步骤选择合适的模型。
然而,由于缺乏系统化的调优方法,AI工作流的部署经常非常耗时,已部署的工作流也可能面临质量不佳、不稳定或成本太高等问题。虽然有许多生成式AI工作流的开发框架,比如Coze,Dify,LangChain,DSPy和Claude MCP,但是并没有可以帮助开发者系统调试和优化工具。
Cognify优化器
Cognify是一款全面、多目标的开源AI工作流优化器。Cognify的优化过程基于自动选择AI模型、改进工作流结构和增强提示词。Cognify实现了工作流的多目标优化,包括提高生成质量和低生成成本。
对于不同的应用场景,Cognify都用相同或更小的模型达到了更高的生成质量,推动了质量-成本Pareto边界,并且允许用户选择不同的质量-成本组合(结果如下图所示)。在此过程中,Cognify的优化实现了「一键」全自动化。
同时,Cognify也允许用户自定义优化方法Cogs(Cognify把各种优化统称 Cog),备选模型种类,以及最多优化次数。Cognify目前支持LangChain、LangGraph、DSPy和基于Python开发的工作流。
Cognify核心技术
全局级别的工作流超参数调优
Cognify的核心理念是对整个工作流进行优化,而不是在每个单独的工作流组件中进行优化。由于上游组件的生成结果对下游组件的性能有重大影响,孤立的优化各个组件可能导致最终生成质量不佳,而且整体运行成本增加。
Cognify通过实验各种Cog组合,并通过最终生成的质量评估这些组合的效果,从而优化整个工作流。
在整体工作流优化中,一个关键挑战是优化成本,包括模型运行成本和耗时。一个简单的做法是对每个可能的cog组合进行网格搜索,但这会导致指数级增长的优化成本。为了解决这个问题,Cognify采用了两种策略。
首先,Cognify将工作流视为一个优化对象,并将所有可能的Cog视为其超参数 (hyperparameter)。Cognify为工作流超参数设计了一套新的贝叶斯优化器(Bayesian Optimizer),用于调优这些工作流超参数。特制的优化器能够有效探索 cog 组合空间。其次,Cognify将cog分为两层:外循环包含更改工作流结构的cog(例如添加或移除组件或重新排列它们的顺序),内循环包含不影响工作流结构的cog(例如提示词调优和模型选择)。这种双层方法减少了贝叶斯优化器需要探索的整体搜索空间。
CogHub:AI工作流优化器集合
与Cognify同时推出的是CogHub——一个开源cog集合。就像HuggingFace集合了开源的模型,CogHub集合了开源的AI工作流优化方法。CogHub在被Cognify内部调用的同时也面向程序员或未来的生成式AI工具。
CogHub现支持以下五种cogs:
任务分解 (Task Decomposition)(外循环):将一个任务(一次LLM调用)分解为多个细分的子任务(多次LLM调用)。任务集成 (Task Ensemble)(外循环):构建并结合多个模块来完成任务。多步推理 (Multi-step Reasoning)(内循环):要求LLM逐步推理。少样本学习 (Few-shot Learning)(内循环):从输入样本中添加一些高质量的示例演示。模型选择 (Model SelectioN)(内循环):评估不同的模型。优化案例
以下是一个数据可视化任务的例子。任务目标是由手机销售数据生成针对每个厂商每个季度的销量的箱型图,并计算每个手机商的销售平均值,最终用平均值线表示。
下图展示了几个生成图的对比,1) 人工画的基准图,2) 直接询问OpenAI o1,3) 直接运行MatPlotAgent工作流,4) DSPy优化过的工作流,以及 5) 由Cognify优化过的工作流。Cognify优化过的工作流返回的结果几乎与基准图吻合,质量显著优于其他方案。与此同时,Cognify优化过的工作流的运行成本仅有o1-preview的4%。
图A | 人工画的基准。
图B | GPT o1-preview的生成图。
图C | 原生成式AI工作流的生成图。
图D | DSPy优化过的生成式AI工作流生成图。
图E | Cognify优化过的生成式AI工作流生成图。
GenseeAI简介
GenseeAI(gensee.ai)是由UCSD张怡颖教授带领的初创公司。GenseeAI致力于生成式AI工作流优化、部署、推理和基础平台创建,目前已在多家世界500强公司推广初期产品。张怡颖教授师从图领奖得主David Patterson学门,是计算机系统领域的国际顶尖专家,获得业界和学术界多项大奖和广泛认可。GenseeAI的其他核心团队来自于美国谷歌和Snap等高科技公司,具有开发和运营日活跃用户上亿级别的AI产品的经验。
--机器之心
来源:Future远见