用AI优化云平台上的企业客服通话满意度和工单解决效率(下)

B站影视 电影资讯 2025-03-22 08:30 2

摘要:在本系列上篇中,我们介绍了一个客服通话分析方案,基于亚马逊云科技的生成式AI服务(如Amazon Bedrock和Amazon Q in QuickSight),为企业客服通话提供通话后分析。在本篇中我们将继续介绍该方案的表现评估和数据分析模块的具体实施和展示

在本系列上篇中,我们介绍了一个客服通话分析方案,基于亚马逊云科技的生成式AI服务(如Amazon Bedrock和Amazon Q in QuickSight),为企业客服通话提供通话后分析。在本篇中我们将继续介绍该方案的表现评估和数据分析模块的具体实施和展示部分。

本节将介绍本方案使用的评估框架的部分。该框架包括了评估本方案的关键指标,并提供对生成式AI应用程序优劣势的可视化洞察。该评估通过Ragas、DeepEval和传统的机器学习指标提供的自动化评估指标,以及由领域专家进行人机协同评估。

针对通话的元数据和通话问答的回复,使用Ragas提供的定量指标(答案正确性、答案相关性和事实一致性)以及DeepEval提供的指标(指令符合度和覆盖率)进行了评估,这些指标也是由Amazon Bedrock上的的基础模型驱动实现。Amazon Bedrock可以与外部库非常简洁的集成,可以轻松通过现有的外部评估库配置。此外对于“Yes/No”型问题,我们还使用了传统的机器学习评估指标。以下是应用于解决方案各项指标:

评估通话元数据 —— 包括以下指标:

总结 —— 符合度和覆盖率(关于这些指标的说明可参考DeepEval文档)以及答案正确性

问题是否解决、是否需要回拨 —— F1分数和准确率

主题、下一步支持计划、根本原因 —— 答案正确性、答案相关性和事实一致性

单个通话问答 —— 答案正确性、答案相关性和事实一致性 人机协同评估 —— 通话问答回复质量和通话元数据生成质量都采用了人机协同评估指标

在评估框架中,我们可以根据不同业务场景灵活选用不同Amazon Bedrock上的模型。例如使用Anthropic的Claude Sonnet 3.5生成DeepEval精确度要求较高的指标,而延迟低的Claude 3 Haiku则非常适合用于Ragas。

为了在本方案中进行客服服务的评估,需要做出如下调整:

用户可以选择分析通话的某一元数据字段(如总结)或某一的对话问答回复。

用户可以引入两个模型对输出进行比较。这包括来自相同基础模型但不同提示词的输出、来自不同基础模型但使用相同提示词的输出,或者是不同模型和不同提示词的输出。

添加了其他的评估维度,如流畅性、连贯性、创造性、有害性、相关性、完整性和整体质量,评估人员会根据模型输出为每个指标在0至4之间打分。

以下截图展示了该人机协同评估界面主页面:

人机协同界面指标评分页面:

该人机协同评估系统关联了专业人员的领域知识与Amazon Bedrock模型的输出。这将进一步提升利用AI评估客服通话的方案质量,最终增强公司管理人员、客服人员对这类系统的信任度。

QuickSight与Amazon Q集成后,使用户能够通过自然语言查询对客户通话质量和相关数据进行分析。通过对情绪、通话量、问题解决情况和客服绩效等问题的分析查询,QuickSight可以提供数据驱动的可视化结果。这使得用户能够迅速识别业务痛点、优化运营,并利用针对呼叫中心的可扩展分析解决方案为客户提供更好的体验。

Amazon Q与QuickSight的集成通过三个整体步骤完成:

在QuickSight中创建数据集。

使用该数据集在QuickSight中创建主题。

使用自然语言进行查询。

QuickSight支持多种数据源配置。在本用例中,我们使用本方案中生成的数据作为分析和自然语言查询的内容。本方案的自动化任务流将数据存储在Amazon S3中,我们可通过Athena进行查询,Athena是一项交互式查询服务,可通过标准SQL直接分析S3中的数据。

操作步骤如下:

在QuickSight控制台左侧导航栏中选择“Datasets”。

选择“Create new”。

选择Athena作为数据源,配置Amazon Q在QuickSight从特定的Athena Catalog, database和表中导入数据并创建数据集。

确认数据集创建成功后,进入下一步。

用户可在QuickSight中创建Amazon Q主题,同于自然语言查询数据。这项功能允许大家用自然语言探索和分析数据,无需编写复杂的SQL语句或具备专业技术技能。在创建主题之前,请确保用户账户权限为“Pro”级。创建主题的操作步骤如下:

在QuickSight控制台左侧导航栏中选择“Topics”。

选择“New topic”。

输入主题名称并选择之前创建好的数据源。

选择已创建的主题,然后点击“Open Q&A”以开启自然语言查询。

我们通过自然语言查询,可以直观地获取有关客服通话分析方面的数据洞察。这一功能允许用户通过简单的对话式查询分析情绪、通话量、问题解决情况和客服绩效,从而实现数据驱动的业务决策优化,进而提升运营效率,并在呼叫中心场景提供更好的客户体验。我们可以通过以下的自然语言问题对对话进行分析,如:“哪些客户在通话结束时情绪是正向的且问题较复杂?”以及“用户最常见的问题有哪些,哪些客服处理了这些问题?”这样的自然语言查询都可以在以下截图中看到。Quicksight视图面板截图如下:

这些功能非常适合客服负责人想深入了解某一具体问题时,为其提供有力的数据支持,以做出明智决策。

方案带来的收益

该方案的主要收益是提升员工生产力,特别是在快速理解客户通话内容、识别问题和趋势以及发现产品的痛点。在引入该方案之前,分析师需要14天时间手动分析每个通话记录并提取分析洞察;而在使用该方案后,可以在几分钟甚至几秒内完成这些工作,不仅能从所有通话记录中直接查询关心问题的洞察,还能生成可用于报告的可视化图表。

在数据处理流程中,使用了Anthropic的Claude 3 Haiku来提取初始通话元数据字段(如总结、根本原因、下一步支持计划和情绪等),这些数据被存储在Athena中,从而支持后续通过Amazon Q in QuickSight,以自然语言方式对每个通话记录进行查询,让业务分析师可以在几秒钟内解答关心的整体业务问题,如问题归因、通话反馈的问题和客户与客服对话分析等。

在通话元数据生成的模块中,为每个提取元素配置专门的提示词并启用chain-of-thought推理,并通过Anthropic的Claude 3 Haiku完成生成,可以显著提升每个通话记录的元数据生成质量。尤其是Amazon Bedrock对多种基础模型的灵活支持,使得我们可以以最小成本充分对比多种模型。根据不同用例选择不同模型,使Amazon Bedrock成为该应用的最佳平台。

使用Ragas指标(特别是事实一致性、答案正确性和答案相关性)对通话元数据和通话问答回复效果进行了评估。而对于总结类任务,则采用了不同的指标,即要求符合度和覆盖率,这类评估不需要参考标准答案,因此使用DeepEval计算更为合适。总体来看Amazon Bedrock与这些第三方的评估库的集成非常便捷,使其能够轻松支持各种量化评估指标的计算,同时根据评估需求灵活调用不同模型。

人机协作评估方式为客服管理人员评估Amazon Bedrock的输出提供了手段。这也为进一步优化本方案提供了空间,尽管这部分内容并未在本文中展开。

通话后分析工作任务流可以在未来方案迭代中引入Amazon Bedrock Knowledge Bases功能,实现更精准的基于对多条通话记录的问答功能,并通过Amazon Bedrock Guardrails检测有害或幻觉性回答,从而构建更负责任的AI应用。

Amazon Q in QuickSight能通过自然语言,处理客户分析、客户问题原因分析以及客服绩效考核,但部分问题需要格式调优才能获得有意义的回答。

在Amazon Q in QuickSight中,需要分析的数据字段定义需准确,并需要为其补充同义词,以增强自然语言查询的稳定性和有效性。

安全最佳实践

建议在亚马逊云科技上构建该方案时同时遵循以下安全最佳实践文档,保护应用安全:

使用Amazon SageMaker构建安全的机器学习环境

控制对SageMaker notebook实例的root访问权限

Amazon S3中的安全性设置

Amazon Cognito中的数据保护措施

本文展示了如何使用基于Amazon Bedrock和Amazon Q in QuickSight的客服通话分析方案,生成客户和客服通话的分析洞察。这些分析围绕客户通话共有的主题和问题展开。借助该方案我们可以将获取通话洞察的时间从几周缩短至几分钟,极大地提升了员工生产效率。

这只是开发者使用Amazon Bedrock和Amazon Q in QuickSight构建出色解决方案的众多方式之一。如需了解更多信息,请参见Amazon Bedrock和Amazon Q in QuickSight的服务主页。

来源:嚣张科技圈

相关推荐