摘要:自ChatGPT于2022年底横空出世以来,大型语言模型(LLM)不断推动生成式人工智能系统的边界。举例而言,为ChatGPT提供支撑的GPT-3.5在常识推理数据集上的准确率高达85.5%,而2023年推出的GPT-4在同一数据集上的准确率更是攀升至约95%
自ChatGPT于2022年底横空出世以来,大型语言模型(LLM)不断推动生成式人工智能系统的边界。举例而言,为ChatGPT提供支撑的GPT-3.5在常识推理数据集上的准确率高达85.5%,而2023年推出的GPT-4在同一数据集上的准确率更是攀升至约95%。此外,2024年5月发布的GPT-4o更是实现了多模态处理,能够轻松应对文本、图像、音频和视频等多种数据类型。
尽管GPT模型家族及其他开源大语言模型取得了显著进展,但Gartner在2024年的人工智能炒作周期报告中指出,“生成式人工智能已越过期望膨胀的巅峰,尽管其炒作热度依旧不减。”这种幻灭的部分原因包括GPT模型家族的高昂成本、数据隐私和安全问题,以及模型透明度不足。相比之下,参数较少的小型语言模型为应对这些挑战提供了潜在解决方案。
小型语言模型训练成本更低,且更易于部署。此外,它们可以在本地托管,从而使企业能够更好地控制数据共享。然而,小型模型的一个挑战在于其准确性往往不如大型模型。为了充分利用小型模型的优势并减轻其局限性,企业正致力于开发特定领域的小型模型,这些模型在其支持的专业领域和应用场景中能够表现出色。这可以通过使用预训练的小型语言模型,并结合特定领域的数据进行微调,或采用提示工程技术来提升性能来实现。
接下来,让我们一同探讨组织考虑利用小型语言模型的五大应用场景,以及每个场景中的主要小型语言模型。
PII屏蔽
组织关注的关键问题之一是,当用于培训或向法学硕士提问时,其数据中的个人身份信息(PII)会暴露。PII信息的一个例子是客户的社会保障号码(SSN)或信用卡号码。因此,一个极其重要的用例是构建一个可以屏蔽PII数据的解决方案。除了屏蔽外,另一个关键要求是保持数据的血统。例如,相同的SSN应该由相同的标识符屏蔽,以便下游应用程序可以使用该关系来构建有效应用程序。Phi-3和Gliner在PII屏蔽方面表现非常好,但在撰写本文时,该用例的最佳性能模型是Llama-3.1-8B模型。
毒性检测
此用例旨在识别文本中存在的不可取仇恨评论,诸如脏话等有毒内容。随着越来越多公司开始采用语言模型来自动化客户服务互动,确保模型响应中不包含有毒内容显得尤为重要。在这一任务中,RoBERTa模型展现出了极高的适用性,能够有效检测并过滤掉有毒文本。
编码辅助是生成性人工智能的首批用例之一,编码助理已被各企业开发人员广泛采用。微软声称,70%的GitHub Copilot用户的工作效率更高。对于此用例,Llama(Code Llama)和Gemma(CodeGemma)的特定任务变体是GPT-4等大型语言模型的绝佳替代品。
医疗数据汇总
医疗数据总结和理解是医疗保健行业的一个专业用例,依赖于特定领域使用医学术语的训练模型。解决方案产生巨大影响的例子是总结患者和医生之间以及医生和医疗销售代表之间的对话。鉴于这些类型对话的独特性,小型语言模型非常适合该领域,并能产生重大影响。T5模型是这项任务的较小语言模型中的有力竞争者。
供应商发票处理
最后,供应商发票处理对于企业采购部门大规模处理发票至关重要。由于发票结构有数千种变化,自动扫描这些发票以提取信息是一项非同小可的任务。Phi-3-vision是发票处理管道的绝佳模型选择。
虽然大型语言模型功能强大且准确,但它们价格昂贵,数据隐私和安全性仍然是企业的重大关注点。小型语言模型使企业更容易平衡性能、成本和安全问题,并帮助减少将解决方案投入生产所需的时间。我们讨论的五个用例只是企业成功实施小语言模型以解决特定需求的一些方法,同时减轻与大型模型相关的挑战。
来源:AI中国一点号