北邮百家(BaiJia)大模型:用AI对话古人,开启沉浸式历史体验

B站影视 2025-01-06 15:21 3

摘要:百家是首个专注于低资源历史人物的智能体大模型,目前包含2万个中国历史人物AI智能体, 旨在用AI技术为硅基人类打造情感饱满、记忆超凡的大脑

百家是首个专注于低资源历史人物的智能体大模型,目前包含2万个中国历史人物AI智能体, 旨在用AI技术为硅基人类打造情感饱满、记忆超凡的大脑

百家由北邮白婷老师带领的研究小组开发, 目前平台处于初步测试阶段。由于纯自费算力资源,目前只为注册用户提供1000个交互tokens/天.

科研用途:开源(huggingface)BaiJia_Lite模型,提供100个角色用于SFT,完整的评测数据和评测benchmark. 商业用途:可提供BaiJia大模型API 调用接口,请联系baiting@bupt.edu.cn

01

摘要

百家是首个专注于低资源历史人物数据的大模型,可用于大语言模型(LLMs)来进行基于 AI 的历史角色扮演。BaiJia 针对碎片化的历史文本记录形式多样、来源复杂等挑战,整合了多种历史人物的信息,包括其传记、文学作品、家族关系、历史事件等内容。我们在不同规模的开源基座模型(Qwen, DeepSeek, LLaMA)上进行实验,证明 BaiJia 语料库在提升多种基础 LLM 的角色扮演能力方面的有效性。同时也对比了商用角色扮演大模型(Baichuan-NPC, 通义星辰), 百家均取得全维度性能提升。百家开源了维度最全面的角色扮演评测框架,促进了 LLMs 在角色扮演任务中的评估。

02

背景

近年来,大语言模型(LLMs)展现了极大的角色扮演潜力,但现有的研究主要集中于现代虚构角色(如动漫、小说中的人物),鲜少涉及历史人物的扮演能力。而中国历史人物丰富且复杂,从历史背景到情感与文化表达,这类任务对模型提出了更高的要求。研究中面临的核心挑战包括:

1.数据稀缺:历史人物的信息分散在文献、古籍、艺术品等多种来源中。

2.多样性不足:现有角色扮演数据集中的角色数量有限,难以覆盖丰富的历史人物。

3.评价体系空白:针对历史角色扮演的评价标准缺乏,无法有效衡量模型的表现。

为解决这些问题,我们构建了BaiJia语料库,并构建了BaiJia历史人物垂域大模型,实现了低资源历史数据在大模型中的高效利用。此外,我们设计了一套针对中国古代人物的科学测评框架,填补了历史角色扮演领域的空白。以下表格展示了 BaiJia 数据集与其他数据集的区别及其独特优势。

03

方法

1. 数据收集

我们精心挑选并整合了多个权威数据来源,包括维基百科、CBDB、古诗文网以及中国哲学书电子化计划等丰富数据来源。这些顶尖资源确保了数据的权威性和广泛性,使我们能够全方位还原中国历史人物的真实风貌。

2. 角色模版设计

我们为每位历史人物精心构建了详尽的角色简历(Resume),内容结构清晰,细分为15个子类别。每份简历全面呈现人物的生平细节,从基础信息到家族关系、职业生涯,再到文学成就等,力求以丰富的维度真实还原历史人物的风貌。

3. 对话生成

在完成历史人物角色简历构建后,我们进一步通过对话生成技术,为每位历史人物设计个性化的对话内容。这一过程分为对话场景提取和对话内容生成两大关键步骤:我们为历史人物精心设计了10个独特的对话场景。这些场景覆盖宫廷对话、家族交流、文学辩论等,充分体现人物的社交关系、重要人生事件及其文学作品背景。所有场景均遵循历史真实语境,力求还原人物所处的时代氛围和思想风貌。

4. 微调BaiJia模型

我们基于Qwen2.5-7B模型进行微调,基于2万个中国历史人物,30余万部历史著作,19万对话数据对基座大模型进行训练微调。最终,我们得到了一个轻量级、精于中国历史角色扮演的BaiJia大模型。

04

测评框架

在角色扮演能力的测评中,我们打造了一套全面且科学的测评框架。从问题的自动化生成到针对性评分规则的设计,每一步都精心优化,确保了模型在中国古代历史角色扮演任务中的表现能够被科学地评估。在问题集的构建方面,每个人物的问题集涵盖五个核心维度,分别为个人背景、时代背景、家族与社会关系、思想与价值观,以及成就与贡献。在评测方面,BaiJia除了通用的角色扮演评价指标,还设计了专门针对中国古代人物的角色扮演评测维度。从角色一致性(CC)、对话能力(DA)、角色吸引力(CA)、情感表达与智识深度(EI)、创造力与角色深度扩展(CR),以及文化与历史适配性(CHA)六个大维度、十二个子维度,能够从表层表现到深层精神内核,全面覆盖对模型的评估需求。具体见下表。

为了提升评测的效率和公平性,框架中引入了GPT自动化评分技术。评分过程结合了预设模板与生成文本的多维度分析,能够快速判断模型生成内容是否符合历史角色的背景、个性特征以及文化内涵。通过这一自动化技术,整个测评流程在减少人工评分主观性的同时,也大大提高了评估效率。

05

实验验证

为验证BaiJia语料对大语言模型(LLMs)角色扮演能力的提升效果,我们在多个主流模型(如ChatGLM、Baichuan、Qwen等)上进行了实验。实验中,我们分别对比了无BaiJia语料(只提供基础信息)与结合BaiJia语料的模型表现,具体的结果如下:

通过观察结果,我们发现以下显著提升:引入BaiJia语料后,所有模型在六个维度上均有显著提升,其中角色一致性(CC)和文化与历史适配性(CHA)提升幅度尤为突出,分别达到23.5%和21.7%(以ChatGLM为例)。在六大维度的综合表现中,各模型的平均提升幅度达到了11.8%

06

样例演示

百家智能体交互和评测功能介绍,以李清照为例,百家内容更加充实可靠,语言风格明确,情感丰富

样例分析:针对元代历史人物白贲的经典问题——“你最自豪的文学作品是什么?”,不同模型给出了截然不同的答案。这场“角色扮演答题”的较量,直观展现了「BaiJia」智能体的独特优势。

Baichuan-NPC:生成了虚构的作品《白子令·咏雪》,尽管文采动人,但完全背离了历史事实,暴露了对真实历史信息的掌控不足。

GPT-4 与 Qwen2.5-7B:两款模型因缺乏相关知识,给出的回答模棱两可,未能准确捕捉白本的历史身份,GPT-4甚至仅表示白贲“可能并没有传世之作”。

BaiJia模型:精准还原历史记录,回答白贲的代表作《鹦鹉曲·渔父》,并结合情感表达与历史背景描述出人物的内心情感与创作灵感。

文|康佳政,硕士生,北京邮电大学

来源:DeepTech深科技

相关推荐