摘要:最近的研究揭示了人工智能(AI)在高水平历史知识评估中的不足。研究团队开发了名为Hist-LLM的新基准,评估了三种大型语言模型(LLMs)——OpenAI的GPT-4、Meta的Llama和Google的Gemini——在历史问题上的表现。尽管GPT-4 T
最近的研究揭示了人工智能(AI)在高水平历史知识评估中的不足。研究团队开发了名为Hist-LLM的新基准,评估了三种大型语言模型(LLMs)——OpenAI的GPT-4、Meta的Llama和Google的Gemini——在历史问题上的表现。尽管GPT-4 Turbo的表现相对较好,但其准确率仅为约46%,略高于随机猜测。研究指出,LLMs在基本事实方面表现优异,但在进行深入历史分析时仍显不足。举例来说,GPT-4 Turbo错误地确认了古埃及时期的鳞甲存在,显示出其在提取不显著历史信息时的困难。尽管面临挑战,研究人员对LLMs在辅助历史学家方面的未来表示乐观,认为通过改进数据和问题设置可以提升其性能。
最近的研究显示,尽管人工智能(AI)在编码或播客生成等任务中表现出色,但在高水平历史考试方面却显得相当乏力。一组研究人员开发了一个新的基准,名为Hist-LLM,旨在评估三种领先的大型语言模型(LLMs)——OpenAI的GPT-4、Meta的Llama以及Google的Gemini——在历史问题上的表现。该基准通过与Seshat全球历史数据库进行对比,评估回答的准确性,这是一部以古埃及智慧女神为灵感的全面历史知识数据库。
上个月在著名的人工智能会议NeurIPS上发布的研究结果令人失望。来自奥地利复杂科学中心(CSH)的研究人员指出,表现最佳的模型GPT-4 Turbo仅达到了约46%的准确率,这仅比随机猜测稍好。论文的共同作者、伦敦大学学院计算机科学副教授Maria del Rio-Chanona强调,尽管LLMs展现出令人印象深刻的能力,但它们在理解进行高级历史分析所需的深度方面仍显不足。“它们在基本事实方面表现出色,但对于更细致的博士级历史探究,它们尚未具备足够的能力,”她指出。
研究人员分享了一些LLMs未能正确回答的历史问题示例。例如,当被问及在古埃及的特定时期是否存在鳞甲时,GPT-4 Turbo错误地确认了其存在,尽管该技术在埃及出现的时间是1500年后。Del Rio-Chanona解释说,LLMs通常从广泛可得的历史数据中推断,这使得它们在提取不那么显著的历史信息时面临挑战。研究还强调,像OpenAI和Llama这样的模型在某些地区(如撒哈拉以南非洲)的表现不佳,显示出其训练数据集可能存在偏见。尽管面临这些挑战,研究的首席研究员Peter Turchin对LLMs在辅助历史学家方面的未来角色表示乐观,并指出正在进行的努力,以通过更丰富的数据和复杂的问题来提升基准测试。
来源:老孙科技前沿