摘要:研究称,“从视觉输入中解读时间并进行推理的能力,对于许多现实世界的应用至关重要,从事件安排到自动驾驶系统等领域皆是如此。尽管多模态大语言模型(MLLMs)取得了进展,但大多数研究工作都集中在目标检测、图像描述或场景理解等方面,对时间推理的探索仍不够充分。”
AI大模型貌似无所不能,但仅仅是最基础的时间,它却很难看得懂,这是为什么?
爱丁堡大学的研究人员测试了七款知名的多模态大言模型,让它们根据不同的时钟或日历图像回答与时间相关问题。
该研究将于 4 月正式发表,但目前已经在科研共享平台arXiv发布,研究表明,这些大型语言模型在这种基础任务上让人失望。
研究称,“从视觉输入中解读时间并进行推理的能力,对于许多现实世界的应用至关重要,从事件安排到自动驾驶系统等领域皆是如此。尽管多模态大语言模型(MLLMs)取得了进展,但大多数研究工作都集中在目标检测、图像描述或场景理解等方面,对时间推理的探索仍不够充分。”
本次测试的对象包括 OpenAI 的 GPT-4o 和 GPT-o1、谷歌 DeepMind 的 Gemini 2.0、Anthropic 的 Claude 3.5 Sonnet、Meta 的Llama3.2-11B-Vision-Instruct、阿里的Qwen2-VL7B-Instruct、以及 ModelBest 的 MiniCPM-V-2.6。
AI大模型在处理时间相关问题时出现理解偏差或错误的现象,其原因是多方面的。
1、数据层面的缺陷
训练数据中的时间表达形式复杂多样(如“2025-03-18”“March 18, 2025”“3/18/25”),且常与文本混杂,导致模型难以统一解析。数据中也可能包含错误或矛盾的时间信息,模型缺乏对现实时间规则的深层理解,易被误导。
另外,时间信息常依赖上下文(如“下周”需结合当前日期推断),但大模型可能因输入提示不完整或缺乏长程依赖能力,无法准确关联上下文。
2、模型架构的局限性
大模型以自然语言处理为核心,擅长文本生成但缺乏数值运算模块。例如,“9.11”和“9.9”的比较可能被误判为版本号,如软件版本“9.11”>“9.9”,而非数值大小,反映模型对符号的多义性处理缺陷。
还有,时间计算(如日期差、时区转换)需要严格的数学逻辑,而大模型依赖统计模式而非符号推理,易出现错误。
部分现有大模型未针对时间推理任务进行优化,如时间线重建、因果关系推断等。例如,在医疗领域预测“患者三天后可能出现症状”,模型可能忽略时间动态性,仅基于静态数据生成回答。
3、训练与优化策略的不足
大模型知识库通常截止于某一时间点(如GPT-4训练数据截至2023年),无法实时更新。若提问涉及未来事件,模型可能生成过时或虚构信息。
大模型以生成流畅文本为优化目标,可能牺牲准确性。例如,当用户提问“9.11与9.9谁大”时,模型可能优先生成符合语法但错误的答案,而非执行严格数值比较。
当然,这样问题也在逐步优化。
技术方面,可结合符号系统(如规则引擎)与神经网络,增强时间逻辑处理能力。通过RAG(检索增强生成)技术动态检索权威时间数据库,也可弥补训练数据时效性缺陷。还有对抗性训练,引入包含时间矛盾的数据样本,强化模型对时间一致性的判断力等。
AI大模型“看不懂时间”的本质是数据复杂性、架构局限性与任务目标冲突的综合结果。解决这一问题需从数据清洗、模型架构创新、交互设计三方面协同突破。随着技术演进,未来大模型有望实现更精准的时间推理应用。
总之,当下AI搞不懂时间确实是事实,用户在使用时是需要注意这一缺陷的~
来源:元力社