摘要:这种进步的关键,在于AI学会了联系上下文。比如这句话:“苹果公司推出了新手机,设计和芯片都很棒,它再次证明了领导地位。”我们一看就明白“它”指的是苹果公司。
你有没有感觉,现在的AI变得聪明多了?它不再只是机械地回答简单问题,而是能理解复杂指令,甚至进行创作。
这种进步的关键,在于AI学会了联系上下文。比如这句话:“苹果公司推出了新手机,设计和芯片都很棒,它再次证明了领导地位。”我们一看就明白“它”指的是苹果公司。
但早期的AI很难理解这种指代关系,就像刚学中文的人会被代词搞糊涂一样。
现在,AI终于掌握了这种理解能力。
在2017年之前,AI理解语言的方式,就像一个高度近视,只能一字一句地往前挪,而且还有严重的“金鱼记忆”。它用的是一种叫“循环神经网络”(RNN)的技术。
你可以把RNN想象成一个流水线上的工人,任务是把零散的词语拼成句子。但这工人有个毛病:他只能从左往右,一个接一个地处理。
当他处理到句末的“它”时,可能还记得“手机”,但对句首的“苹果公司”早就忘得一干二净了。这就是AI的“长期依赖”问题,跟听长故事听到最后却忘了主角是谁一样。
更要命的是,这种“一根筋”的串行处理方式,效率极低。就像乡间小路,根本跑不出我们电脑里GPU那种“八车道高速公路”的速度。
所以,那时的AI在语言处理上,一直憋屈得很。
转机出现在一篇石破天惊的论文:《注意力就是你所需要的一切》。这篇论文提出的“Transformer”架构,彻底颠覆了以往的“逐字阅读”模式,带来了一种全新的思路。
如果说RNN是“流水线工人”,那Transformer就是一场高效的“圆桌会议”。
在这场会议上,句子里的每个词都有发言权。当需要搞清楚“它”的含义时,大家不再是排队发言,而是同时举手,亮出自己的“身份牌”(Key),陈述自己的“观点”(Value)。
“苹果公司”会说:“我是主语,‘它’最有可能指我!”
“手机”会说:“我离‘它’最近,可能性也很大!”
“设计”和“芯片”则表示:“我们虽然重要,但通常不会被‘它’指代。”
最后,通过一套复杂的“投票机制”(自注意力机制),“它”会综合所有词的发言,发现“苹果公司”和“手机”的“票数”最高。再结合语境分析,它最终会锁定“苹果公司”。
因为能“再次证明领导地位”的,更可能是公司,而不是单一产品。
这个过程最厉害的地方在于:所有词的“身份核对”和“观点陈述”是同时进行的! 这是一种全局的、并行的理解方式。
它一举解决了AI的“健忘症”和低效率两大难题,让AI第一次能够像人类一样,瞬间抓住一句话的重点。
Transformer这个革命性的想法,还需要一个强大的实践者来证明它的威力。一年后,BERT横空出世。
如果说Transformer是设计了一栋“超级智慧大厦”的蓝图,那么BERT就是第一栋按照这蓝图建成并投入使用的实体。
BERT最牛的地方在于它的“深度双向理解”,它训练的方式非常巧妙,玩的是高级版“完形填空”。
研究人员把海量的文本,比如整个维基百科,一股脑儿喂给BERT,然后随机“遮住”其中15%的词。BERT的任务,就是根据上下文里那些没被遮住的词,去猜被遮住的词到底是什么。
比如,看到这句话:“为了庆祝生日,他买了一个漂亮的蛋糕,并插上了蜡烛。”
BERT必须同时看向左边的“漂亮的”和右边的“插上了蜡烛”,它立刻会反应过来,“插上蜡烛”的通常是“蛋糕”,而不是“花瓶”或“衣服”。
通过亿万次这样的“填空游戏”,BERT被迫学会了如何融合一个词前后所有信息,从而对语言形成了深刻而精准的直觉。它不再是那个“一根筋”的逐字阅读者,而是成了一个能洞察语境的“语言学家”。
更棒的是,BERT还开创了“预训练-微调”这种AI模型开发的模式。
预训练:就像谷歌这样的大公司,投入巨资,让BERT在海量数据中进行“通识教育”,把它培养成一个博学的“语言博士”。
微调: 普通开发者或公司,可以直接把这个现成的“博士”请过来,再用自己行业(比如法律、医疗)的少量数据,给他做个“岗前培训”,他就能立刻上手,高效完成专业任务。
这就像你不用从头培养一个大学生,而是直接招聘一位博士,稍加指导就能为你所用。这种模式大大降低了AI技术的门槛,让更多人能享受到AI带来的便利。
然而,再强大的技术,也总有它的两面性。当我们为BERT的能力欢呼时,也必须清醒地看到它带来的挑战。
一是训练这样的“语言博士”,需要消耗天文数字般的计算资源和电力。这不仅是巨大的经济成本,更是我们无法忽视的环境成本。
二是“记忆力”有限,最初的BERT,能处理的文本长度有限(比如512个词)。这就好比一个专家虽然博学,但一次只能看两页纸。
面对长篇报告或一整本书,它的能力就会受限。
三是系统学习, 这是最需要警惕的一点。BERT是从互联网的海量文本中学习的,而互联网充满了人类社会的各种偏见。
因此,它也会不加分辨地学会这些偏见。
举个例子:当你让BERT填空“他从事的职业是?”,它可能会填“程序员”、“工程师”;但如果问“她从事的职业是[MASK]”,它则更倾向于填“护士”、“老师”。这并不是说BERT本身有性别歧视,而是它像一面镜子,反射出了训练数据中存在的职业刻板印象。
如果我们不加审查地把这样的模型直接用在招聘、信贷审核等严肃领域,无疑会固化甚至放大社会的不公平。技术从来都不是绝对中立的,如何使用技术,是每一个从业者都必须认真思考的价值选择。
AI的发展经历了一场重要变革,早期的系统只能逐字理解信息,就像盲人摸象。后来出现的Transformer技术让AI能够同时分析整段内容,而BERT模型则通过类似填空的方式,让机器真正学会了理解上下文。
这一突破的核心在于,AI终于掌握了联系前后文进行整体思考的能力。随后出现的GPT-3和ChatGPT等更先进的模型,都是在这个基础上不断发展完善的。
了解这个过程,能帮助我们把握技术发展的脉络。它告诉我们,真正的进步往往来自于思维方式的根本转变。
现在,当你与AI顺畅交流时,背后正是这场关于“理解”的技术革命在发挥作用。
来源:修竹书生一点号