摘要:你是否发现,刷短视频的时间越久,推荐内容却越来越雷同?当“猜你喜欢”变成“困住你心”,一场由算法主导的“信息围城”正在悄然成型。
你是否发现,刷短视频的时间越久,推荐内容却越来越雷同?当“猜你喜欢”变成“困住你心”,一场由算法主导的“信息围城”正在悄然成型。
近期,抖音等平台首次揭开推荐算法的神秘面纱,试图打破这场无声的操控。但算法的牢笼,真的能一键击碎吗?
01
从主动搜索到被动投喂
人类生产、传播、获取信息的方式,是一个从匮乏到丰富、从主动到被动的过程。
信息生产和传播,最早依赖于肢体语言和口口相传,后来到结绳记事和甲骨文,再从竹简到纸张,从雕版印刷到活字印刷,从激光照排到数字媒体,贯穿整个人类发展史。人类在1996年进入数字存储时代后,其后16年生产的数字信息量即相当于此前文明史总和。2025年人类社会新产生的数据将达到175万亿GB,如果以100Mb/秒(千兆宽带)的下载速度计算,一个人下载这些数据需要4.5亿年。
信息匮乏的年代,只有精英阶层才识字并掌控信息。慢慢随着知识的普及,出现了媒体,普通人才有机会获取信息,并做出选择。
2000年左右有了门户网站,就像报纸版面一样按兴趣分类,方便受众按需浏览。
当海量信息出现,搜索引擎就应运而生,在受众主动查找行为与关键词匹配结果间建立快捷通道。
随着社交媒体的出现,订阅或关注某个账号,成了一些网友获取精准信息的新渠道。
而进入移动新媒体时代,信息终端充分个人化,人们每天都接收着海量信息轰炸,滑动手机屏幕的瞬间,时常会感到一种被巨量信息淹没的无力感。这个时候,推荐算法就像信息快递员,能更高效、准确地把合适的信息推送到用户面前,满足每个用户个性化需求。
如今,这类算法已广泛应用于电商平台(商品推荐)、视频网站(内容推送)及社交网络(好友/信息流推荐),通过“千人千面”推荐显著提升推荐的精准度和用户体验。
02
揭秘协同过滤的“读心术”
从技术视角来看,推荐算法的基础是机器学习。事实上,机器学习是人工智能的核心技术之一,其定义有很多种,大体都可以归结为通过已有的数据进行数学建模、挖掘规律,随后,在此基础上对未知的数据进行预测。
推荐算法的核心目标是通过分析用户的“行为”(点击、浏览、喜欢、转发、收藏等),构建个性化的推荐模型。具体而言,系统会基于用户历史动作、对象特征和上下文环境,采用算法模型预测用户可能会对什么样的内容产生什么样的行为。
“协同过滤”( Collaborative Filtering,简称 CF)推荐算法是最经典的推荐算法之一,至今仍然在广泛使用。所谓“协同过滤”推荐,简单来说就是协同用户的行为,一起对海量的信息进行过滤,从中更加快速筛选出用户可能会产生行为(比如完播、点赞)的内容。它针对的是行为而不是内容。
比如你在网上买东西或者看电影、听音乐,系统会记录下你的选择和行为。然后它会去找和你行为相似的人,看看这些人还喜欢什么其他的东西。如果和你行为相似的人都喜欢某一本书,即使你从来没有看过这本书,系统也会觉得你可能会喜欢,就把这本书推荐给你。
再举个例子,假设你喜欢看科幻电影《星际穿越》,系统发现和你有类似观影喜好的人还喜欢《盗梦空间》《阿凡达》等电影,那么它就会把这些电影推荐给你,这就是协同过滤在起作用,它是基于很多人的共同行为和喜好来进行推荐的,而不是直接分析电影的内容。
03
深度学习“破案”实录
2016推荐算法全面进入深度学习时代。时至今日,深度学习推荐模型已经成为推荐领域当之无愧的主流。
深度学习是机器学习的高级形态,其核心特点是以人工神经网络为架构。
人工神经网络可以分成三个主要部分:输入层、隐藏层、输出层。简单来说,输入层就是负责记录信息,隐藏层负责分析信息,输出层做出最后的判断。
我们以小区保安协助破案为例:
小区保安作为输入层,负责登记来访人员信息,例如戴黑帽子、穿红衣服、背双肩包(像素级基础特征)。登记完成后,他把这些信息写成小纸条,传给下一层侦探。
多组侦探就组成了隐藏层,负责进行特征分析。
第一组侦探:发现“黑帽子+红衣服”常出现在便利店盗窃案中;
第二组侦探:查历史档案,发现“双肩包+上午8点”对应小区快递被偷案;
第三组侦探:画嫌疑人画像,综合“黑帽子、红衣服、双肩包+多次出现在案发地”,锁定惯犯特征;
输出层:警长拿到综合报告,对比数据库后大喊:“这是上周连环盗窃案的A!”(输出计算结果)
以上破案过程需要不断复盘,做好日常训练。比如一开始侦探们总认错人,大家会复盘:“上次把戴黑帽子的外卖员当成小偷,是因为没考虑时间特征!”。于是调整“时间权重”,下次侦探优先检查“黑帽子+非工作时间”的人。如此反复训练后,侦探就成了抓小偷专家。
04
从投你所好到破茧重生
抖音推荐算法主力模型之一的Wide&Deep模型就是深度算法的一种。它可以解决前文提到的协同过滤算法的短板。协同过滤算法优点突出,但是其局限性也很明显,就是泛化能力差,推荐的结果头部效应比较明显,也就是容易造成信息单一问题。
比如它就像只认识“熟人圈”,遇到没见过的新东西(比如小众内容,即用户行为数据中较少出现的内容),就不知道怎么推荐了。
比如总爱推大家都喜欢的“热门货”(比如爆款电影、顶流歌手),小众的东西很难被看到。
另外,它翻来覆去推荐的都是那几样热门的,时间长了你看到的推荐就越来越“窄”,像被关进了“热门信息盒子”里。
Wide&Deep模型则同时强调广度和深度。
比如一个用户经常观看篮球比赛视频,广度模型部分会根据用户的历史观看记录,不断推荐更多篮球比赛视频,比如不同球队的比赛、不同年份的赛事等。
而深度模型部分会分析视频的各种特征,如视频的主题、风格、演员等。当一个新的篮球技巧教学视频发布时,尽管这个视频在用户历史记录中没有直接关联,但深度模型通过分析其与用户已观看的篮球比赛视频在主题上的相关性,可能会将这个新视频推荐给用户,从而拓宽用户的视野,减少信息茧房的影响。
当深度学习开始主动挖掘你未曾察觉的兴趣,当推荐系统从“投喂热门”转向“激发可能”,或许我们终将能在信息茧房中凿开一扇窗,去拥抱算法之外更辽阔的世界。
来源:胡二刀