数学基础,聊聊数据分析背后的数学家底

B站影视 内地电影 2025-10-28 11:07 1

摘要:这感觉太正常了。如果说数据分析是做一桌好菜,那光有新鲜的食材和漂亮的锅碗瓢盆(软件工具)还远远不够。你至少得懂点“火候”和“调味”的学问,而这门学问,就是数学。

在这个数据张口就来的时代,我们每个人似乎都成了半个“数据分析师”。看着屏幕上花花绿绿的图表,谈论着增长、趋势和用户画像,感觉自己运筹帷幄,决胜千里。

但你有没有在夜深人静的时候悄悄问过自己,这些分析结论,到底靠谱吗?当老板指着一份报告问你“这个平均数真的能说明问题吗?”你是不是心里有点发虚?

这感觉太正常了。如果说数据分析是做一桌好菜,那光有新鲜的食材和漂亮的锅碗瓢盆(软件工具)还远远不够。你至少得懂点“火候”和“调味”的学问,而这门学问,就是数学。

一听到数学,很多人可能头都大了。别怕,我们今天不聊那些让你在大学课堂上昏昏欲睡的复杂公式和证明。我们只聊那些最朴素、最实用,甚至可以说是数据分析师每天吃饭喝水都离不开的“数学常识”。这更像是一次厨房里的闲谈,告诉你盐和糖分别是什么味道,什么时候该放,放多少合适。

这篇文章,就是我们数据分析科普系列的第三篇。咱们不求成为数学家,但求做个心中有数、不被数据轻易糊弄的明白人。

想象一下,你刚拿到一份数据,比如你们公司上个季度所有员工的销售额。密密麻麻一大片数字,第一感觉是不是眼花缭乱,无从下手?

别急,我们的第一步,就是想办法用几个简单的数字,给这堆乱麻一样的数据画个像。这就是“描述性统计”的魅力。它就像一个高明的画家,寥寥几笔,就能勾勒出数据的大致轮廓。

通常,我们会从三个角度来给数据画像,分别是:它往哪儿凑(集中趋势),它有多散(离散程度),以及它长得是胖是瘦,有没有歪脖子(分布形态)。

数据想往哪儿凑?聊聊集中趋势

集中趋势,说白了就是这堆数据的“重心”在哪。它试图回答一个问题,哪个值最能代表这群数据的普遍水平?我们常用的有三个“代表”。

第一个代表,大名鼎鼎的 平均值(Mean)。这家伙你肯定熟,从小到大,算平均分都算烂了。把所有数字加起来,再除以个数,简单粗暴,童叟无欺。它确实在很多时候能很好地反映整体水平,因为它把每个数据都考虑进去了。

但是,平均值有个致命弱点,就是太“老好人”了,容易被极端分子带偏。一个有趣的现象是,每次社会上公布“平均工资”时,评论区总是一片哀嚎,感觉自己“又拖后腿了”。为什么?假设一个办公室里,十个员工月薪都是一万,但老板月薪一百万。那这个办公室的平均月薪会一下子被拉到接近十万。你觉得这个“平均数”还能代表普通员工的水平吗?显然不能。这就像我和马云的平均资产是千亿,但我的银行卡余额并不会因此多一个零。

所以,当数据里可能有这种“极端分子”(我们称之为“离群点”)时,就得请出第二位代表, 中位数(Median)

中位数就稳重多了。它的逻辑更简单,把所有数据从高到低排个队,站在最中间的那个就是它。不管队伍两头站的是乞丐还是首富,只要中间位置的人不变,中位数就稳如泰山。还拿刚才那个办公室的例子,11个人排队,中间第六个人的工资就是一万。这个数字,显然比那个被老板拉高的平均数,更能反映真实情况。所以,下次看收入报告,别光看平均数,中位数往往更值得关注。对于那些有顺序但不能精确计算的变量,比如“满意度”分为“非常满意、满意、一般、不满意”,中位数也是描述它们集中位置的最佳选择。

第三位代表,叫 众数(Mode)。它的名字最形象,就是群众里数量最多的那个数。比如,一个鞋店进货,肯定要看哪个尺码的鞋卖得最多,这个“卖得最多”的尺码就是众数。它对于描述分类型数据特别有用,比如用户最常购买的商品类别,或者投诉最多的问题类型。它的好处是完全不受极端值影响,而且直观易懂。

总结一下,平均值、中位数、众数,就像三兄弟。老大平均值最全面但容易受骗;老二中位数最稳重,不受干扰;老三众数最接地气,关注的是“人气王”。用哪个,得看你的数据长什么样,以及你想表达什么。

这堆数到底散不散?看看离散程度

知道了数据的“重心”,我们还得知道数据是紧紧抱团在重心周围,还是散落得到处都是。这就好比一个班级,平均分都是80分,但一个班的学生成绩都在75到85之间,另一个班却是从50分到100分都有。这两个班的学习情况,显然天差地别。描述这种“散开”程度的,就是离散程度指标。

最简单的指标叫 极差(Range)。就是最大值减去最小值。比如刚才那个成绩分散的班级,极差是100-50=50分。它简单直观,但毛病和平均值一样,只看两头的极端分子,中间的大部队什么情况它一概不知。

为了解决这个问题,统计学家们想出了一个更稳健的办法,叫 四分位数极差(IQR)。这个听起来有点唬人,但捅破了窗户纸就一目了然。还是让所有数据排好队,我们不光找最中间的那个(中位数,也就是Q2),我们还找前面25%位置的数(下四分位数,Q1)和75%位置的数(上四分位数,Q3)。然后用Q3减去Q1,得到的这个差距,就是IQR。

它巧妙地掐头去尾,只看中间50%的数据有多散。这就像给一个班的学生拍照,为了不受最高的姚明和最矮的郭敬明影响,我们把他们俩请出画面,只看中间大部分同学的身高范围。这个IQR在数据分析里非常有用,我们经常用它来画一种叫做“箱线图”的图形,并且用一个经验法则(比如小于 Q1 - 1.5*IQR 或大于 Q3 + 1.5*IQR 的值)来判断哪些可能是需要我们特别关注的“离群点”。

不过,要说离散程度里的“当家花旦”,还得是 方差(Variance)标准差(Standard Deviation)

这两个概念是理解数据波动的核心,我们得稍微多花点时间掰扯清楚。它的思路是这样的:既然要看数据有多散,那就看每个数据点离平均值有多远呗。

第一步,算出平均值。
第二步,计算每个数据点和平均值的差值(这叫“离差”)。
第三步,问题来了,这些差值有正有负,直接加起来很可能就互相抵消了,等于零。这可不行。怎么办?数学家说,简单,给它平方一下,负号不就没了吗?
第四步,把所有这些“离差的平方”加起来,再求个平均。好了,这就是方差。它度量了数据偏离平均值的平均“平方”距离。

但方差有个小小的“缺陷”,它的单位是原始数据的平方。比如你算身高的方差,单位是“平方米”,这听起来也太怪了。为了让它回到我们熟悉的单位,我们再做最后一步:把方差开个根号。

这个开根号后的结果,就是大名鼎鼎的标准差。它告诉我们,平均来看,数据点们大概散布在平均值上下多大的范围内。标准差越大,数据越分散,波动越大;标准差越小,数据越集中,越稳定。比如,你去买基金,两只基金的年平均回报率都是10%,但A基金的标准差是5%,B基金的标准差是20%。这意味着A基金的走势更平稳,而B基金可能今年涨50%,明年就跌30%,波动巨大。如果你是个稳健的投资者,你可能更倾向于选择标准差小的A基金。

还有一个叫 离散系数(Coefficient of Variation) 的东西,也很有意思。它是标准差除以平均值。这玩意儿是干嘛的?它是用来比较不同量级数据的离散程度的。打个比方,你想比较一群大象的体重离散程度和一群老鼠的体重离散程度。大象的体重标准差可能是100公斤,老鼠的可能是10克。你能说大象的体重波动就比老鼠大吗?不一定。大象平均体重5000公斤,100公斤的波动不算什么。老鼠平均体重30克,10克的波动可就大了去了。离散系数就是把这种相对波动给标准化了,让我们可以在不同尺度上进行公平比较。

这堆数长啥样?分布形态的秘密

我们知道了数据的重心和分散程度,最后一步,是看看这堆数据具体“长”成什么样。是两边对称,还是歪向一边?是中间高高耸起,还是平平无奇?

描述数据对称性的指标叫 偏度(Skewness)。如果数据完美对称,像个钟形(正态分布),那偏度就是0。如果数据大部分集中在低分段,少数高分值把尾巴拖得长长的,向右边延伸,这叫“正偏态”或“右偏”,偏度大于0。典型的例子就是个人收入,大部分人收入不高,少数富豪把平均值拉得很高。反之,如果大部分集中在高分段,少数低分值把尾巴拖向左边,这叫“负偏态”或“左偏”,偏度小于0。比如,一道简单的考试题,大部分学生都考了高分,只有少数人不及格。

另一个描述分布形态的指标是 峰度(Kurtosis)。它看的是数据在中心位置的集中程度,也就是分布图形的“尖峭”程度。以标准正态分布的峰度(通常定义为3,有些软件会减去3,以0为基准)为参照。如果峰度大于基准,说明分布比正态分布更“尖”,数据更集中在平均值附近。如果峰度小于基准,说明分布更“平坦”,数据更分散。

理解这些,能帮你避免很多坑。比如,当你拿到一份“平均用户消费额”的报告,如果留个心眼,去查一下数据的偏度,发现是严重的右偏。你心里就该有数了,这个“平均值”是被少数“土豪”用户拉高的,大部分普通用户的消费能力远低于这个数。那么,你的运营策略就不应该只盯着这个虚高的平均值,而要更多地关注占大多数的普通用户。

把单个变量看明白了,就像认识了一个个人。但数据分析的真正乐趣,在于观察“人与人之间的关系”。当两个或多个变量放在一起时,它们之间会不会有什么“潜规则”?一个变量的变化,会不会引起另一个变量的变化?

它们有关系吗?相关性与线性回归

要看两个变量有没有关系,最常用的工具是 相关系数(Correlation Coefficient)。它是一个介于-1和+1之间的数字,简单明了地告诉你两件事:关系的强度和方向。

如果相关系数是+1,意味着这两个变量是完美的“正相关”。一个增加,另一个也以固定比例增加。就像夏天冰淇淋的销量和气温一样,几乎是同步增长。

如果相关系数是-1,那就是完美的“负相关”。一个增加,另一个就减少。比如你玩游戏的时间越长,考试成绩可能就越低。

如果相关系数是0,那就说明它俩之间没啥线性关系。比如你的鞋码大小和你的智商,基本可以认为是八竿子打不着。

在-1到+1之间的数值,则表示不同强度的相关性。比如0.8是强正相关,-0.2是弱负相关。

但这里,我要用加粗、下划线、放大字体的方式提醒你一句,这也是数据分析领域最容易被误解的一句话:相关不等于因果!

这是一个有趣的现象,很多看似相关的事件其实背后并没有因果联系。一个经典的案例是,数据显示,冰淇淋的销量和溺水人数呈现强正相关。难道是吃冰淇淋导致了溺水?当然不是。真正的原因是“夏天”这个隐藏在背后的因素。天气热了,吃冰淇淋的人和去游泳的人都变多了,所以它俩在数据上看起来“相关”了。这种虚假的相关性在生活中比比皆是。所以,当你发现两个变量相关时,先别急着下结论,多问一句,它们之间真的有因果关系吗?还是有其他“第三者”在作祟?

发现了相关性,我们往往还想更进一步。能不能建立一个模型,用一个变量去预测另一个变量呢?比如,我能不能根据房子的面积,来预测它的价格?

这时候, 线性回归(Linear Regression) 就闪亮登场了。

线性回归这个词听起来高级,但它的思想非常朴素,就是试图在代表两个变量关系的散点图上,画出一条“最贴合”所有数据点的直线。这条直线就像一个数学公式,比如:房价 = a * 面积 + b。

这里的a就是斜率,它告诉你面积每增加一平方米,房价大概会增加多少钱。b是截距,代表一个基础房价。一旦我们通过数据找到了最合适的a和b,这个模型就建好了。下次你只要告诉我一个房子的面积,我就可以代入公式,给你一个预测的房价。

一个电商项目,我们想预测用户的终身价值。一开始,我们只用了用户的“首次购买金额”这一个变量去做线性回归,发现预测效果很一般。这就像只用“面积”去预测“房价”,肯定不准,因为地段、楼层、朝向都很重要。

后来,我们加入了更多变量,比如“用户注册时长”、“购买频率”、“平均客单价”、“是否使用过优惠券”等等。把所有这些变量都放进模型里,用它们一起来预测“终身价值”。这种用多个自变量去预测一个因变量的回归,就叫多元线性回归。结果,模型的预测准确度大大提升。

当然,现实世界远比一条直线复杂。房价和面积的关系可能不是严格的直线,当面积大到一定程度后,价格的增长速度可能会放缓。这时候就需要更复杂的非线性回归模型。但线性回归作为我们理解变量间定量关系的第一步,其思想的简洁和强大,是无论如何都不能被忽视的。

差异是偶然还是必然?聊聊方差分析

除了看关系,我们还经常需要比较不同组别之间有没有显著差异。比如,用了A、B、C三种不同的广告文案,它们带来的点击率有没有本质的不同?还是说,这些差异只是随机波动造成的?

回答这个问题的工具,叫做 方差分析(ANOVA)

方差分析这个名字有点误导性,它虽然名字里有“方差”,但它分析的却是“均值”的差异。它的核心思想很巧妙:它比较的是“组与组之间的差异”(比如A、B、C三个文案点击率均值的差异)和“每个组内部的差异”(比如用A文案的用户,他们点击行为本身的波动)的大小。

如果组间的差异远远大于组内的差异,那我们就很有信心地说,这几个组(这几个文案)确实不一样,这种差异不是偶然。反之,如果组间的差异和组内的差异差不多大,那我们可能就要怀疑,这几个文案带来的点击率差别,可能就是运气好坏而已,本质上没啥区别。

举个我自己的小例子。之前我们团队为了提升一个功能的用户留存率,设计了两个新版界面(方案甲和方案乙),加上原始界面(方案丙),想看看哪个最好。我们把用户随机分成三组,分别使用这三个方案。一周后,我们收集了三组用户的留存率数据。

肉眼看,方案甲的平均留存率最高,比丙高了2个百分点。但老板问我,这2个百分点的提升,是实实在在的改进,还是仅仅是这次实验里的“抽样误差”?我能拍着胸脯说,只要上线方案甲,大盘留存率就一定会提升吗?

这时候,方差分析就派上了用场。我把三组数据丢进统计软件里跑了一下ANOVA,结果显示,组间的差异并不“显著”大于组内的差异。这意味着,我们没有足够的统计学证据来断定方案甲就一定比其他方案好。那2个百分点的优势,很有可能只是运气。基于这个结论,我们没有贸然全量上线方案甲,而是决定继续迭代,寻找更能带来本质提升的设计。

这就是数学的力量。它让我们在做决策时,不再仅仅依赖“看上去好像是这样”,而是有了一套严谨的逻辑和工具,来判断我们的观察到底有多可靠,让我们从“拍脑袋”进化到“用数据说话”。

今天我们聊的,只是数据分析数学家底里最基础、最常用的一部分。从描述一堆数字的轮廓,到探寻数字之间的关系和差异。这些概念和方法,就像是数据分析师的“望远镜”和“显微镜”,帮助我们透过纷繁复杂的数据表象,看到背后隐藏的结构和规律。

它们可能没有人工智能、深度学习这些词汇听起来那么时髦,但它们是所有高阶分析的基石。地基不牢,大厦何存?

希望今天聊的,能让你对数据分析背后的数学,少一分畏惧,多一分亲近。记住,数学不是用来为难我们的,而是我们手中的利器,帮助我们更清晰、更深刻地理解这个充满数据的世界。

来源:正正杂说

相关推荐