摘要:在数据分析领域,相关性分析是用于衡量两个或多个变量之间关系的一种统计方法。它能够帮助理解变量之间是否存在关联,并初步判断一种变量是否可能影响另一种变量。相关性分析广泛应用于各行各业,从业务决策到科学研究,都是一种常用的数据洞察手段。
在数据分析领域,相关性分析是用于衡量两个或多个变量之间关系的一种统计方法。它能够帮助理解变量之间是否存在关联,并初步判断一种变量是否可能影响另一种变量。相关性分析广泛应用于各行各业,从业务决策到科学研究,都是一种常用的数据洞察手段。
以下是商业分析中一些常见的应用场景:
市场营销:可以分析营销活动(如广告费用、折扣率)与销售额的关系,以评估营销策略的有效性。人力资源:HR分析可以研究员工工作满意度与离职率的关系,帮助企业制定保留优秀员工的策略。金融分析:在金融投资中,相关性可以帮助投资者分析股票、债券等资产之间的关系,辅助组合优化,降低投资风险。产品分析:电商企业可以分析商品价格与销量之间的关系,来优化定价策略。相关性分析的核心在于衡量不同变量之间的关系强度和方向。通常,相关性以相关系数的形式表现,值域在-1到1之间。1表示完全正相关,-1表示完全负相关,0则表示无相关性。
那么如何计算相关系数呢?
在Excel中有个CORREL函数,计算两个数组之间的相关系数,比如下面这组数据,每个月的营销费用和利润额,计算这两组数据的相关系数,用CORREL来计算非常简单:
通过计算,相关系数为 0.87,说明上面数据中的营销费用和利润额之间存在较强的正相关关系。
在DAX中目前并没有这个函数,那么如何用PowerBI来计算相关系数呢?
其实Excel中的CORREL函数计算相关性的底层逻辑基于皮尔逊相关系数(Pearson correlation coefficient),这是一种衡量两个变量之间线性相关程度的统计指标。
它的计算公式如下:
有了这个公式逻辑,其实用常规的DAX函数,也能计算出计算皮尔逊相关系数,度量值如下:
相关系数 = VAR AvgX = AVERAGE('表'[营销费用])VAR AvgY = AVERAGE('表'[利润额])VAR SumProductDiff = SUMX('表',('表'[营销费用] - AvgX) * ('表'[利润额] - AvgY))VAR SumSqDiff_X = SUMX('表',('表'[营销费用] - AvgX) ^ 2)VAR SumSqDiff_Y = SUMX('表',('表'[利润额] - AvgY) ^ 2)RETURN SumProductDiff / SQRT(SumSqDiff_X * SumSqDiff_Y)这个度量值主要用了AVERAGE计算出平均值、用SUMX函数汇总求和,然后通过乘、除、开方运算就实现了这个逻辑,计算结果与Excel用CORREL计算的完全一致。
这样我们就通过常规的DAX函数实现了相关系数的计算。
在实际业务中,我们会遇到形形色色的逻辑需求,而DAX不可能对每一种需求都有专门的函数。
关键在于深刻理解DAX的底层原理、以及具体业务的计算逻辑,即便没有直接对应的专用函数,我们依然能够灵活运用现有的通用函数来构建,计算所需的指标。通过深入掌握DAX的核心逻辑,可以更加自如地应对各种复杂的业务场景,实现精准的数据分析。
来源:晟睿教育