作者:Ritesh Shergill翻译:陈之炎校对:赵茹萱摘要:在大数据行业尤其如此,如果您从事数据工作,不可避免会有创建可视化的需求——展示往往比讲述效果更好。
本文约1700字,建议阅读5分钟
本文利用了Python创建令人惊艳的可视化效果。
一图胜千言
在大数据行业尤其如此,如果您从事数据工作,不可避免会有创建可视化的需求——展示往往比讲述效果更好。
创建可视化既是一种艺术,也是一门科学。在本文中,我将揭秘数据可视化中的关键技术,助力将数据转化为引人入胜的视觉故事。
那么,行胜于言,让我们深入探讨数据可视化的无限可能性吧!
基本可视化和数据分析探索
基本可视化的演示首先需要数据,还有什么比Kaggle更好的地方能找到数据呢?
为了实现基本可视化,我提取了红葡萄酒数据集,这是Kaggle上最受欢迎的数据集之一。可以在这里找到受欢迎的数据集——
关于红葡萄酒质量数据集
该数据集与葡萄牙“Vinho Verde”红葡萄酒的变种有关。由于隐私和物流问题,只有物理化学(输入)变量和感官(输出)变量可用(例如,没有葡萄品种、葡萄酒品牌、葡萄酒销售价格等数据)。
该数据集可以用于分类或回归任务。类别是有序的,且是不平衡的(例如,普通葡萄酒比优秀或劣质葡萄酒多得多)。
输入变量(基于物理化学测试):
固定酸度
挥发性酸度
柠檬酸
残糖
氯化物
游离二氧化硫
总二氧化硫
密度
pH值
硫酸盐
酒精
输出变量(基于感官数据):
- 质量(分值范围0到10分)
首先做一个基础的热身跑——
数据集描述
挥发性酸度和质量之间的配对图
让我们发挥配对图中的创意,以展示更多变量
配对图:显示图表网格,每个图表都展示了数据集中两个特征(变量)之间的关系。
适用于:特征和异常值检测
再来看看直方图!
直方图:描述数据中不同范围的数值(称为“箱”)出现的频率,高耸的摩天大楼代表该数值发生率较高。
适用于:检查数据质量,比较不同组之间的分布
太美妙了!
箱线图!!!
箱线图:根据五数概括显示数据分布,它提炼出了数据集中趋势、变异性和潜在异常值的视觉总结。
五数概括——最小值,第一四分位数(Q1),中位数(Q2),第三四分位数(Q3)和最大值。
适用于:非常适合识别异常值以及数据分布的偏斜/扩散。
接下来比较神奇
3D散点图与随机颜色
散点图:通过在笛卡尔平面上显示两个连续变量之间的关系(相关性和变量之间的关系)。
适用于:识别数据点的聚类和异常值
螺旋直方图!
螺旋直方图:以螺旋模式排列,显示数据的频率分布的直方图。
适用于:通常是为了审美吸引力而创建,如果数据是周期性或季节性的,特别是如果数据具有季节性模式,它确实非常有用。
让我们变得更疯狂!3D螺旋直方图!
热图!
热图:显示变量之间的关系或数据集中值的分布。
适用于:查看变量之间的相关性
接下来做一些更精彩的事情!
创建图形!
使用Mat和Sea
创建绘图 —— 为绘图而生
这是一个使用Matplotlib创建的图形——
看起来像蜂窝,对吗?这是详细代码——
如何制作环形图?
如何制作Venn图?
制作Venn图需要安装以下软件
是什么构成一部精彩的电影?需要以下素材。
以下是代码。
探索Matplotlib和Seaborn就像进入了一个令人兴奋的兔子洞。有那么多令人兴奋的可能性来制作富有信息量和外观精美的可视化效果。
我敢说,如果您是这两个库的专家,并且将Plotly也加入到您的武器库中,那么您创建的可视化效果将使您成为工作场所的传奇人物。
如果您是处理数据专家,创建可视化之所以至关重要的原因主要有以下几点——
可视化对于快速了解数据的结构和分布至关重要。它们有助于识别数据中的模式、趋势、异常值和关系,这对于构建准确的模型非常重要。评估数据质量,包括检查缺失数据、不一致性和异常值。向没有技术背景的利益相关者传达发现。无论您是处理数据质量还是准备数据以训练机器学习模型,数据可视化是验证和革新数据的好方法。
所以必须掌握它!
原文链接:
https://medium.com/@riteshshergill/creating-amazing-visualizations-with-matplotlib-and-seaborn-486fa7d68c1e
来源:小唐科技频道