解决Python处理大规模数据的性能瓶颈,人大教师推荐这四种工具

B站影视 2025-01-26 18:23 3

摘要:鲁蔚征老师毕业于北京大学,现任职于中国人民大学,是并行计算和数据科学领域的资深专家,同时担任 CCF 高性能计算专委会执行委员。老师在互联网行业积累了丰富的大数据和机器学习实践经验,更是和鲸社区的多年老用户,人大与和鲸也在人才培养、科研创新等方面有着深度合作。

随着数据量呈指数级增长,在运用数据分析工具处理TB级数据时,你是否遭遇过系统卡顿、运行缓慢甚至崩溃等问题?若你曾为此困扰,不妨看看这个。

上周,中国人民大学鲁蔚征老师携手和鲸社区举办了其新书《Python 数据科学加速》的发布会。

鲁蔚征老师毕业于北京大学,现任职于中国人民大学,是并行计算和数据科学领域的资深专家,同时担任 CCF 高性能计算专委会执行委员。老师在互联网行业积累了丰富的大数据和机器学习实践经验,更是和鲸社区的多年老用户,人大与和鲸也在人才培养、科研创新等方面有着深度合作。

这本书详细讲解了 4 大常用的数据科学加速库,分别是Dask 、Ray 、Xorbits 和 mpi4py ,这些数据科学工具可以辅助数据工程师和科学家处理更大规模的数据、训练更大的模型或者更快速地迭代和部署机器学习模型。最重要的是,书中伴有对并行计算、数据科学、机器学习的训练、推理等理论的讲解,更提供了 15 个涵盖数据集的完整、可复现的实战案例,辅助读者更好地理解和学习。

目前,鲁老师已将书中的数据、代码、实战案例都公开在了和鲸社区、Google Colab 等平台,和鲸社区提供了可在线运行的版本,便于读者边阅读边复现运行。不过,鲁老师特别提醒,本书更适合对数据科学和机器学习有一定基础、希望进一步提升应用效率的读者。若您还处于入门阶段,建议先阅读一些基础书目(也可以参与和鲸社区的训练营哦!)。

发布会上,鲁老师以数据科学与并行计算为切入点,展开深入浅出的讲解。他指出,并行计算与计算机体系结构的知识可能对非计算机专业的读者来说较为陌生,但对后续深入开展数据分析工作至关重要。从串行执行与并行执行的基本概念,到对 Python 性能问题的解释,再到展示并行程序设计方法 PCAM 的四个关键步骤,鲁老师带领大家逐步搭建起对并行计算基础的认知框架。


随后,鲁老师聚焦书中的两个热门库 ——Dask 和 Ray,进行详细解读。

Dask 作为面向 Python 的并行计算框架,其核心思想是将大型数据科学任务拆解为小任务,调用单机 Python 包(如 pandas 和 NumPy)作为执行后端。但 Dask 是一个面向大数据的并行计算框架,Dask 官方给用户的建议是:如果数据可以放进单机内存,建议优先使用传统的单机 Python 包。因为并不是所有的计算都很容易被并行化,有些任务甚至并行之后的性能反而下降。

鲁老师通过展示 Dask 计算图 task graph 对计算任务的组织方式,以及扩展到集群所需的调度器(Scheduler)和多个工作节点(Worker),并对比 Dask DataFrame 与 pandas 的差异,让大家对 Dask 有了更深入的理解。同时,鲁老师通过纽约市自行车数据分析这一书中涵盖的实战案例,全方位展示了从数据读取、数据处理、分组聚合到可视化的完整流程,让理论知识在实践中得以生动呈现。

Ray 在最近也是非常火,号称 OpenAI 在训练 ChatGPT 的时候使用了这个库,鲁老师建议对大模型感兴趣的同学可以深入学习。

相比于 Dusk,Ray 更为复杂。当前 Ray 主要由底层的 Ray Core 和上层的各类 Ray AI (Artificial Intelligence) 生态组成:底层提供了三个 API ,分别是 task、actor 和 object,上层则封装了一些面向数据科学和人工智能的库(Ray AI Libraries),可以进行数据的处理(Ray Data)、模型训练(Ray Train)、模型的超参数调优(Ray Tune),模型推理服务(Ray Serve),强化学习(RLib)等。

在演示使用 Ray 对 Python 函数进行分布式的扩展时,老师直接打开和鲸平台用斐波那契数列的案例进行了演示,从12秒到3秒,让同学们直观地看到了性能的提升。

Ray 的风靡很大部分的原因是因为它是面向 AI 应用的,因此,鲁老师还特别展示了一个机器学习的案例——通过 Ray,原本复杂的操作得以简化,分布式机器学习得以轻松开展。此外,在超参数调优方面,Ray 也展现出显著优势,能够自动搜索并记录实验结果,有效解决了人工记录效率低下的问题。

由于时间有限,发布会上鲁老师仅挑选部分重点内容讲解。而在《Python 数据科学加速》一书中,这些知识得到了更详尽的阐述。建议各位读者认真研读这本书,定能收获颇丰!

若你遗憾错过了这场精彩的发布会,可在和鲸社区课堂中找到相关直播内容和完整代码,开启自主学习之旅。想要深入探索数据科学的奥秘,不妨购买鲁老师的《Python 数据科学加速》,相信它会成为您数据科学道路上的得力助手,带来意想不到的启发与帮助。

和鲸社区始终致力于为数据科学与人工智能领域的从业者和爱好者打造优质的学习交流平台。长期以来,和鲸社区积极与众多作者、出版社合作,成功举办多场新书发布会。这些活动不仅让新近出版的优质书籍更快地被目标受众熟知,还将书中内容转化为社区内的优质项目,为大家带来全新的学习体验。如果您也有相关合作需求,欢迎在公众号“和鲸”联系我们!

来源:和鲸

相关推荐