CPU眼里的:Python 和 C

B站影视 内地电影 2025-05-30 12:30 2

摘要:Python可能是当今最热门的编程语言,凭借简洁易读的语法和强大的生态,成为许多新手程序员的首选。然而,作为一门解释型脚本语言,Python在底层操作(如文件读写、内存管理等)上是如何运行的呢?

Python跟C语言有什么联系?它们在计算机系统中分别扮演着什么角色?

01

提出问题

Python可能是当今最热门的编程语言,凭借简洁易读的语法和强大的生态,成为许多新手程序员的首选。然而,作为一门解释型脚本语言,Python在底层操作(如文件读写、内存管理等)上是如何运行的呢?

为了深入理解其中的工作原理,我们不妨从一个Python程序入手,探究它在幕后如何与C语言协同工作,从而实现底层功能。

02

代码分析

我们的工作环境是Windows,一起登场的还有Windows开发的调试神器WinDbg。

首先在Windows命令行中运行Python,接着,让我们编写一个用来创建和打开文件的Python函数:open,如图所示:

第一个参数是文件的名称,第二参数是对该文件的访问方式,w表我们要作“写”操作。不着急点击回车键,在运行这个函数之前,我还要做点准备工作。

我们先预测一下:如果回车键按下去,会发生什么?因为Python只是一种脚本语言,本身并没有操作硬盘的能力,所以仅靠Python的力量,想创建一个文件是不可能的,必须要借助于Windows的底层API。

通过查询,我们知道这个API就是CreateFileW,其中W表明这是一个unicode的API接口。所以,我们猜这个Python的open函数,最终会调用CreateFileW这个C函数,你同意吗?

不过实践才是检验真理的唯一标准。让我们打开WinDbg,点击工具栏的File按钮,选择“Attach to a Process”,找到这个Python.exe进程,并将WinDbg挂接上去,如图所示:

这样我们就可以用WinDbg调试Python进程了!WinDbg会自动暂停我们的Python进程,所以,此时的Python命令行,无法接受我们的任何输入。

这时,我们在WinDbg的命令行中输入一个打断点的命令:bm *!CreateFileW

由于可能有多个Windows模块,都有一个叫做CreateFileW的API函数,所以通过这个命令,可以为每个名称为CreateFileW的API函数上,打上断点。如图所示:

如你所见,我们一共找到了3个这样的API函数,不过它们分属不同的Windows模块。

断点安插完毕,在WinDbg命令行中,输入go(g)命令,让Python进程继续运行。回到Python命令行,点击回车键,运行这个等候多时的open函数。在点击回车键的一刹那,我们刚才设定的断点,也被命中了,如图所示:

如你所见,Python进程果然停在了CreateFileW这个函数上,但谁能保证,这个CreateFileW函数,是Python调用的呢?很简单,我们只需要核实一下函数的第一个参数就好。如果函数的第一个参数也是“abuCoding.txt”,就说明这个参数来自刚才的Python代码。

那如何查看参数呢?因为没有调试信息,WinDbg无法找到参数名称,更无法读出参数的值。但事无绝对,如“CPU眼里的参数传递”所说,主调函数通常会通过CPU寄存器来传递参数。

例如:我们写一个类似的open函数,然后在main函数中调用一下,如图所示:

如你所见,它的第一个参数,也就是字符串的“abuCoding.txt”的内存首地址,它是通过CPU寄存器rdi(edi是其低32位)传递的。不过需要注意的是,这里的编译器是GCC,因为我们现在运行在Windows平台上,所以要把编译器改成msvc,也就是Visual C++编译器,如图所示:

跟GCC不同的是,这里的第一个参数是通过CPU寄存器rcx传递的,让我们通过在WinDbg命令行中,输入命令:r rcx,来查看一下寄存器rcx的值(0x28cd01c4c10)

然后,就可以通过 du 命令查看一下该内存地址(0x28cd01c4c10)上存放的字符了,如图所示:

如你所见,它跟我们刚才所写的Python代码中的参数(abuCoding.txt),完全一致!保险起见,我们再验证一下函数调用栈,让我们输入命令:k,查看一下调用栈,如图所示:

果然CreateFileW是沿着一堆Python相关的函数,一路调用过来的。如果还觉得不过瘾,我们还可以看看更底层的实现。

通过断点命令:bp ntdll!NtCreateFile,我们可以在更底层的nt模块下的 NtCreateFile 函数下打一个断点,然后输入 g,让程序继续运行。

好了,断点命中;输入命令p,可以作单步执行,忽略掉若干个我们不关心的CPU指令后,一个眼熟的CPU指令syscall映入眼帘,如图所示:

如“CPU眼里的系统调用”所说,这是x86 CPU 进行系统调用的CPU指令。具体的系统调用编号存放在CPU寄存器rax里面,这样操作系统就知道要执行哪一个系统调用了。通过命令“r rax”查看一下寄存器rax值,是:0x33

让我们核对一下Windows的系统调用表,如图所示:

如你所见,第0x33号系统调用,正好就是用于创建和打开文件的:NtOpenFile。如果一切顺利的话,abuCoding.txt 这个文件,就会被Windows操作系统顺利创建出来。

怎么样,使用WinDbg进行程序调试的体验如何?当然,WinDbg的功能远不止如此!它不仅可以调试用户态应用,还能深入驱动程序和内核,实现更底层的分析。不仅支持本地调试,还可以通过USB、串口、网络接口进行远程调试,轻松应对各种调试场景。可以说,掌握了WinDbg,就相当于拿到了一把畅行Windows调试世界的万能钥匙!

03

总结和思考

至此整个故事结束。你或许也发现了,无论是GCC还是Visual C++,它们在处理函数参数的传递上,都大同小异。

无论是Linux,还是Windows的系统调用,它们的工作原理也几乎相同,特别是在和CPU打交道地方,处理细节也几乎完全一致。

从使用的角度上看,Python的语法更加简洁、易懂,并加入很多高级功能(例如:数学运算、数据处理等),非常适合初学者快速入门,能让开发者专注于软件功能,而少掉很多细节上的羁绊。

相比之下,C/C++语言的规则更加复杂,需要开发者对内存管理、函数堆栈、甚至硬件属性,都要有所了解。这也导致C/C++语言的暗坑很多,开发者很容易遭遇到一些匪夷所思的bug。

但也正是C/C++语言,可以对计算系统进行精确控制,也让它成为关键系统、关键功能开发中不可或缺的存在。例如:在操作系统、游戏和AI加速等方面的开发工作中,C/C++往往都是不二之选。

最后,无论是Python语言还是C/C++语言,它们都在我们的手机、电脑里面扮演着不同的角色。你是更关注它们各自的特点和优势呢?还是更在乎谁是宇宙第一编程语言呢?

04

热点问题

Q1:本章看起来,感觉有点吃力,是因为我的汇编功底不够吗?

A1:其实,本文涉及的汇编指令并不多,翻来覆去也就是那几条读、写指令。但真正的核心,不在于这些指令本身,而在于它们背后的语言设计思想和计算机的整体运行机制——这才是理解的关键。

如果你觉得吃力,可能并不是因为汇编本身有多难,而是对WinDbg调试工具还不够熟悉。不妨亲自动手实践,按照本文的实验过程一步步走一遍,这样理解起来可能会更轻松。

07

如果喜欢阿布这种解读方式,希望更加系统学习这些编程知识的话,也可以考虑看看由阿布亲自编写,并由多位微软大佬联袂推荐的新书《CPU眼里的C/C++》

【京东热卖】好评度:> 98%

【微信读书】推荐度:> 82%

来源:阿布编程

相关推荐