Codon允许用户像C或C++一样高效地运行Python代码
Python作为最流行(没有之一)的高级编程语言之一,使用广泛。虽然高级语言的简化语法使其易于学习和使用,但是,与C或C++等低级语言相比,说它慢,简直就是侮辱了这个“慢”字。
麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员希望通过Codon来改变这种状况,Codon是一种基于Python的编译器,允许用户编写与C或C++程序一样高效的Python代码。
常规Python编译为所谓的字节码,然后该字节码在虚拟机中执行,这要慢得多,使用Codon,在本机进行编译,可以直接在CPU上运行最终结果:没有中间虚拟机或解释器。
Codon的编译管道包括类型检查基于Python的编译器附带了适用于Linux和macOS的预构建二进制文件,您还可以从源代码构建或构建可执行文件。使用Codon,你可以像Python一样分发源代码,或者你可以将其编译为二进制文件。如果你想分发二进制文件,它将与C++这样的语言相同,例如,你有一个Linux二进制文件或Mac二进制文件。
为了使Codon更快,在编译时执行类型检查。类型检查涉及将数据类型(如整数、字符串、字符或浮点数等)分配给值。例如,数字5可以指定为整数,字母“c”可指定为字符,单词“hello”可指定为字符串,十进制数3.14可指定为浮点数。
在常规的Python中,它将所有类型留给运行时,使用Codon,在编译过程中进行类型检查,这使我们能够避免在运行时进行所有昂贵的类型操作。简单点说就是你Python本身是动态类型,Codon编译时给你的变量指定类型,这样在运行时就不需要耗费判断数据类型的开销。
麻省理工学院教授和CSAIL首席研究员SamanAmarasinghe也是Codon论文的合著者,他说:“如果你有一种动态语言(如Python),每次你有一些数据时,你都需要在它周围保留很多额外的元数据”,以确定运行时的类型。Codon取消了这些元数据,因此“代码更快,数据更小”。
在运行时没有任何不必要的数据或类型检查,导致Codon零开销。在性能方面,Codon甚至与C++相当。与Python相比,我们通常看到的是10到倍的速度提升。
Cpython、pypy、codon、C++性能对比虽然性能大幅提升,但Codon的方法也有它的不足。因为要进行这种静态类型检查,并且不允许Python的一些动态功能,例如在运行时动态更改类型,同时有些Python库暂时还不支持Codon,也就是兼容性还有待提高。
Python已经经过了许多人的实战项目测试,但Codon才刚开始,还没有达到和Python一样的完美。它需要运行更多的程序,获得更多的反馈,并加强和修复更多。达到[Python的]强化水平需要一些时间。
Codon最初设计用于基因组学和生物信息学。数据集在这些领域变得越来越大,像Python和R这样的高级语言太慢了,无法处理每组测序TB级别的数据。这就是Codon想要填补的空白:通过开发一种无需编写C或C++代码来处理大数据的方法,为不一定是计算机科学家或程序员的领域专家提供帮助。
除了基因组学之外,Codon还可以应用于处理大数据集的类似应用,以及支持Python编译器的GPU编程和并行编程领域。
为了使Codon能够与这些不同领域的应用配合使用,团队开发了一个插件系统。就像一个可扩展的编译器,任何人都可以为基因组学或其他领域编写插件,这些插件可以有新的库和新的编译器优化。
此外,组织可以同时使用Codon进行原型设计和应用程序开发。人们使用Python进行原型设计和测试,因为它易于使用,但是当需要在更大的数据集上进行测试时,他们不得不重新编写[他们的应用程序]或找别人用C或C++重新编写它,使用Codon,可以继续使用Python并兼顾两者的优点。
Codon的下一步计划,正在开发广泛使用的Python库的本地实现,以及针对特定库的优化,以获得更好的性能。同时将创建一个广受欢迎的功能:为Codon创建一个WebAssembly后端,以便在Web浏览器上运行代码。