美东时间8月19日下午,北京时间8月20日早晨,特斯拉正式召开AI日。
在这次活动上,特斯拉在云端部署的超级计算机Dojo正式露出真面目,伊隆-马斯克在活动最后略带调侃地发布了机器人TeslaBot,这两个将在明年才能就绪的硬件引发了讨论热潮。另外,特斯拉还介绍了在AI、自动驾驶软件等方面的最新进展。
关于车端的FSD芯片,在发布会后的提问环节,马斯克表示正在开发中的Hardware4.0的能力将是Hardware3.0的4倍,新硬件将会与Cybertruck一起面世。
这场发布会引起了全世界科技人士的围观,十分推崇VR的美国科技博主RobertScoble直接倒戈特斯拉,他表示“特斯拉是真正的元宇宙公司,Facebook不是,苹果不是,谷歌不是,Niantic不是,其他公司更不是,它(特斯拉)是如此超前。”
尽管特斯拉展示了高超的复刻现实的技术,让人对未来会产生无限的遐想,但在此时此刻,特斯拉的目标只有一个——用更低的成本更快地实现自动驾驶。
特斯拉在AIDay展示的所有产品和能力,仍然只是为自动驾驶服务,AllforAD,OnlyforAD。
伊隆-马斯克再次向世人展示了他一贯的高效专注,他把所有与自动驾驶无关的东西统统都拿掉,把所有的资源都倾注到深度神经网络、纯视觉这条路线上去,继续引领着整个自动驾驶行业、汽车行业。
一力破百巧。
一
Dojo超算和D1芯片,无疑是特斯拉AIDay的重心。
布置在云端的训练中心,也是特斯拉自动驾驶的最后一块拼图,在这里,自动驾驶产生的大量数据被喂给深度神经网络,AI三架马车在这里齐头并进,最终输出超出人类能力的结果。
在Dojo之前,特斯拉已经于今年小试牛刀,布置了三个超级计算机集群,分别用于自动标注、训练、训练。
自动标注:GPUs、5PBNVME;
训练:GPUs、8PBNVME;
训练(Dojo原型机):GPUs、12PBNVME。
简单说下最后一个,特斯拉AI高级总监AndrejKarpathy曾在CVPR上对外展示过这一集群,当时被认为是Dojo的原型机,为了方便表述,后面我们直接称之为Dojo原型机,这个集群使用了个由8个英伟达ATensorCoreGPU组成的节点,共个GPU,可达到1.8ExaFLOPS级别的性能。
上述三个超算以GPU为核心,和特斯拉的需求并不完全吻合,马斯克在提问环节表示,CPU、GPU等通用处理器,并不是为神经网络训练而准备的,特斯拉基于ASIC打造的D1芯片,比通用的GPU更好。
这和特斯拉当时打造FSD芯片的思路如出一辙:市场上并没有没有成熟的可用于神经网络的自动驾驶芯片,于是特斯拉花了18个月自己设计了FSD芯片。
GPU是很多云端AI训练中心的通用方案,可马斯克觉得这还不够好。
Dojo项目负责人GaneshVenkataramanan介绍了特斯拉之所以打造Dojo的三个核心诉求:
为了实现最佳的AI训练性能;
可以使用更大、更复杂的神经网络模型;
节能、且成本更低。
总之,更好的性能、更低的能耗水平、更低的软硬件成本。基本上,特斯拉在其他领域也是这些要求。
到了落地层面,特斯拉仍然采用一直坚持的垂直一体化的方式,从芯片级到系统级再到集群,以及软件,特斯拉全栈自研。
先从D1芯片说起。
D1芯片,Chip面积为平方毫米,拥有亿晶体管,TDP(热设计功耗)为W。BF16/CFP8格式下的算力达TFLOPS,FP32精度下的算力峰值达22.6TFLOPS,芯片内部带宽为10TBps、外部带宽为5TBps。
作为对比,同样采用7nm制程的英伟达ATensorCoreGPU,也就是特斯拉目前在用的,其芯片面积是平方毫米,晶体管数量亿颗,TDP(热设计功耗)为W,FP32峰值算力为19.5TFLOPS。
FP32是当前深度学习的训练和推理中最常用的格式,以上述简单的参数来看,在同样的制程下,特斯拉D1以更小的芯片面积,更少的晶体管数量,FP32性能却实现了超越,确实是更胜一筹。
这里简单补充一下芯片尺寸的概念。
年,黄仁勋在发布ATensorCoreGPU时表示,这是目前可量产的尺寸最大的7nm芯片。
在此前的GTC上,皮衣哥曾表示,“目前制造高性能GPU有一个很严重的限制——芯片尺寸的限制,因为目前现有技术的光刻机受限于光刻模板、光刻光源,几乎不可能制造出更大的GPU核心”。
尽管更大的尺寸意味着更多的晶体管,也就意味着更强大的性能,但我们也看到,特斯拉并没有太在芯片尺寸上较劲,而是把更多的精力放在了芯片架构上。
D1和A,一个是专用ASIC芯片,一个是通用的GPU芯片,在芯片架构上存在巨大的差异。
D1芯片上采用的是分布式计算架构,D1芯片上的计算单元为TrainingNode(训练单元),每个芯片由个TrainingNode组成,下图中方块表示。
下图是英伟达在去年发布的基于Ampere架构打造的GA完整架构图,绿色部分为计算单元(SM,StreamingMultiprocessor流多处理器),图中一共有个SM,AGPU是在这个架构基础上删减的,拥有个SM单元。
在特斯拉称为TrainingNode的内部结构是这样的,特斯拉为这些核心设计了低延迟、高带宽的方案。
在英伟达GPU的SM内部,TensorCore是支撑AI和高性能计算的核心,即可将精度自动降低到TF32和FP16等级别,来运行深度学习网络的大模型;也可以将精度提升至FP64,来为天气、能源等提供高准确性的计算。
显然,可以为各行各业提供通用能力的方案,不是特斯拉想要的。
特斯拉基于公开的数据,单方面宣称,其自研的芯片在浮点运算能力(下图横坐标)上领先于英伟达等厂商。
到集成层面,我们可以用“电芯-模组-电池包”的概念来理解超级计算机的系统,分别对应着超级计算机的“芯片-节点-集群”。
节点,对应着“模组”,英伟达A的单个节点,采用8个A组成了DGXA,售价高达19.9万美元。对,就是当时老黄从烤箱中取出来的大家伙。
而本次特斯拉将25片D1封装进了一个节点,单节点的算力达到9PetaFLOPS,特斯拉称之为TrainingTile。
在答疑环节,特斯拉称在芯片的集成环节,应用了大量的汽车电力电子技术,例如在顶部和底部均采用了液冷方案。
特斯拉称其尺寸大概为1立方英尺,明显比黄仁勋展示的那块DGXA要小。
到集群层面,特斯拉之前基于英伟A打造的Dojo原型机,集成了个DGXA节点,共块GPU,造价粗粗计算已经超过1亿美元,算力可达1.8ExaFLOPS。
本次特斯拉发布了基于D1芯片打造的ExaPOD,这个集群由个节点(TrainingTile)、总共块D1芯片组成,计算单元(TrainingNode)数超过万(*),在BF16/CFP8精度下的算力达到1.1ExaLOPS。
在发布会后,马斯克在推特上回复网友提问时表示,ExaPOD的运算能力足以模拟人脑。
本次特斯拉发布的Dojo第一代,将于年推出,特斯拉自己立了个Flag,下一代Dojo将实现10倍性能的提升。
如果要评价特斯拉Dojo,在芯片层面,它变得更加为自动驾驶专用,甚至说是第一代的自动驾驶计算集群都不过分;在封装或Pack层面,集成度更高,提升了计算效率。
它颠覆吗?至少这一代还不算很大的颠覆,但它开创了自动驾驶公司或汽车公司打开专用计算集群的先河。也许下一代的Dojo,特斯拉才会给我们更大的惊喜。
二
高度定制和垂直,是特斯拉实现自动驾驶的方法论。
加上Dojo,特斯拉几乎已经在软硬件的各个环节都完成了极高的定制化。
在这次活动上,特斯拉AI高级总监AndrejKarpathy再次重申了特斯拉打造自动驾驶的想法,“我们希望能够打造一个类似动物视觉皮层的神经网络连接,模拟大脑信息输入和输出的过程。就像光线进入到视网膜当中,我们希望通过摄像头来模拟这个过程。”
砍掉所有的旁枝末节,专注在深度神经网络+纯视觉,是特斯拉实现自动驾驶的技术路线。
在这套逻辑的背后,是特斯拉拥有业内最大的车队,拥有最大的数据规模,这些车队每天为深度神经网络提供大量数据,从最开始的图像数据,到现在的视频数据。
AndrejKarpathy在CVPR上表示,特斯拉已经收集了万个36FPS的10秒片段,大概占用了1.5PB的存储空间。
Dojo的出现,是为了解决视频数据的训练问题,准确地说是,用更低的成本、更快速、高效的进行AI训练。
这需要从软件和硬件两方面来推动。
软件方面,从年开始,特斯拉开始推动用深度神经网络来为Autopilot重写软件,在此之前,特斯拉主要采用C++等传统程序来写软件。
多任务学习HydraNets神经网络架构用来处理感知的问题,通过8个摄像头画面拼接,3D鸟瞰图得以实现,纯视觉开始成为可能。
对于深度神经网络的训练来说,标注是个相当大的问题,没有标注的数据是无法拿来用的,而对于特斯拉这样拥有超大规模数据的公司来说,人工标注的方式显然是不可持续的。
特斯拉在全球拥有一支0人左右的数据标注团队,这支团队由AndrejKarpathy领导。这些团队将视频数据中的物体在特斯拉打造的“矢量空间”(VetorSpace)中进行标注,特斯拉称可以实现一次人工标注,机器可自主标注所有摄像头的多帧画面。
特斯拉称,目前可以在一周内完成1万个视频的采集和自动标注。在这次的活动上,特斯拉甚至还展示了通过多辆特斯拉的数据来实现联合标注。
另外,除了在感知、训练等方面,特斯拉也在更多环节引入人工智能算法,例如在规划环节,特斯拉本次也展示了其AI算法的应用。
随着各环节对AI的需求越来越强烈,特斯拉希望神经网络拥有更好的性能、并可以引入更大规模的神经网络模型,这些也对硬件提出更高的要求。
硬件方面,在车端,FSD芯片也是专为自动驾驶所开发的,相对于其他的通用方案是更加高效的。
在云端,特斯拉本次推出的Dojo是其专用方案的开端,对于一个年要卖万的车企来说,其拥有的数据也将会急剧膨胀,数据的规模足以支撑其走专用化的道路,专用化也会更加高效。
尾声
关于自动驾驶,核心的问题,比拼的还是谁更快。
用通用的方案,砸钱会让这个事更快吗?如果要达到更快,需要付出的成本又是多少?
像特斯拉这样,在所有的方案上都高度定制化,甚至实现了闭环,经济性和效率绝对是高的,但是会更快吗?
也许,目前在各种硬件通用方案上狂奔的中国新势力车企们,在与特斯拉的竞争中,会给出答案。
建约车评只做有价值的汽车科技报道