“很精彩的设计!”8月20日,特斯拉AI日发布会后,我国计算机博弈专家吴韧发布朋友圈称:“如果Elon(特斯拉CEO:埃隆·马斯克ElonMusk)愿意,或许这是Nvidia最大的竞争者,实际上芯片巨头的座次,可能需要重新排位!”
吴韧说的芯片是于当天活动亮相的D1,该芯片是特斯拉自主研发的神经网络训练芯片,其在mm的芯片面积上,搭载了亿个晶体管,热设计功耗(TDP)为W,FP32精度下的算力峰值达22.6TFLOPS。
性能参数优于目前特斯拉超级计算机使用的英伟达ATensorCoreGPU。后者芯片面积为mm,晶体管数量亿颗,TDPW,FP32峰值算力是19.5TFLOPS。
Δ特斯拉称,自研芯片的浮点运算能力其他厂商
而特斯拉也表示,基于公开数据其自研的芯片在浮点运算能力上领先于其他厂商。
除了芯片以外,特斯拉当天还公布了纯视觉方案FSD的进展、神经网络自动驾驶训练,以及Dojo超级计算机等。
作为一场以“招聘”为目标的发布会,特斯拉实实在在地拿出了人工智能领域的“法宝们”。
01
ExaPOD算力足以模拟人脑
尽管特斯拉并没有像外界以为的那样带来HW4.0芯片,但D1的到来依然给人们很大惊喜。
D1芯片采用分布式结构和7纳米工艺,搭载亿个晶体管、个训练节点,仅内部的电路就长达17.7公里,实现了超强算力和超高带宽。BF16/CFP8格式下的算力达TFLOPS,FP32精度下的算力峰值达22.6TFLOPS,芯片内部带宽为10TBps、外部带宽为5TBps。
规格方面,D1配备了基于四核64位超标量CPU的个训练节点,专为8X8算法设计,支持用于AI训练的各种指令,包括FP32、BFP16、CFP8、INT32、INT16和INT8。
由于从研发伊始,特斯拉就带着“用于组成超算”为前提,因此其“边缘”都是一个速度高达40TB/s的互联连接器。
ΔD1芯片
这也意味着,D1芯片可以直接以“边对边”的形式连接,并由此组成了一个Dojo超级计算机的单个训练模块。后者由25个D1芯片组成。因每个D1芯片之间都是无缝连接在一起,相邻芯片之间的延迟极低,训练模块最大程度上实现了带宽的保留,配合特斯拉自创的高带宽、低延迟的连接器;在不到1立方英尺的体积下,算力高达9PFLOPs(9千万亿次),I/O带宽高达36TB/s。
得益于训练模块的独立运行能力和无限链接能力,由其组成的Dojo超级计算机的性能拓展在理论上无上限。
基于此,特斯拉提出了更大的目标:将使用D1芯片打造的超级计算机集群DojoExaPOD。其由个节点、总共块D1芯片组成,计算单元数超过万(*),在BF16/CFP8精度下的算力达到1.1ExaLOPS,远超目前全球最快的超级计算机富岳,后者算力为44.TFlops。
Δ马斯克回应网友
发布会后,马斯克在推特上回复网友时表示,ExaPOD的运算能力足以模拟人脑。而这仅仅是一个开始,他称下一代Dojo还将得到10倍的性能提升。
02
如何实现纯视觉自动驾驶
耗费如此大的人力、物力、财力,特斯拉要做什么?自动驾驶。
就在几天前,美国国家公路交通安全管理局(NHTSA)宣布对特斯拉的自动辅助驾驶系统Autopilot展开正式调查,涵盖了76.5万辆特斯拉ModelY、ModelX、ModelS和Model3车型。NHTSA表示,在8年1月至年7月期间,特斯拉Autopilot系统已导致11起事故,致使17人受伤、1人死亡。
而这显然不但没有打倒马斯克,反而激发了他冲刺自动驾驶的斗志。
目前自动驾驶行业根据传感器的不同普遍被分为两个派系,一个是以Waymo为首的激光雷达派,另一个就是以特斯拉为代表的纯视觉派。
ΔDojoExaPod
发布会上,特斯拉依然坚定支持纯视觉路线。D1芯片和DojoExaPod超算的推出,即是为纯视觉自动驾驶的实现保驾护航。
特斯拉AI高级总监AndrejKarpathy表示,希望能够打造一个类似动物视觉皮层的神经网络连接,模拟大脑信息输入和输出的过程。“就像光线进入到视网膜当中。我们希望通过摄像头来模拟这个过程。”
特斯拉利用多任务学习HydraNets神经网络架构简化所有的任务架构。其将8个摄像头获取的画面拼接起来,并平衡视频画面的延迟和精准度。通过人工或自动标注车道、车辆、信号灯、障碍物等环境和动静物体,系统会逐帧分析视频画面,了解物体的纵深、速度等信息,再将这些数据交给车队学习。
但是在这个过程中,特斯拉发现了几个问题:这些参数和空间追踪是很难通过C++这个基础架构实现拼接的;有一些空间数据的输出质量不高;不同摄像头获取的物体信息不同,拼合时很难进行整体把握。
为解决上述问题,特斯拉开发了“矢量空间”(VectorSpace)技术,同时兼具了非凸优化算法(Non-convex)、高维度两大优势。该技术可以通过8个摄像头输入的数据为基础绘制3D鸟瞰视图,形成4D的空间和时间标签的“路网”以呈现道路等信息,帮助车辆把握驾驶环境,更精准的寻找最优驾驶路径。
Δ功能部门基础架构
特斯拉在设计其汽车的视觉皮层时,是按照眼睛感知生物视觉的方式进行建模的,通过全车8个摄像头收集数据。
有了海量、精准的视频数据,特斯拉还需要创造一个强大的神经网络,于是自主研发了基于神经网络的训练方式。
Dojo超级计算机的用途即用来训练自动驾驶神经网络,包括通过"无监督学习算法"对新产生的海量数据进行自动标注、对特殊场景的针对性训练等。
一方面,车辆可以通过在行驶过程中进行数据积累和场景积累,用于道路路面情况以及标志物的预测,巩固神经网络性能,进一步巩固神经网络对路况及数据处理的成熟度。
比如,车辆多次经过红绿灯路口,经过深度神经网络学习后,再遇到相关路况时预测更加灵活、准确,最终学会在场景类似但从未去过的路口自动驾驶。
另一方面,特斯拉拥有一支由世界各地人才组成的数据标注团队,规模在0人左右。团队每天对视频数据中的物体在“矢量空间”中进行标注。
特斯拉的标注数据集最初是基于图片的2D标注,但当整个感知架构转向4D后,数据标注也随之过渡到了4D标注。随着标注量的提升,特斯拉还开发了自动标注工具。
尽管如此,依然有一些场景很难实现、标注,因此特斯拉又推出了Autopilot的仿真器。一方面进行准确的感应器模拟;另一方面基于图像的实时现状模拟。
Δ仿真模拟有助于数据处理
同时,特斯拉还开发了“仿真场景技术”,可以模拟现实中不太常见的“边缘场景”用于自动驾驶培训。在仿真场景中,特斯拉工程师可以提供不同的环境以及其他参数(障碍物、碰撞、舒适度等),极大提升训练效率。
由此,特斯拉FSD系统已可以实现每1.5毫秒2次搜索的超高效率。
未来,来自全球超万辆特斯拉的数据将汇聚于“Dojo”,通过其训练深度神经网络,实现自动驾驶算法的迭代,而算法的迭代也让Autopilot更加好用,持续反馈更多的数据给Dojo去分析,从而实现一个正循环,最终实现以纯视觉为基础的完全自动驾驶。
03
“薛定谔的机器人”
正如小米发布会带来“Onemorething”——铁蛋,特斯拉AI日也有彩蛋环节:即TeslaBot,这也是全场唯一由马斯克介绍的部分。
不过,与雷军可以现场与铁蛋互动不同,马斯克的TeslaBot还只存在于PPT中。
资料显示,这款人工智能机器人TeslaBot,是在特斯拉各项技术的加持下产生:Autopilot摄像头组成“双眼”、FSD芯片担当“大脑”、神经网络算法+数据模拟系统+Dojo超级算力组成其“灵魂”。
ΔTeslaBot
在外观上,TeslaBot拥有与人类一样的四肢,全身使用轻量化材料和40个电子机械传动装置。身高约1.73米,体重约56.7公斤;能搬动最多20公斤的重物,单只胳膊的最大承重为4.5公斤;最快行走速度为5英里/小时,约8km/h。
马斯克表示,TeslaBot将利用Dojo超级计算机的训练机制来改进功能,并补充道:“未来劳动力不会短缺,但体力劳动只是一种选择。TeslaBot可以执行一些危险性、重复性、枯燥的任务。”TeslaBot或将在明年推出首个原型机,当然,可能这种机器人会并不会成功。。
TeslaBot只是一个开始。马斯克曾表示,最终会将“Dojo”提供给希望使用它来训练神经网络的其他公司,这意味着,特斯拉会将人工智能应用扩展到自动驾驶之外。
正如马斯克在发布会上所说:从长远来看,人们会将特斯拉视为一家人工智能机器人公司,就像今天被视为汽车或能源公司那样。他称:会进一步在整个人类世界里畅游。
有意思的是,在最后的回答环节,回应“没有兴趣对代码开源”时,马斯克表示,搭建系统成本特别贵,可能不会对AI芯片免费的开源,但如果其他公司想要购买版权的话,欢迎。
如果特斯拉AI芯片真的对外授权,谁会是最焦虑的呢?