乐鱼官方网站

网站首页

产品中心

乐鱼 乐鱼官方 乐鱼官方网站 乐鱼电子官方网站

新闻中心

关于乐鱼官方网站

公司概况 核心优势 核心团队 发展历程

联系乐鱼官方网站

官方微信 官方微博
乐鱼官方网站 > 新闻中心

AI芯片究竟是什么?

发布时间:2024-01-26 14:53浏览次数: 来源于:网络

  特斯拉的自动驾驶FSD芯片中,神经网络加速器(NPU, Neural Processing Unit)也成为面积最大的组件 —— 从分类上,特斯拉FSD芯片属于AI芯片。

  带着这个疑问,小编请教了相关专家、进行了大量调研,才得到一个粗浅的理解:所谓AI芯片就是在传统芯片基础上,针对AI算法进行硬件设计优化的专用芯片,是更加强调「软硬结合」的芯片。

  童年史蒂夫·乔布斯在参观农场时,看到小牛犊在出生几分钟后就能挣扎开始走路,这让他大为震憾:「这不是通过学习获得的技能,而是与生俱来的」、「就像是设计好的,身体与大脑在出生后立刻协同作用」。

  几十年后,在 2007年第一代iPhone发布会上,乔布斯以图灵奖得主、图形用户界面发明人艾伦·凯(Alan Kay)的一句话强调了「软硬结合」思想的重要性:「真正认真对待软件的人应该做自己的硬件」。

  2020年底苹果推出的M1芯片之所以能同时实现狂暴性能与超低功耗,统一内存架构设计和软硬件协同优化功不可没,这正是「软硬结合」思想的集中体现。

  那么,芯片的「软硬结合」到底是指什么?通俗地讲,就是芯片计算架构要针对算法模型的特点来设计,算法模型与编译要根据芯片计算架构进行优化,以实现高性能、低功耗、低延时的设计目标。

  剃头挑子一头热的感情,常常走不到最后。相反,你心中有我,我心中有你,这才是和谐的恋人关系。芯片设计也是如此,软中有硬,硬中有软,「软硬结合」协同优化的芯片,综合性能肯定强于那些「单方面苦苦付出」的芯片。

  「软硬结合」也并不是一个新概念。事实上,在浮点型运算量巨大的图像处理领域,通用型CPU心有余而力不足,而针对这种算法特点「软硬结合」协同设计的GPU,就能实现超高的性能。

  图像处理领域的「软硬结合」 上:CPU串行运算、速度慢 下:GPU并行计算、速度快

  有句俗话叫「大力出奇迹」—— 如果我偏不信邪,软件上把算法模型优化到极高的水平,是不是可以超越「软硬结合」的硬件呢?

  您别说,还真有人这么干过。在AI芯片尚未诞生的2012年,使用GPU做深度学习计算比CPU快40倍。谷歌大脑项目使用CPU做深度学习算法,它集结了世界上最优秀的算法工程师,拼尽全力也只能将40倍的差距缩小到6倍。但这已经是强弩之末了,实在扛不住,谷歌也开始大规模使用GPU。

  后来,谷歌还针对卷积神经网络CNN(Convolutional Neural Networks)存在大量矩阵“乘积累加”(MAC,Multiply Accumulate)运算的计算特点,将GPU的通用运算单元改成MAC专用运算单元,并于2016年通过「软硬结合」设计高度定制化的AI推理芯片TPU,最终以强劲算力支撑AlphaGo击败世界围棋冠军李世石。

  这些在芯片层面「软硬结合」的前沿性技术探索,似乎没中国什么事吗?事实并非如此。这里讲一个小插曲,国内有一家AI芯片公司叫地平线年创立之初就提出研发AI专用芯片,比谷歌正式披露TPU早了近一年。

  当前,AI计算需求也已经从最早的云端数据中心扩展到了自动驾驶领域,特别是特斯拉已经开始使用自有高度定制化的AI推理芯片FSD。截至2019年,全世界已经约有100家组织推出或正在研发AI推理芯片,这个数字到今天已经变得更大。

  近年来,AI算法对芯片算力的要求急剧增长,过去7年间提升了7个数量级。特别是在智能驾驶,从L1、L2所需要的个位数TOPS,急剧上涨到为L4预埋的1000TOPS,短短3年提升了3个数量级。

  传统摩尔定律依靠「提高晶体管数量」、「增加核心数」两种武器来提升CPU算力。

  从1990年到2005年的单核时代,主频就是CPU算力的代名词;2005年到2020年的多核时代,主频的增长遇到瓶颈,CPU又通过增加核心数,以多核架构来提升整体系统的吞吐量。由图可见,受物理制程的限制,CPU算力的增长速度在迅速放缓。

  面临旧摩尔定律已经无法支撑今日AI计算快速增长的算力需求,2020年6月科学杂志MIT学者论文提出了第三种武器「软硬结合」 —— 通过软件、算法、硬件架构的联合优化,来开启「新摩尔时代」。

  如果说「软硬结合」是CPU延续摩尔定律的「续命武器」,那人工智能专用AI芯片可以说自诞生之日就刻下了「软硬结合」的基因 —— CPU是通用芯片,GPU是做通用运算的并行计算芯片,而AI芯片则是针对卷积神经网络CNN计算特点设计的并行计算芯片,能够低延迟、高效率地执行AI算法,擅长应对图像识别、语音识别、自然语言处理等任务。

  从下面三张形象的GIF动画可以看出,针对人工智能常用的卷积神经网络CNN计算特点,从CPU到GPU再到TPU,「软硬结合」水平依次上升,运算性能提升显著。

  卷积神经网络CNN运算的「软硬结合」 上:CPU 中:GPU 下:TPU(AI芯片)

  针对目标场景的差异,逐渐细分出不同的AI专用加速器,以达到更深的「软硬结合」程度。比如,英伟达、谷歌、华为主要面向数据中心设计计算架构,而地平线专注于边缘侧的AI计算。

  数据中心需要处理海量数据,要求高吞吐率和限定时间的响应;另外,云端计算本身限定在虚拟世界,任务相对封闭、定义单纯,所以模型加速就是最核心的负载。

  相较于数据中心场景,自动驾驶的计算需求则会非常不同——自动驾驶处理的是流数据 ,感知数据源源不断的通过各种传感器到达车上,芯片必须对数据进行马上处理,而且延迟越低越好。延迟越低就越能根据周围的情况作出反应,及时刹车并控制车量,来保证安全。

  自动驾驶与数据中心场景不同,导致了芯片架构设计取舍的不同。从设计上看,地平线的征程系列芯片和特斯拉FSD是类似的,是专门为智能驾驶应用设计的。

  聚焦到智能驾驶领域的AI芯片,便需要将「软硬结合」水平再推进一步:从针对CNN计算特点的设计,进化到针对智能驾驶应用场景的设计。

  以这种方式来讲「从场景出发」→「前瞻性算法」→「软硬件协同」的设计理念未免有些笼统AI芯片究竟是什么?,大家可能听得云里雾里,那下面咱们就举一个具体的应用场景实例。

  一般的AI芯片需要先获得完整的图像再开始处理,而贝叶斯则选择输入帧的关键帧实施即时的数据处理。另外,通过时间切片优先调度关键任务进行数据处理,从而可以显著降低延迟几十毫秒甚至上百毫秒。

  大部分应用场景下,节省100毫秒的意义并不大。但是在紧急制动的应用场景下,100毫秒意味着1.7-3.3米的刹车距离,可能会决定一条生命的生与死。基于征程5 实测,8M 单目前视感知结构化输出延迟小于 60 毫秒,这一指标远优于行业,将极大提升驾驶安全性。

  在这个例子中,「从场景出发」是指智能驾驶对低延迟特别敏感,因而在「算法」设计时要考虑即时处理模式、灵活的优先级调度机制,「硬件」上也要配合算法进行相应优化。

  如此一来就贯彻了「场景」→「算法」→「硬件」的设计理念,实现了极致流水压缩的「软硬件协同设计」。

  从CPU → GPU → AI芯片 → 车用AI芯片,「软硬结合」程度依次上升:

  ·GPU → AI芯片:针对卷积神经网络(CNN)的MAC等AI运算进行硬件优化。

下一篇:2020最强终端AI加速芯片Top10排行榜
上一篇:AI未来趋势如何呈现?业界大咖这样说

咨询我们

输入您的疑问及需求发送邮箱给我们