乐鱼官方网站

网站首页

产品中心

乐鱼 乐鱼官方 乐鱼官方网站 乐鱼电子官方网站

新闻中心

关于乐鱼官方网站

公司概况 核心优势 核心团队 发展历程

联系乐鱼官方网站

官方微信

官方微博

乐鱼官方网站 > 新闻中心

全球十大AI训练芯片大盘点：华为昇腾910是中国唯一入选

发布时间：2024-02-18 07:17浏览次数：来源于：网络

　　英国一名资深芯片工程师James W. Hanlon，盘点了当前十大AI训练芯片。
　　其中，华为昇腾910是中国芯片厂商唯一入选的芯片，其性能如何，也在这一对比中有了展现。
　　这一芯片于今年8月份正式面世，被称为“史上最大AI芯片”，名为“晶圆级引擎”（Cerebras Wafer Scale Engine，简称WSE）。
　　其最大的特征是将逻辑运算、通讯和存储器集成到单个硅片上，是一种专门用于深度学习的芯片。
　　1、晶体管数量最多的运算芯片：总共包含1.2万亿个晶体管。虽然三星曾造出2万亿个晶体管的芯片，却是用于存储的eUFS。
　　之所以能够有如此亮眼的数据，直接得益于其集成了84个高速互连的芯片，单个芯片在FP32上的峰值性能表现为40Tera FLOPs，芯片功率达15千瓦，与AI集群相当。
　　片上缓存也达到了18GB，是GPU缓存的3000倍；可提供每秒9PB的内存带宽，比GPU快10,000倍。
　　晶片规模集成，并不是一个新的想法，但产量、功率传输和热膨胀相关的问题使其很难商业化。在这些方面，Cerebras都给出了相应的解决办法：
　　1、为了解决缺陷导致良率不高的问题，Cerebras在设计的芯片时候考虑了1~1.5%的冗余，添加了额外的核心，当某个核心出现问题时将其屏蔽不用，因此有杂质不会导致整个芯片报废。
　　2、Cerebras与台积电合作发明了新技术，来处理具有万亿加晶体管芯片的刻蚀和通讯问题。
　　3、在芯片上方安装了一块“冷却板”，使用多个垂直安装的水管直接冷却芯片。
　　Cerebras公司由Sean Lie（首席硬件架构师）、Andrew Feldman（首席执行官）等人于2016年创立。后者曾创建微型服务器公司SeaMicro，并以3.34亿美元的价格出售给AMD。
　　该公司在加州有194名员工，其中包括173名工程师，迄今为止已经从Benchmark等风投机构获得了1.12亿美元的投资全球十大AI训练芯片大盘点：华为昇腾910是中国唯一入选。
　　Google TPU系列芯片正式发布于2016年，第一代芯片TPU v1只用于推理，而且只支持整数运算。
　　通过在PCIe-3之间发送指令来执行矩阵乘法和应用激活函数，从而为主机CPU提供加速，节省了大量的设计和验证时间。其主要数据为：
　　4、芯片面积比例：35%用于内存，24%用于矩阵乘法单元，剩下的41%面积用于逻辑。
　　2017年5月，Google TPU v2发布，改进了TPU v1的浮点运算能力，并增强了其内存容量、带宽以及HBM 集成内存，不仅能够用于推理，也能够用于训练。其单个芯片的数据如下：
　　但关于TPU v3的细节很少，很可能只是对TPU v2一个渐进式改版，性能表现翻倍，增加了HBM2内存使容量和带宽翻倍。其单个芯片的数据如下：
　　Graphcore成立于成立于2016年，不仅备受资本和业界巨头的青睐，还颇受业内大佬的认可。
　　2018年12月，宣布完成2亿美元的D轮融资，估值17亿美元。投资方有宝马、微软等业界巨头，还有著名的风司Sofina、Atomico等。
　　AI巨头Hinton、DeepMind创始人哈萨比斯，都直接表达了赞美。
　　Graphcore IPU是这家公司的明星产品，其架构与大量具有小内存的简单处理器高度并行，通过一个高带宽的“交换”互连连接在一起。
　　其架构在一个大容量同步并行(BSP)模型下运行，程序的执行按照一系列计算和交换阶段进行。同步用于确保所有进程准备好开始交换。
　　抽象，用于排除并发性风险，并且BSP的执行，允许计算和交换阶段充分利用芯片的能源，从而更好地控制功耗。可以通过链接10个IPU间链路来建立更大的IPU芯片系统。其核心数据如下：
　　16nm制程，236亿个晶体管，芯片面积大约为800平方毫米，功耗为150W，PCIe卡为300 W
　　1216个处理器，在FP32累加的情况下，FP16算法峰值达到125 TFLOPs
　　分布在处理器核心之间有300 MB的片上内存，提供45 TBps的总访问带宽
　　其整体的设计，与GPU也有相似之处，尤其是更多的SIMD并行性和HBM2内存。
　　芯片集成了10个100G以太网链路，支持远程直接内存访问(RDMA)。与英伟达的NVLink或OpenCAPI相比，这种数据传输功能允许使用商用网络设备构建大型系统。其核心数据如下：
　　华为昇腾910，同样直接对标英伟达V100，于今年8月份正式商用，号称业内算力最强的AI训练芯片。主打深度学习的训练场景，主要客户面向AI数据科学家和工程师。
　　这是Xeon Phi之后，英特尔再次进军AI训练芯片，历时4年，壕购4家创业公司，花费超过5亿美元，在今年8月份发布。
　　神经网络训练处理器NNP-T中的“T”指Train，也就是说这款芯片用于AI推理，处理器代号为Spring Crest。
　　NNP-T将由英特尔的竞争对手台积电（TSMC）制造，采用16nm FF+工艺。
　　NNP-T有270亿个16nm晶体管，硅片面积680平方毫米，60mmx60mm 2.5D封装，包含24个张量处理器组成的网格。
　　每个张量处理单元都有一个微控制器，用于指导是数学协处理器的运算，还可以通过定制的微控制器指令进行扩展。
　　在算力方面，芯片最高可以达到每秒119万亿次操作（119TOPS），但是英特尔并未透露是在INT8还是INT4上的算力。
　　Turing架构是对Volta架构的升级，于2018年9月发布，但 CUDA 和张量核更少。
　　因此，它的尺寸更小，功率也更低。除了机器学习任务，它还被设计用来执行实时射线追踪。其核心数据为：
　　没有提供OpenHarmony系统可用的驱动。如果OpenHarmony要用
　　的有Authentec、FPC、Synaptics、高通、汇顶、思立微、迈瑞微、芯启航、义隆、费恩格尔
　　”完全达到了设计规格，重要的是，达到规格算力所需功耗仅310W，明显低于设计规格的350W。徐直军表示：
　　2019年全球半导体IP市场总价值达39.4亿美元全球TOP10厂商排名出炉
　　未来8年迈入千亿赛道！发力户储海外市场，移族科技推第三代户外电源M2000
　　iPhone17 Pro将采用台积电2nm芯片！华为小米崛起，苹果下滑！三星和ASML投资建立芯片研发机构/热点科技新闻点
　　带32位MCU和高精度ADC的SoC产品-SD93F系列开发指南（八）
　　#鸿蒙第七届中国硬件创新创客大赛13强好叭科技：国内首个基于openharmon轻鸿蒙手表os发行版
　　【开箱视频】仪器验收需要注意哪些细节？#电子元器件 #电子工程师 #我在现场
　　小哥allegro视频下载，在进行布线的时候，如何设置让走线从焊盘里面出线呢？

下一篇：全球和国产十大AI芯片
上一篇：Hailo-8™模组 26tops

咨询我们

输入您的疑问及需求发送邮箱给我们

相关新闻推荐

英伟达预热“AI盛会”！B100芯片、B 2024-02-24

英伟达首次正式将华为列为主要对手！包括A 2024-02-24

AMD最强AI芯片炸场CES！豪塞146 2024-02-24

全球最强AI芯片来袭！英伟达新一代H20 2024-02-24

Groq推“最快”AI推理芯片号称比英 2024-02-24

目前最好的处理器芯片排行 2024-02-23

简历投递

5465456@168com

商务合作

5465456@168com

媒体垂询

5465456@168com

产品中心: 乐鱼乐鱼官方乐鱼官方网站乐鱼电子官方网站

新闻中心

关于乐鱼官方网站: 公司概况核心优势核心团队发展历程

关注腾讯

微信二维码

微博二维码

Copyright © 2013-2023 乐鱼官网蚩尤人工智能科技有限公司版权所有HTML地图 XML地图备案号：粤ICP备1365689号