练习时刻下降90%以上国际最大的芯片WSE有望打破

 黑科技大鳄     |      2020-07-07 08:34

新智元报道

来历:IEEE

修正:大明、edein

还记得几个月前问世的世界最大的AI芯片吗?IEEE Spectrum团队最近访问了其制造商Cerebras的工厂,并对CEO和技术团队进行了访谈,CerebrasCEO标明,这款划时代的芯片有望打破AI的核算瓶颈,将操练时间由几周缩短到几小时。戳右边链接上新智元小程序了解更多!

人工智能核算机草创公司Cerebras Systems CEO兼联合创始人Andrew Feldman标明,现在的人工智能只是只是初步。

正如他及其同僚所言,问题在于当今的深度神经网络非常耗时且核算布满,操练非常困难。比方,无人驾驶轿车要辨认道路上遇到的全部重要物体,神经网络需求向其闪现全部物体的许多、许多相关图像。这一进程在数据中心进行,由耗电数十有时甚至数百千瓦的核算机结束,任务时间常常长达数周。

Cerebras的客户抱怨说,运用当下的核算机操练大型神经网络的时间或许长达6周。照这样,一年只能操练6个神经网络。“只需验证更多主见才会发作新主见,” Feldman说。“假设能在2或3个小时内结束[网络操练],就可以检验数千个主见。”

当IEEE Spectrum访问位于美国加州Los Altos的Cerebras总部时,这些客户及一些潜在客户现现已过橙色光缆把他们的操练数据输入4台CS-1核算机。这些64厘米高的机器作业起来,每台消耗20千瓦,宣布的热量通过墙上的一个洞流到硅谷的大街上。

从外面看,CS-1机身并不大,每个机箱大约3/4是冷却系统,余下的1/4则是实在的改造:一台功用强悍的核算机,几乎完全由一整块芯片组成。这块芯片的面积高达46,255平方毫米,是任何一块可以买到的处理器芯片的50 倍。这便是由Cerebras出产的世界最大芯片Wafer Scale Engine ,它有12,000亿个晶体管,400,000个AI可编程内核,18 GB超快速片上存储器和100Petabits /s的结构带宽。

Cerebras的统计数据令人震惊。据称,一个10机架TPU二代集群所耗电量是其5倍,占用空间是其30倍,而功用仅有搭载WSE芯片的核算机的1/3。单块巨型芯片是否实在是AI社区所需,信赖这个答案从本年初步就会清楚起来。美国加州山景城公司LinleyGroup的高级分析师Mike Demler说:“ [神经网络]模型日益凌乱,可以快速操练或再操练确实很重要。”

Feldman说,2015年当Cerebras的创始人们开会时,他们想要打造完全适配当下AI作业场景的核算机,这些作业场景有若干项定义:它们需求快速移动许多数据,它们需求内存接近于处理器内核,并且这些内核不需求处理其他内核正在处理的数据。

这当即给了公司资深的核算机架构师一些启示。首要,他们可以正常的运用不可胜数个专门用于神经网络相关核算的小型内核,而不是更少、更通用的内核;其次,这些内核应该互连在一起,可以快速而低耗的移动数据;终究,全部数据应该在处理器芯片上,而不是在单独的存储芯片上。

在这些内核之间来回移动数据的需求,正是WSE独特性的来历。两个内核之间移动数据最快、能耗最低的方法是将其放在同一硅基片。当数据有必要从一个芯片传输至另一个芯片时,因为距离更长并且传递信号的“电线”有必要更宽并且包装密度更低,然后在速度和功耗上大打折扣。

全部通讯在硅上的驱动力,以及对小内核和本地存储器的盼望,都标明要尽或许出产大芯片,也许是整个硅晶圆那么大。Feldman说,很明显,我们做不到这一点,但是这显然有很大的长处。

数十年,工程师一贯认为晶圆级芯片是一条死路。终究,IBM System/360大型机的首席架构师Gene Amdahl曾在一家名为Trilogy Systems的公司检验并失利了,但它满足令人称奇。但是Lauterbach和Feldman说,任何与Amdahl方法的对比都现已过期。当时Amdahl运用的晶圆标准只需现在的1/10,而晶圆上相关器件的标准则是现在的30倍。

更重要的是,Trilogy无法处理出产芯片时出现的不可避免的差错。假设其他全部条件相同,跟着芯片增大,缺陷的或许性也会增加。假设你的芯片标准接近于一张信纸,那么缺陷在所难免。

但是Lauterbach看到了一种架构处理计划:因为他们针对的作业负载倾向于具有数千个相同的小型内核,因此可以嵌入满足多的冗余内核,这还可以处理1/100的缺陷构成的缺点,并且仍然不失为一块功用弱小的大型芯片。

当然,Cerebras仍然不得不处理许多制造问题,才华打造其容错性的giganto芯片。比方,光刻东西被规划为将其定义特征的样式投射到相对较小的矩形上,并一遍遍重复进行。因为在晶片不同方位浇铸不同样式的高昂本钱和巨大困难,这样现已把打造单一晶圆的许多系统拒之门外。

Cerebras内部:冷却系统占CS-1大部分,WSE芯片位于左后角。

但是WSE无需这样。它就像布满相同芯片的典型晶圆,与你平常制造的相同。最大的应战是把这些伪芯片联接在一起。

芯片制造商在每个芯片周围留下空白硅的细长边沿,称之为划片线。晶圆一般沿着这些线切成小块。Cerebras与台积电协作开发了一种跨划片线建立互连的方法,使每个伪芯片中的内核皆可通讯。

现在,全部通讯和内存在一块硅片上,数据传输可以畅通无阻,然后发作每秒1,000 PB的内核到内核带宽和每秒9 PB的SRAM到内核带宽。Feldman说,这不单单是多,而是带宽4个数量级的进步,因为我们在硅片上。

跨划片线互连并不是需求的仅有发明。制造芯片的硬件有必要进行改善。即使电子规划自动化软件也要进行定制才华在如此大的芯片上作业。Feldman说,每条规则,每个东西,每个制造设备都旨在拾取一块正常大小“巧克力芯片曲奇”,而[我们]要交给的是整个曲奇烤盘;方法的每一步,我们都有必要发明。

他接着说,晶圆级集成在人们视界中消失了40年,但它必定会在某个时分再出现;已然Cerebras现已做到,那扇门或许也会向其他人翻开。“我们我们都认为其他人将寻求与我们协作处理AI以外的问题。”他又说。

2018年,Google、百度及一些学术顶级安排初步拟定基准,容许系统之间进行逐一对应的比较。效果,MLPerf于2018年5月发布了操练基准。

凭仗这些基准,神经网络操练技术在以前几年取得长足进步。Nvidia DGX SuperPOD可在80秒内结束ResNet-50图像分类问题,与之比较,Nvidia DGX-1花费了8个小时,K80花费了25天。

Cerebras没有发布MLPerf效果,以及任何其他可独立逐一核对的效果。相反,他们更倾向于让客户运用自己的神经网络和数据来试用CS-1。

分析师认为,这种做法很常见。“每个公司都根据自身业务开发相关模型,” Moor Insights的AI分析师Karl Freund说。“这是客户仅有关心的作业。”

举个比方,前期的客户阿贡国家实验室的需求很大。最近在操练神经网络以实时辨认不相同的引力波工作时,科学家运用了阿贡实验室耗电兆瓦等级的Theta超级核算机资源的1/4。

把功耗降到仅几千瓦对超算来说似乎是一个中心优势。这是否是一个吸引数据中心的卖点,不幸的是Lauterbach对此标明怀疑。他说:“虽然许多数据中心都在谈节能降耗,但只是口头说说,实际上并不介怀,他们实在想要的是功用。这当然是一个几乎和餐盘差不多大小的处理器芯片所能满足的。”

https://spectrum.ieee.org/semiconductors/processors/cerebrass-giant-chip-will-smash-deep-learnings-speed-barrier

图文直播|新智元小程序技术公开课第一期!

1月6日晚,16本Phthon系列教材作者董付国将在新智元小程序揭秘「怎样编写有“Python味道”的Python代码?」,当天还有机会与大咖在线互动,答疑解惑,现在扫描下方海报二维码可抢占免费预订名额。