据报道，刚刚，新的人工智能公司Cerebras Systems推出有史以来最大的半导体芯片。

Cerebras Wafer Scale Engine拥有1.2万亿个晶体管，这是基本的开关电子开关，是硅芯片的构建模块。1971年英特尔首款4004处理器拥有2,300个晶体管，最近的Advanced Micro Devices处理器拥有320亿个晶体管。

大多数芯片实际上是在12英寸硅晶片上创建的芯片集合，并在芯片工厂中批量处理。但Cerebras Systems芯片是在单个晶圆上互连的单芯片。这些互连设计使其全部保持高速运行，因此万亿个晶体管全部一起工作。

通过这种方式，Cerebras Wafer Scale Engine是有史以来最大的处理器，它专门设计用于处理人工智能应用程序。该公司本周正在加利福尼亚州帕洛阿尔托的斯坦福大学举行的Hot Chips会议上讨论这项设计。

据悉，Cerebras Systems 公司位于加州洛思阿图斯，公司的联合创始人及CEO Andrew Feldman此前曾创立服务器芯片公司SeaMicro，后者在2012年被AMD以3亿3400万美元买下，而此前在这里工作的四位同事Michael James、 Sean Lie,、Jean-Philippe Fricker、Gary Lauterbach与Feldman共同创立了Cerebras。

目前，这家公司已经完成了1亿1200万美金融资，而PitchBook对其估值8亿6000万美金。

事实上，三星已经制造了一个闪存芯片，即eUFS，拥有2万亿个晶体管。但Cerebras芯片专为加工而设计，拥有400,000个核心，42,225平方毫米。它比最大的Nvidia图形处理单元大 56.7倍，该单元的尺寸为815平方毫米和211亿个晶体管。

WSE还包含3,000倍的高速片上存储器，并且具有10,000倍的存储器带宽。

该芯片来自Andrew Feldman领导的团队，后者曾创建微型服务器公司SeaMicro，并以3.34亿美元的价格出售给Advanced Micro Devices。Cerebras Systems的联合创始人兼首席硬件架构师Sean Lie将概述热芯片上的Cerebras Wafer Scale Engine。加利福尼亚州Los Altos公司拥有194名员工。

芯片尺寸在AI中非常重要，因为大芯片可以更快地处理信息，在更短的时间内产生答案。减少洞察时间或“培训时间”，使研究人员能够测试更多想法，使用更多数据并解决新问题。谷歌，Facebook，OpenAI，腾讯，百度和许多其他人认为，今天人工智能的基本限制是培训模型需要很长时间。因此，缩短培训时间消除了整个行业进步的主要瓶颈。

当然，芯片制造商通常不会制造如此大的芯片。在单个晶片上，在制造过程中通常会发生一些杂质。如果一种杂质会导致芯片发生故障，那么晶圆上的一些杂质就会击出一些芯片。实际制造产量仅占实际工作芯片的百分比。如果晶圆上只有一个芯片，它有杂质的几率是100%，杂质会使芯片失效。但Cerebras设计的芯片是冗余的，因此一种杂质不会禁用整个芯片。

“脑风云WSE”专为人工智能设计而设计，包含了基础创新，通过解决限制芯片尺寸的数十年的技术挑战 - 例如交叉光罩连接，良率，功率输送，推动了最先进技术的发展。和包装，“在一份声明中共同创立Cerebras Systems并担任首席执行官的费尔德曼说。“每个架构决策都是为了优化AI工作的性能。结果是，Cerebras WSE根据工作量提供了数百或数千倍的现有解决方案的性能，只需很小的功耗和空间。“

通过加速神经网络训练的所有元素来实现这些性能提升。神经网络是多级计算反馈回路。较快的输入在循环中移动，循环学习的速度越快，或“训练”。通过循环更快地移动输入的方法是加速循环内的计算和通信。

Linley Group首席分析师Linley Gwennap在一份声明中说：“Cerebras凭借其晶圆级技术实现了巨大的飞跃，在单片硅上实现了比任何人想象的更多的处理性能。” “为了实现这一壮举，该公司已经解决了一系列恶性工程挑战，这些挑战几十年来阻碍了该行业，包括实施高速芯片到芯片通信，解决制造缺陷，封装如此大的芯片，以及提供高成本 - 密度电源和冷却。通过将各种学科的顶级工程师聚集在一起，Cerebras在短短几年内创造了新技术并交付了一个产品，这是一项令人印象深刻的成就。“

芯片面积比最大的图形处理单元多56.7倍，Cerebras WSE提供更多内核进行计算，更多内存靠近内核，因此内核可以高效运行。由于这些大量的内核和内存位于单个芯片上，因此所有通信都保留在芯片上，这意味着它的低延迟通信带宽是巨大的，因此内核组可以以最高效率进行协作。

Cerebras WSE中的46,225平方毫米的硅包含400,000个AI优化，无缓存，无开销的计算内核和18千兆字节的本地，分布式，超高速SRAM内存，作为内存层次结构的唯一级别。内存带宽为每秒9 PB。这些内核通过细粒度，全硬件，片上网状连接通信网络连接在一起，可提供每秒100 petabits的总带宽。更多内核，更多本地内存和低延迟高带宽结构共同构成了加速AI工作的最佳架构。

“虽然AI在一般意义上使用，但没有两个数据集或AI任务是相同的。新的人工智能工作负载不断涌现，数据集继续增长，“Tirias Research首席分析师兼创始人Jim McGregor在一份声明中表示。“随着人工智能的发展，硅和平台解决方案也在不断发展。Cerebras WSE是半导体和平台设计领域令人惊叹的工程成就，可在单晶圆级解决方案中提供超级计算机的计算，高性能存储器和带宽。

这些公司表示，如果没有多年与全球最大的半导体代工厂或合约制造商台积电及先进工艺技术的领导者密切合作，那么Cerebras WSE的创纪录成就是不可能实现的。WSE由台积电以其先进的16纳米工艺技术制造。

台积电运营高级副总裁JK Wang表示：“我们对Cerebras Systems与Cerebras Wafer Scale Engine的制造合作非常满意，这是晶圆级开发的行业里程碑。” “台积电的卓越制造和对质量的严格关注使我们能够满足严格的缺陷密度要求，以支持Cerebras创新设计前所未有的芯片尺寸。”

WSE包含400,000个AI优化的计算核心。被称为稀疏线性代数核心的SLAC，计算核心灵活，可编程，并针对支持所有神经网络计算的稀疏线性代数进行了优化。SLAC的可编程性确保内核可以在不断变化的机器学习领域中运行所有神经网络算法。

由于稀疏线性代数核心针对神经网络计算基元进行了优化，因此它们可实现业界最佳利用率 - 通常是图形处理单元的三倍或四倍。此外，WSE核心包括Cerebras发明的稀疏性收集技术，以加速稀疏工作负载(包含零的工作负载)的计算性能，如深度学习。

零在深度学习计算中很普遍。通常，要相乘的向量和矩阵中的大多数元素都是零。然而，乘以零是浪费硅，功率和时间，因为没有新的信息。

因为图形处理单元和张量处理单元是密集的执行引擎 - 设计为永不遇到零的引擎 - 它们即使在零时也会乘以每个元素。当50-98%的数据为零时，如深度学习中的情况一样，大多数乘法都被浪费了。想象一下，当你的大部分步骤没有让你走向终点时，试图快速前进。由于Cerebras稀疏线性代数核不会乘以零，所有零数据都会被滤除，并且可以在硬件中跳过，从而可以在其位置上完成有用的工作。

内存是每个计算机体系结构的关键组件。更接近计算的内存转换为更快的计算，更低的延迟和更好的数据移动功效。高性能深度学习需要大量计算，并且频繁访问数据。这需要计算核心和存储器之间的紧密接近，这在图形处理单元中并非如此，其中绝大多数存储器是缓慢且远离的(片外)。

Cerebras Wafer Scale Engine包含更多内核，具有比迄今为止任何芯片更多的本地内存，并且在一个时钟周期内可以通过其核心访问18 GB的片上内存。WSE上的核心本地内存集合可提供每秒9 PB的内存带宽 - 比领先的图形处理单元多3,000倍的片上内存和10,000倍的内存带宽。

Swarm通信结构是WSE上使用的处理器间通信结构，它以传统通信技术的功耗的一小部分实现突破性带宽和低延迟。Swarm提供低延迟，高带宽的2D网格，可连接WSE上的所有400,000个核心，每秒带宽为100 petabits。Swarm支持单字活动消息，可以通过接收内核来处理，而无需任何软件开销。

路由，可靠的消息传递和同步在硬件中处理。消息会自动激活每个到达消息的应用程序处理程序 Swarm为每个神经网络提供独特的优化通信路径。软件根据正在运行的特定用户定义的神经网络的结构，配置通过400,000个核心的最佳通信路径以连接处理器。

典型消息遍历一个具有纳秒延迟的硬件链路。Cerebras WSE的总带宽为每秒100 petabits。不需要诸如TCP / IP和MPI之类的通信软件，因此避免了它们的性能损失。该架构中的通信能量成本远低于每比特1焦耳，这比图形处理单元低近两个数量级。通过结合大量带宽和极低的延迟，Swarm通信结构使Cerebras WSE能够比任何当前可用的解决方案更快地学习。

(关键字：半导体)

重磅!有史以来最大的半导体芯片诞生!