2019年人工智能芯片产业深入研究报告

文摘:经过60多年的风风雨雨,终于迎来了第三次暴发。第三次爆炸的核心是算法的出现,但它背后的支持是数据和计算能力。

经过60多年的风风雨雨,终于迎来了第三次爆发。第三次爆炸的核心是算法的出现,但它背后的支持是数据和计算能力。对于整个行业来说,在算法、数据和计算能力三个基本要素中,获取和处理数据的难度,特别是海量数据的难度正在下降。算法也在模型的基础上不断优化。数据和深度算法的统一能否实现跨越式发展,已成为市场关注的焦点。

智能芯片

算法的性能要求主要体现在三个方面:一是计算单元与存储单元之间海量数据的高速性要求。这不仅需要一个强大的高速缓存和片上内存,还需要计算和内存单元之间的大带宽。2。对专用计算能力的高需求。卷积、残差网络、全连接等大量的特殊计算需要处理。提高运行速度,降低能耗。第三,海量数据本身的处理也提出了新的要求,特别是非结构化数据的增加,给传统的结构带来了很大的压力。

通用CPU在中国可用,但效率低下。例如,在图像处理领域,主要使用CNN(卷积)技术。在自然语言识别和语音处理领域,RNN(circle)主要用于语音识别。虽然这两种算法有很大的不同,但它们本质上是向量和矩阵运算,主要是加法和乘法,辅助一些除法和索引。操作。传统的CPU可以用来做以上的操作,但是CPU也有大量的计算逻辑控制单元,这些单元没有在计算中使用,导致CPU在计算中的低成本性能。

由于CPU在计算上的弱点,它为大规模并行计算和加速计算留下了市场空间。从广义上讲,面向计算可以称为基于传统体系结构的GPU、FPGA和ASIC(专用),也可以称为类脑、可重构等,目前正在研究中,但还远未投入商业使用。

根据部署位置,可分为云和边缘。云端部署包括公共云、私有云或混合云基础设施,主要用于处理海量数据和大规模计算,也支持语音、图片、视频等非结构化应用的计算和传输。通常,它使用多个处理器并行完成相关任务。要应用于相机、智能、边缘服务器、工业控制设备等多个领域,这种尺寸一般,功耗低,性能要求稍低,一般只需具备一到两种能力即可。

根据任务,可分为训练和推理。培训是指通过大量有标记的数据在平台上学习,形成具有特定功能的模型;推理是指利用培训后的模型输入新的数据,通过计算得出各种结论。训练需要较高的计算能力和精度,也需要有一定的通用性,以适应各种算法的训练;推理更注重综合能力,包括能耗、延时、成本等因素S.


图形处理单元(GPU)是一种由大量核心组成的大规模并行计算体系结构,设计用于同时处理多个任务。正是由于它具有良好的矩阵计算能力和并行计算的优点,它才被首次应用于计算中,并在云计算中得到了广泛的应用。超过80%的GPU是ALU,而只有20%的CPU是CPU,因此GPU在大规模并行计算中表现得更好。以英伟达的GPU TitanX为例,该产品所需的培训时间小于CPU的1/10。但是GPU在云培训方面也有不足之处。GPU需要与CPU异构才能通过CPU调用工作,其功耗非常高。同时,当GPU在推理中需要处理单个输入时,并行计算的优点可能没有很好地发挥出来,浪费了更多的资源。

现场可编程门阵列(FPGA)是一种现场可编程门阵列。它集成了大量的基本门电路和存储器。它的灵活性介于CPU、GPU和其他通用处理器和专用ASIC之间。在硬件固定之前,它允许用户灵活地使用它进行编程。FPGA在制造时是万能的。用户可以根据自己的需要,用硬件描述语言设计FPGA的硬件电路。每次烧录完成后,FPGA内部的硬件电路都有一定的连接方式和功能。输入数据可以依次通过每个门电路获得。输出结果。

(1)计算能力强。由于数据和任务的并行计算可以在FPGA领域同时进行,因此在处理特定应用时效果更为明显。对于一个特定的操作,可以通过对FPGA领域中的电路进行编辑和重组来生成特殊的电路,并且可以大大缩短计算周期。通过销售引入的FPGA产品的吞吐量和延时均优于CPU和GPU产品。

(2)用电优势明显。FPGA的能耗比是CPU的10倍以上,是GPU的3倍以上。由于在FPGA中没有指令提取和指令解码操作,因此没有这样的功耗;在复杂指令集(x86)CPU中,解码仅占总能耗的50%左右,在GPU中,手指提取和解码也将消耗能耗的10%到20%。

(3)弹性好。采用通用处理器或ASIC难以实现的较低的硬件控制操作技术,利用FPGA可以很容易地实现,为算法的实现和优化留下了更多的空间。

(4)成本比专用集成电路有一定的优势。FPGA的一次性成本远低于ASIC。当需求量不大,算法不稳定时,采用可重构FPGA实现半定制是最佳选择。

由于这些优点,FPGA在云计算和终端推理中得到了广泛的应用。包括亚马逊和微软在内的国外已经推出了基于FPGA的服务,而包括腾讯云和阿里云在内的国内公司已经在2017年推出了基于FPGA的服务。百度大脑也使用了FPGA。

在市场结构上,全球FPGA长期以来一直被四大巨头垄断:Xilinx、Intel、Lattice和Microsemi。其中,销售和英特尔占市场的90%左右,销售市场占有率超过50%。国内厂商刚刚起步,差距很大。


ASIC不同于GPU和FPGA。GPU和FPGA不仅是一种技术路线,也是一种真正的产品。专用集成电路只是一种技术路线或方案,其最终形式和功能是多种多样的。近年来,越来越多的公司开始采用ASIC来加速算法的实现。最突出的ASIC是Google的TPU(张量处理)。

TPU由谷歌设计,旨在提高计算能力,同时显著降低功耗。2016年5月正式发布。TPU之所以被称为专用,是因为它是专门为TensorFlow等平台构建的,它可以同时处理更复杂、更强大的模型。谷歌的测试表明,平均TPU比当时的GPU或CPU快15-30倍,性能功耗比(tfops/watt)大约高30-80倍。

然而,一旦ASIC被制造出来,它就不能被修改,研发周期也更长,商业应用的风险也更高。目前,只有大企业或大企业支持的团队才愿意投资于其全面发展。在国外,谷歌占主导地位,国内寒武纪企业开发的Campicon系列处理器也受到广泛关注。其中,华为海思的麒麟980处理器所携带的CPU是寒武纪处理器IP。

GPU将在短期内继续成为领导者。GPU作为市场上最成熟、应用最广泛的通用计算模型,具有很大的应用潜力。凭借强大的计算能力和高通用性,GPU将继续占据主要市场份额。

目前,两个主要的GPU制造商正在升级其架构并推出新产品。性能的提高是显而易见的,未来的应用场景将更加丰富。因维达凭借矩阵运算的优势,率先引入帕斯卡GPU进行优化,针对GPU的短板,于2018年引入Volta架构,完成了加速运算的闭环结构。AMD计划在2018年推出Radeon Instinct系列产品,该系列产品将在未来应用并进行过度计算。设施。我们预计,在效率和场景应用需求大幅提高之前,GPU作为大规模计算能力支持的支柱仍然具有巨大的优势。

FPGA是短期市场的一个重要增长点。FPGA最大的优点在于可编程性带来的配置灵活性。在当今技术和应用飞速变化的时代,它具有明显的实用性。企业可以通过FPGA有效降低研发调试成本,提高市场响应能力,推出差异化产品。在专业发展还不够完善之前,FPGA是最好的过渡产品,正因为如此,技术巨头们已经搭建了FPGA的平台。随着FPGA开发人员生态的逐步丰富和可应用编程语言的增加,FPGA的应用将更加广泛。因此,在短期内,作为一种兼顾效率和灵活性的硬件选择,FPGA仍将是一个热点。

GPU的主要发展方向是先进的复杂算法和通用平台。(1)高端复杂算法的实现方向。由于GPU本身具有高性能计算的优点,在指令的逻辑控制上可以做得更复杂,在复杂计算的应用中具有很大的优势。(2)一般平台定位。由于GPU具有通用性和高性能,可以应用于大型平台,有效地满足各种呼叫需求。


从长远来看,ASIC是非常适合的,特别是对于将来将要出现的应用场景的定制需求。ASIC的潜力在于,通过嵌入算法,期望算法供应商能够深入该领域,从而进入诸如等场景。由于它的高性能和低消耗特性,它可以根据许多人来定制,以应付不同的场景。未来,培训和推理市场将有更大的空间。

近年来,随着全球工业的快速增长,需求量大幅度增加。根据Gartner的最新数据,2018年全球市场达到42.7亿美元。未来几年,世界主要企业、巨头和初创企业将在这个市场上竞争,预计到2023年,全球市场规模将达到323亿美元。未来五年(2019-2023年)的平均增长率约为50%。其中,个人终端是增长的焦点。

相比之下,中金研究部发布的一组数据更为乐观。数据显示,2017年整体市场规模达到62.7亿美元,其中云培训20.2亿美元,云推理3.4亿美元,边缘计算39.1亿美元。到2022年,市场总规模将达到596.2亿美元,复合年增长率为57%。其中,云培训172.1亿美元,复合年增长率53.5%,云推理71.9亿美元,复合年增长率84.1%,边缘计算352.2亿美元,复合年增长率55.2%。

国内产业发展还处于起步阶段。长期以来,我国在CPU、GPU和DSP的设计上一直处于领先地位。它们大多依靠国外的IP核进行设计,缺乏自主创新能力。但我们也看到,国内产业的快速发展为国内产业创造了改道超车的机会。由于国内外在生态方面没有垄断,国内设计企业,特别是特殊设计企业,仍处于与国外竞争对手同等的起跑线上。

目前,国内市场正蓬勃发展。应用广泛分布在证券、商品推荐、消费等诸多领域,形成了地平线、深科、寒武系、云之胜、云天飞等众多企业。我们相信,未来,随着国内市场的快速发展和生态建设的不断完善,国内企业将有更大的发展空间,未来五年市场规模增长率将超过全球平均水平。

它是培训应用程序最重要的场景,主要涉及GPU和ASIC。如上所述,GPU在云培训中得到了广泛的应用。目前,随着英伟达GPU的使用,世界主流硬件平台正在加速发展,AMD也积极参与其中。亚马逊网络服务公司(Amazon Network Services)的AWS EC2、谷歌云引擎(Google Cloud Engine)、IBM Softlayer、Hetzner、Paperspace、Leader GPU、Aliyun、Ping An Yun等计算平台均采用英达的GPU产品提供算法培训服务。

在云推理市场中,由于其应用越来越紧密,市场对响应时间的关注度越来越高,需要更详细的信息。除了主流的CPU GPU异构性之外,它还可以通过CPU FPGA/ASIC实现异构性。目前,英伟达在该市场仍保持领先地位。主要原因是:GPU强大的并行计算能力(与CPU相比),通用性和成熟的开发环境。然而,GPU并不是一个完美的解决方案,它有着明显的缺点,如能耗高、价格高。


IDC和Gartner的数据还显示,从2016年到2020年,全球服务器和市场规模将继续高速增长。与此同时,GPU在全球云计算中的市场份额将继续下降。预计到2022年,云培训GPU比例将降至60%,云推理GPU比例仅为30%。。

经过近10年的高速增长,市场已趋于饱和,出货量增长率已接近零,行业已逐步转向股市。近年来,国内多家厂家在产品质量上逐步达到了第一梯队水平,进一步加剧了市场竞争。为了实现差异化竞争,各厂商通过在SOC中添加引擎、部署现有计算单元来实现计算,或直接加入协处理器来扩大功能开发,以实现低功耗下功能的高效运行。

随着未来竞争的进一步加剧,以及产量的增加带来的成本降低,预计将进一步渗透到具有广阔市场空间的中型飞机市场。移动市场不仅是智能的,也是潜在的市场:智能手镯/手表/眼镜等城市的图像和语音能力可能会带来未来方式的变化,并进一步增强显示屏和照相机的功能,这可能会改变未来的移动产品。

过去,云计算推理任务的网络带宽延迟瓶颈严重影响了用户体验。CPU适用于逻辑操作,但不适用于并行操作。目前,增加协处理器或专用加速单元来执行SOC中的任务是很流行的。以智能为代表的移动终端是一个多融合的综合数据处理平台,需要多功能、多任务的处理。由于依靠驱动,受仓库大小和能量密度的限制,本设计在追求动力的同时对功耗有严格的限制。它可以开发专用的专用集成电路,也可以使用低功耗的DSP作为处理器。

目前市场上存在以下情况:1)应用场景,功能有限;2)厂商一般向SOC工厂提供IP,收取许可费,需要-IP才能很好地匹配整个SOC,而公司缺乏与SOC厂商的合作经验。传统的SOC制造商和IP制造商正在开发自己的加速器,传统的IP巨头可以。通过IP包销售推广ITS-IP产品。相比之下,在成本、功能、产品线和匹配度不占主导地位的情况下,新制造商很难在这一领域生存下来。新来者应加强自身优势,深化与厂商的功能开发合作。

汽车自主运行所需的摄像机、雷达、雷达等部件数量庞大,每秒钟都会产生大量的数据,这就需要很高的计算能力。然而,由于时间的延迟和可靠性,车辆控制的计算不再依赖于云计算,因此具有高计算能力和快速响应的车辆侧推理是必不可少的。。

目前,三种主要的技术路线是基于GPU、FPGA和ASIC。然而,由于算法仍在快速变化和发展,大部分的解决方案都采用了GPU的FPGA。在未来,当算法稳定时,ASIC将成为主流。


目前,控制系统是一种分布式的电子控制单元体系结构。不同的信息娱乐、车身、车辆运动和动力总成系统及其细分功能由不同的独立ECU单元独立控制。一些高端机型上有100多个ECU。未来,随着L3或更高级别时代的到来,车辆数量和生成的数据量将大幅增加。分布式系统很难满足一系列操作需求,如大数据和多数据的有效融合,以及基于所有数据的车辆控制决策。为满足上述功能需求,系统将从需要向域控制器(DCU)和多域控制器(MDC)的集中化方向发展。未来控制系统将进一步向集中化、软硬件解耦和平台化方向发展,数据将由统一的超计算平台进行处理、融合和最终确定。实现高级功能。

随着视觉技术在视觉领域的应用,基于视觉技术的方案逐渐成为可能,需要加入传统的驱动计算机平台进行视觉算法处理。计算单元的设计需要考虑计算能力和功耗等问题。为了优化硬件资源,通常采用异构计算平台设计和CPUXPU(XPU包括:DSP/GPU/FPGA/ASIC)。其中,DSP可用于图像特征提取任务,GPU/FPGA/ASIC等计算单元可用于目标识别和跟踪。任务等,而CPU将用于定位、决策等逻辑操作任务。

目前,最典型的产品有英伟达的驱动PX系列和后续的Xavier、Pegasus等。除了硬件计算平台外,英威达还为客户提供支持平台、开放式上层布局和定制模块,使客户能够根据自己的需要进行重新开发。它还为客户提供感知、地图和驾驶策略解决方案。目前,其产品已被TIER1、S制造商和ZF、博世、奥迪、奔驰、特斯拉等多家公司用作处理器解决方案。

在所有的边缘计算场景中,计算设计是最困难的,主要体现在以下几个方面:1)计算要求高,L3级及以上需要复杂的冗余类型,包括:6-12单目摄像机,3-12毫米波雷达,5雷达A等(不同的方案侧重于不同的配置),结果。数据量非常大(估计L5级别每天可以产生4000 GB的数据)。当车辆高速行驶时,系统需要能够快速处理数据。2)平台也采用电力供电,对计算单元的功耗要求较高。早期计算平台的功耗和产热量也很大,系统的续航力也很大。稳定性印象很强;3)难以满足ASIL-D车辆限界的设计标准,使所需的CPU达到ASIL-D的设计标准。

目前,市场还处于发展初期,市场环境还不够成熟。然而,以英伟达、英特尔(Mobileye、Altera)等技术巨头为代表的制造商在这一领域的相关硬件产品和支持技术的开发上投入了巨资。各公司应加强与S、TIER1或行业联盟的合作,为其提供一套完整的工具链解决方案。


英特尔进入市场较晚,但通过一系列大收购确立了其在市场上的领先地位。2016年,该公司投资167亿美元收购了领先的FPGA公司Altera,并于2017年3月以153亿美元的高价收购了以色列ADAS公司Mobileye。凭借其Eyeq系列,该公司占据了全球ADAS市场的70%左右,为英特尔进入市场创造了条件。收购后,英特尔形成了完整的云到端计算解决方案,Intel Active/Super Mobileye Eyeq Altera FPGA。在英特尔收购Mobileye之后,后者也直接推出了Eyeq5,支持L4-L5,预计将在2020年生产。

英维达在比赛中没有失利。英维达于2015年推出了世界上第一款车载超级驱动PX,2016年推出了驱动PX2,2018年推出了新一代超级驱动Xavier。同年,基于双驱Xavier出租车业务的Drive PX Pegasu计算平台上线。在CES 2019年,英伟达推出了世界上第一个商用二级系统,英伟达驱动自动驾驶仪。驱动自动驾驶仪的核心是Xavier系统级。这台每秒能处理30万亿次的处理器已经投入生产。

市场是世界上和中国最确定和最大的市场。尤其是图像识别和视频处理技术正在全面影响着整个行业。其中,产品中需要摄像机、交换机、工控机(网络摄像机)、硬盘录像机、服务器等设备,这也决定了系统的总体功能、技术指标、能耗和成本。其中,四种监测类型(ISP、D-SOC、IPC-SOC、N-SOC)最为关注。

ISP(图像信号处理)主要负责处理前端摄像机采集的原始图像信号;D(数字录像机)SOC主要用于模拟音频和视频的数字化、编码、压缩和存储;IPC(IP摄像机、IP摄像机)SOC通常是集成的。处理。处理器(CPU)、图像信号处理(ISP)模块、视频音频编码模块、网络接口模块等,具有入侵检测、数字统计、车辆逆行、丢包检测等简单视频分析功能;N(网络视频录像机、网络硬盘视频录波器)SOC主要用于视频数据分析。存储,功能相对单一,但由于与工控机配合使用较多,市场增长较快。

通常,视频监控模拟摄像机的核心部件包括图像和ISP。视频监控网络摄像机的核心部件包括图像和工控机SOC。从国内来看,未来国内视频监控行业将继续以12%-15%的水平增长。网络监控设备增长较快,对相关产品的需求非常旺盛。


从产业发展趋势来看,随着河河的快速登陆,云缘的结合将是产业发展的最大趋势。国内企业在云缘方面预计很难突破,但边缘方面,特别是视频处理方面,仍有很大潜力。国内替代将加速。然而,我们可以看到,要实现大规模的野外快速着陆还有很长的路要走。除了耗电量和计算限制外,工程难度也是困扰行业的一个重要因素,特别是在这个产业链长且高度分散的行业中。新技术的落地需要长期的积累和打磨,同时需要人力资源的持续投入。

近年来,它也成为一个重要的登陆场。在技术应用方面,90%的人类信息输出是通过语音,80%是通过视觉,智能语音交互技术是该领域应用最广泛的技术。近年来,为了看到语音交互技术和深度集成的潜力,谷歌、苹果和微软将其作为该领域的重要切入点,并发布了许多软件和硬件平台,如亚马逊的智能扬声器设备。国内领先的智能语音企业大迅飞科技较早进入这一领域。联合房地产公司推出了莫菲硬件平台,将电视、灯光等产品智能集成到相关平台中。

如今,无论是在智能扬声器或其他设备中,智能功能都在云端实现。然而,在云端存在着语音交互延迟的问题,由于网络的需求,限制了设备的使用空间,同时也带来了数据和隐私的危机。为了使设备的使用不受限制,用户体验更好,端到端的智能化已成为一种趋势。语音也进入了端到端市场。国内主要的语音技术公司,依靠自身在,,语音交互设计等方面的技术积累,已经开始向语音集成转型,提供语音交互解决方案,包括语音集成和语音交互解决方案。云私密的声音,出去问问题,演讲和韩流。

为了实现离线语音识别,市场主流语音通常有一个针对其进行优化的内置深度加速方案。随着算法的改进,一些企业的能力得到了迅速的提高,特别是在远场识别、语音分析和语义理解方面。2018年5月,云之声推出了“燕子”,并开发了多种适应场景的方式。目前,公司的产品已被广泛采用这种方式。语音模块问答核心mobvoia1于2018年推出;rokid也于2018年发布了voice kamino18;语音飞行员使用语音识别技术。2019年初,推出了基于双DSP架构的专用语音处理设备TH1520。具有完善的语音交互功能,可实现语音处理、语音广播等功能。

由于语音市场过于分散,企业需要根据场景和业务模式进行产品设计,这是对一般企业传统业务模式的颠覆,使得2018年之前很少有大企业进入该领域,也为国内语音企业提供了一个要实现的更大空间。对于算法公司来说,通过进入市场,然后直接面对客户和应用场景,通过解决方案,通过实际的数据培训和优化算法。

它是该行业最早的落地形式,也是当前和未来的重要应用方向。主要包括两种制造环境和非制造环境。主要用于工业领域的多关节机械手或多自由度机械手。它们是各种各样的进步,除了那些用于不团结和为人类服务的进步。


尤其是国内产业规模的快速扩张,将极大地促进国内相关智能产业的发展。它由四个装置组成:控制、传感、驱动和电源。控制装置是大脑,核心是大脑。高通、英特尔和英伟达等外国制造商正在积极部署这一领域。国内企业正处于追赶状态。相关企业包括瑞新威、珠海全知和火炬部队。

从上游到下游,产业链可分为设计(EDA)、设备、材料(晶圆和晶圆)、集成电路设计、包装等。

无晶圆厂半导体和IDM制造商负责设计工作。IDM制造商是指将设计、制造、包装、销售等全过程整合起来的制造商。一般来说,他们是一些大型科技公司。无晶圆厂半导体制造商比IDM小,一般只负责设计工作。

无晶圆厂铸造的出现,主要是由于工艺技术的不断发展,工艺研发成本和生产线升级成本的急剧增加,使得一般厂家难以承担成本。铸造厂统一精简无晶圆厂和IDM外包订单,形成规模化生产优势,确保盈利。同时,不断开发新的工艺技术是摩尔定律的主要推动者。目前,在产业链上,中国的上游、设备、高端原材料与世界一线制造商之间存在较大差距。在包装行业,中国拥有长店、华天、通福威等十大行业企业。今年,以海思为代表的一批优秀企业在集成电路设计领域逐步崛起。

行业主要有两种业务模式:IP授权和流媒体。在IP授权模式下,IP设计公司将其设计的CPU、GPU、DSP、NPU等功能单元授权给华为和西麒麟970、980等其他IC设计公司,获得了寒武纪NPU的IP授权。被授权方将向被授权方支付获得知识产权的授权费,并在最终产品销售中按最终销售价格的1%~3%向被授权方支付使用费。授权费包括知识产权开发成本,版税是知识产权设计公司的利润。但就像市场一样,高质量的IP资源往往集中在技术巨头手中。拥有单一或少量知识产权的公司往往会因缺乏知识产权竞争力或难以提供全面的竞争解决方案而被收购或退出市场。

虽然流式生产模式的前期投资较大,但成功的产品将使公司盈利。一般来说,产品的定价原则是8:20,即硬件成本:最终产品价格=8:20。根据制造商对市场的声音,这个比率可能会上下波动,因此成功销售的毛利应该超过60%。然而,公司能否最终实现盈利,仍需进一步从毛利中扣除研发前成本。

总体设计和制造过程包括:1)IC设计公司进行架构设计,2)将完成的图纸提交给铸造厂进行流式处理,3)裸板将由OSAT制造商包装,4)产品销售。研发成本主要包括:研发团队人力成本、EDA和IP许可成本以及其他场地租金、水电费等。


在IP许可和流式生产两种业务模式中,IP许可不涉及制造业,只需考虑研发成本,资金占用风险相对较低。除了以前的研发投资,流媒体还需要向工厂支付巨额费用,工厂占用大量资金,需要销售达到一定水平,才能分享前期的巨额投资,实现盈利。如果流媒体出现故障(即流媒体不满足设计预期性能指标)或市场推广失败,设计工厂将失败。企业早期需要承担巨大的研发、制造投资和成本损失。单位硬件成本主要包括掩模、包装、测试和晶圆成本,受工艺技术、产量、面积等诸多因素的影响。

计算了16nm工艺下不同生产区域的单位成本。由此可见,单位硬件成本随着面积和产量的增加而逐渐降低。因此,一个产品能否被广泛的市场所认可,并具有较长的产品生命周期,实现产品的销售和生产规模,对企业的损益状况有着重要的影响。

自2012年以来,英维达已将其GPU产品应用于并行计算应用。人们已经意识到它的巨大潜力。传统的行业巨头、技术巨头和许多团队都参与了这一领域的产品开发。国内公司大多在15年后成立。自2017年以来,大量计算产品相继发布,产品逐步落地。

传统巨头和技术巨头也在布局领域。除了自主研发外,他们还通过收购基于财务优势的优质资产和团队,加快了业务发展。英特尔等典型代表大量收购了包括Altera、Nervana、Movidius和Mobileye在内的多家企业,阿里巴巴也这样做了。通过开发连续和采集布局。

2015-2017年,国内企业大量成立,2018年新企业减少。在资金方面,虽然行业内投资事件较2017年同期增长32%,但行业总投资额大幅下降,但2018年龙头企业继续走红,不少企业创造了新的估值高点。

近年来,各种力量都在发挥作用。参与者包括传统设计、IT制造商、技术公司和初创企业。产品涵盖CPU、GPU、FPGA、ASIC等。在2018年Compass Intelligence发布的芯片组指数TOP24中,前十名仍然是欧洲、美国、韩国和日本企业。华为赫斯、联德、想象(2017年被中国资本收购)、寒武系、地平线等国内企业入围,其中华为赫斯排名12。寒武纪排名23,地平线排名24。

设计企业仍然是当前市场的主力军,包括英伟达、英特尔、AMD、高通、三星、恩智浦、博通、华为赫斯、Unifax、Marvell(Happy)、Salings等,另外还有M家公司不直接参与设计,只做IP授权。其中,英威达和英特尔的竞争力最强。


2016年,随着全球发展的加速,英伟达迅速推出了第一款专为优化设计的帕斯卡GPU。2017年,Nvidia推出了新的GPU架构Volta,其性能是Pascal的五倍,并推出了推理加速器Tensorrt 3。到目前为止,英维达已经完成了计算能力和建筑平台的部署,自然成为这一热潮的最大受益者和领导者。公司的战略方向包括和。

特斯拉系列是专门为加速GPU算法的设计而设计的,DGX主要为研发人员工作站或超计算系统而设计。2018年,公司两款产品的收入均增长了52%,其中特斯拉V100的强劲销售是主要收入来源。

方面。英维达针对此类情况推出了Tegra处理器,并提供了相关工具包。2018年,因维达基于Tegra处理器推出了Nvidia Drive自动驾驶仪2级,并获得了丰田和戴姆勒的订单。同时,2018年,公司积极推进赛维尔生产。

2019年3月,英维达宣布将以69亿美元收购Mellanox。Mellanox是超计算互连技术的早期开发者和参与者。通过与Mellanox的结合,Nvidia将有能力优化网络负载,其GPU加速解决方案将在过度计算或竞争领域得到显著增强。

英特尔作为传统的CPU设计和制造企业,在传统PC和服务器市场上占有绝对优势。随着时代的到来和个人电脑市场的饱和,企业也开始加速向数字化企业的转型。特别是在崛起之后,英特尔凭借其技术和生态优势,构建了一个计算平台,形成了一整套解决方案。

英特尔的主要产品是CPU、FPGA和相关模块。虽然CPU产品在培训端的应用效率低于英伟达,但推理端的优势更为明显。英特尔认为,在未来的工作周期中,推理的长度将比培训时间长5到10倍,对推理端的需求也将很大。同时,即使在云培训中,GPU也需要与CPU异构。

目前,英特尔在该领域主要通过三条途径:1)通过并购积累相关技术和人才,快速完成整合。在英特尔收购Altera之后,它还收购了Nervana、Movidius和Mobileye等初创公司。在完成上述一系列并购后,英特尔成立了一个企业集团,整合了Xeon、Xeon Phi、Nervana、Altera、Movidius等业务和产品,同时将原有的业务部门并入Mobileye。2)建立多元化的产品线。目前,英特尔正在构建差异化的解决方案,以满足高性能、低功耗、低延迟等要求。除了Xeon,它还包括支持云服务Azure的Moodius VPU和FPGA。3)通过计算平台等产品,提供强大的集成能力,优化计算系统负载,提供整体解决方案。


IT企业崛起后,也在积极拓展相关市场,在各种应用场景中,随着技术和生态的积累,这是其关键部署点之一。相比之下,由于数据和场景的固有优势,企业在算法和领域上具有更明显的优势,如中国的google和bat。像IBM这样的IT公司早在该领域就开始了他们的研究,并且在2018年年中他们专门为算法推出了原型。

谷歌在这个行业是一匹黑马,但它有很强的竞争力。谷歌有一个大规模的,最初像其他供应商一样,使用不同的架构,如CPU GPU来加速计算,用于完成图像识别、语音搜索和其他计算服务。然而,随着业务量的快速增长,传统的异构模型很难满足巨大的计算需求,需要探索新的高效计算体系结构。同时,谷歌需要通过研发来扩展TensorFlow的生态系统。因此,在2016年,谷歌正式推出了TPU。

就谷歌TPU的本质而言,它是一款专门针对TensorFlow进行优化的ASIC(定制),因此不能在其他平台上使用。第一代云TPU只在自己的云计算室中使用,并加速了许多官方的谷歌云服务,如谷歌街景的文本处理、谷歌相册的照片分析,甚至谷歌搜索引擎服务。云TPU也正在迅速进行改造,第二代在2017年,第三代在2018年。

同时,谷歌对TPU的态度更加开放。它过去主要是自用的。目前,该公司还向用户开放租赁业务,但尚未向系统供应商提供。

除了云计算,谷歌也在开发边缘TPU,以应对日益增长的边缘推理需求。2017年11月,谷歌推出了一款轻量级的Tensor Flow Lite(在某种程度上取代了之前的Tensor Flow Mobile),使其能够以有限的能耗支持Tensor Flow。2018年推出的EDGE TPU主要是为了实现张量流Lite,而不是张量流。虽然边缘TPU的性能远不如TPU,但其功耗和体积都大大降低,适合于设备。

EDGE TPU可以运行自己的计算,而无需连接到多台功能强大的计算机。它可以在任一网关设备中与标准或微控制器一起工作。

根据谷歌的计划,边缘TPU将提供给系统供应商,开放程度将进一步提高。如果边缘TPU的推广顺利进行,支持的系统合作伙伴数量将进一步增加,谷歌将尽快推出下一代边缘TPU产品。即使推广不成功,谷歌也可能推出自己的边缘网关、边缘设备和其他产品。

阿里巴巴作为国内领先的企业,在底层计算能力、算法技术和应用平台上有着强大的积累。与谷歌类似,阿里巴巴近年来也开始发展,同时增加了相关领域的布局。

2017年,阿里巴巴成立了Alidamo Academy,其研究领域之一是技术。2018年4月,阿利达摩研究所宣布正在开发一个Ali NPU,预计将于2019年下半年推出。该模型主要用于图像和视频分析等推理计算。


百度作为一家搜索公司,其需求更加明确。早在2011年,百度就部署了大规模的FPGA和GPU,并开始开发基于FPGA的加速器,以满足计算需求。从那以后,百度一直在通过合作和自我研究来促进业务发展。

1)加强与设计、知识产权企业的合作。2017年3月,百度发布杜罗斯智慧,与紫光展瑞、M、上海瀚峰达成战略合作。该对话操作系统可以使设备具有通话能力,并可广泛应用于智能、蓝牙扬声器等设备中。2017年8月,百度和Xilinx发布了Xpu,一款基于FPGA的256核加速版。2017年,百度与华为达成合作,推动终端落地。

2)参与企业。2018年2月5日,初创企业Lightelligence宣布,在百度风投和一家高级财团的带领下,它赢得了1000万美元的一轮融资。Lightelligence主要采用基于光学的新技术,通过光子电路的新技术来加速工作负载和加速信息处理。

3)自学也在加快部署。2018年7月,百度正式发布了自己的昆仑,这是当时中国首款全功能云。培训昆仑818-300,推理昆仑818-100。昆仑是基于百度CPU、GPU和FPGA的加速器。它可以每秒提供26亿次,功耗约100W,计算能力处于行业领先水平。

寒武纪起源于中国科学院,目前是世界领先的智能公司。它是由陈天石和陈云阔兄弟共同创立的。团队的主要成员也来自中国科学院,其中一些人参加了龙信项目。2018年6月,公司收到数亿美元。这一轮之后,寒武纪科学技术的价值从去年的10亿美元急剧上升到25亿美元。公司目前是国内少数同时具备云和终端设计能力的企业之一。

公司最早致力于终端,主要是1A系列,包括1A、1H8和1H16。公司通过IP授权模式授权终端或设计企业。目前,主要合作伙伴包括华为,其中麒麟970使用其1A处理器。此外,公司还推出了用于低功率场景视觉应用的寒武系1H8,高性能、多功能的寒武系1H16,以及用于终端产品的寒武系1M。2018年9月,华为发布的麒麟980仍然集成了新一代寒武纪1H智能处理器的优化版本。

公司的云技术也取得了重大突破。云一直是英特尔、英威达等公司的领地,国内企业很难进入。2018年5月,寒武系MLU 100云端智能128台,可用于培训和推理。与传统的GPU和CPU相比,MLU在性能功率比和性价比方面具有显著的优势。其应用范围涵盖了图像识别、监控等关键应用领域。


一般来说,公司在竞争方面具有较强的竞争力。公司拥有自己的处理器体系结构和指令集,通过硬件神经元的虚拟化、通用指令集的开发和稀疏处理器体系结构的应用,解决了云计算、能效瓶颈、网络环境等方面的挑战。当使用ASIC时,D端到端和云的超大规模计算场景应用问题。

Horizon成立于2015年,主要从事边缘和计算平台业务、场景焦点和OT边缘计算。2018年以来,公司逐步实现产品落地。2019年2月,公司正式宣布已在B轮中赢得6亿美元,由SK China、SK Hynix和多家中国一线集团(及其基金)共同牵头投资。B轮过后,地平线的价值为30亿美元。

2017年12月,地平线发布了中国第一部世界领先之旅和日出系列。Sunrise1.0处理器专为智能摄像头和其他应用场景设计。它具有大规模人脸检测与跟踪、前端视频结构化处理等功能,可广泛应用于此类场景中。行程1.0处理器面向,能够实时准确地检测和识别行人、机动车、非机动车、车道、交通标志、交通灯等多种目标。同时满足了车辆苛刻的环境要求和不同环境下的视觉感知要求。它可以用于高性能的二级。其他先进的驾驶辅助系统ADAS。

2018年2月,地平线自主研发的高清智能网络摄像机,搭载地平线日出,提供基于算法的人脸捕捉、特征提取、人脸特征值比较等功能。可实现相机端最大规模5万的人脸数据库高性能功能,适用于各行业。

2018年4月,公司发布了Horizon Matrix 1.0计算平台。现在它已经升级到更强大的版本。地平线矩阵计算平台结合了传感技术,具有强大的传感计算能力。它可以为L3和L4级别提供高性能的传感系统。Horizon Matrix计算平台已大规模向世界顶级机器人制造商提供产品,成功地开拓了中国产品出海和商业化的先河。

Bitcontinent是世界领先的计算设计公司,致力于开发高性能、低功耗、全定制的计算能力。它是世界上为数不多的具有最先进的7纳米工艺设计能力和7纳米大规模生产的公司之一。

目前,国产产品主要用于两个领域,矿山机械市场占有率高达74.5%。2017年,Bitcontinent正式推出其面向领域的子品牌California和第一代云BM1680进行推理。2018年3月,Bitcontinent快速推出第二代云BM1682,2018年9月推出面向终端的产品BM1880,计划2019年推出第三代云BM1684。

此外,Bitcontinent还在云中开发了加速卡、服务器和其他产品。最后,Bitcontinent推出了计算棒、模块、开发板和其他产品,为不同行业的客户提供适合各种应用场景的产品。


在合作方面,比特人与福建省地方企业共同组建福建省计算机技术有限公司,负责福州市大脑的建设和运营,为福州产业的未来发展建设良好的基础设施。作为首批帮助海淀市脑科学技术产业联盟企业,比特人也加入了海淀市脑科学技术产业联盟。随后,Bitcontinent与海淀区签署了一份意向书,就围绕智能处理应用场景建设的重大项目展开合作,促进计算应用落地。此外,公司还与东亚最大的云平台Ubitus合作,建设公司的机房。基于Compaq,公司协助Ubitus开发视觉相关功能。

建安科技作为继比特兰之后的世界第二大矿山机械制造商,近年来也开始积极转型。目前已掌握了研发、算法、结构、SoC集成、过程集成等集成技术,形成了以生态链为核心、以生态伙伴需求为依托、以生态伙伴为导向的生态链。一套服务。

2013年,建安科技发布了世界上第一台基于ASIC的计算设备,引领行业进入ASIC时代。2015年,建安科技被授予清华长三角研究院,并作为重点科技城引进杭州。同年,建安科技成功批量生产28nm工艺,迈出了批量生产的第一步。

2016年,建安科技实现了16纳米的大批量生产,一举获得国家高新技术企业的批准。2017年正式被评为杭州市高新独角兽企业。2018年,建安科技在世界范围内实现了两大技术突破,第一个自主研发的7nm和第一个基于RISC-V的商业边缘智能计算。

2018年9月,建安科技推出了第一代边缘智能K210,通过完全自主研发的加速器IP,可以在超低功耗下进行高速卷积计算。随后,康志K210在不敏感、害虫防治等领域得到了迅速的应用。

在项目现场,建安科技提供的不敏感度已被软电力总部大楼采用(共5万名员工)。目前,每个监测点的标识数量平均每天2000次。建安科技提供的智能电表解决方案也被贵阳市南明果园小区最大的小区采用。实现了社区10万多个传统电表的智能升级改造,解决了传统手工抄表方式成本高、效率低、接入困难的问题。在害虫防治的商业场景中,建安与百度、大学合作,将8路高性能麦克风阵列的音频处理硬件插入到树中,通过昆虫咬树的声音判断害虫的位置。同时,K210的视觉能力也可以用来放置一个40平方毫米的智能盒,通过图像分类和检测来判断视觉领域是否存在害虫。这种视听综合判断方法有效地提高了判断的效率和准确性,在农田中具有广泛的应用场景。同时,智能盒不需要外部电源设备,只需要电源。与传统设备相比,它更轻,使用更便宜。


 
发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

[!--temp.dlad--]