智东西8月23日消息/uff0c刚刚/uff0c在华为总部坂田基地/uff0c华为自研云端AI芯片昇腾910正式商用发布/uff0c芯片最大功耗仅310W/uff0c比之前设计的350W更低/uff01
此前云端AI芯片被称是单芯片计算密度最大的芯片/uff0c与之配套的全场景AI计算框架MindSpore也一同亮相/uff0c明年开源。
MindSpore开源计算框架/uff0c可以满足端边云全场景需求/uff0c能最大化利用芯片算力。这意味国产AI框架阵营又加入了一个重要成员。
华为轮值董事长徐直军表示/uff0c华为已完成全栈全场景AI Portfolio构建。这也标志着华为AI战略的执行进入了新的阶段。
他还强调/uff0c华为之所以要开发并推出MindSpore框架/uff0c是因为没有任何一个现有框架支持全场景。
为了更好促进AI的应用/uff0c徐直军宣布/u201cMindSpore将在2020年Q1开源/u201d/uff0c助力每一位开发者/uff0c促进AI产业生态发展。
华为自2018年10月发布AI战略以来/uff0c稳步而有序地推进战略执行、产品研发及商用进程。去年发布的昇腾310/uff0c至今已在各场景广泛应用。
基于昇腾310/uff0c华为云提供了图像分析类服务、OCR服务、视频智能分析服务等云服务。对外提供API达50多个/uff0c日均调用量超过1亿次/uff0c在快速增长/uff0c预计年底日均调用量超过3亿次/uff0c有超过100多个客户使用昇腾310开发定制AI算法。
ModelArts全流程模型生产/uff1a打通、覆盖了从数据获取/u2013模型开发/u2013模型训练/u2013模型部署的全链条/uff0c日均作业量以及在线开发者/uff1a日均训练作业任务超过4000个/uff0c32000小时。
其中/uff1a视觉类作业占85%/uff0c语音类作业占10%, 机器学习5%/uff0cModelArts已经拥有开发者超过3万。
徐直军还表示/uff0c面向未来/uff0c针对不同的场景/uff0c华为将持续投资/uff0c推出更多的AI处理器/uff0c面向边缘计算场景/uff0c在已经商用Ascend 310基础上/uff0c计划2021年将推出Ascend 320/uff0c满足AI应用开发的需求。
另外面向终端的昇腾Tiny系列将在麒麟990上得到应用。
徐直军说/uff0c不打算单独将昇腾作为独立业务面向市场/uff0c而是以板卡等服务器等形式出售/uff0c希望与大量AI芯片开发企业合作/uff0c使他们芯片应用于华为多样化的应用场景。
在回答记者问时/uff0c他也提到/uff0c期望昇腾910也在英国推出/uff0c具体时间未定/uff0c希望基于昇腾910的板卡、服务器等产品可以帮助英国AI研究。
在现场/uff0c徐直军回应美国对华为禁令延期90天一事/uff0c他表示/uff0c90天延期对华为没有影响/uff0c习惯在实体清单下生活/uff0c也相信从这种生活和工作方式中出来是不太可能的/uff0c华为公司和员工准备好长期在这一状态下生存。对未来昇腾产品的推出不会有任何影响和延期。
华为清楚/uff0c要在这一状态下长期生存/uff0c一点点储备是不够。
徐直军还提到/uff0c智能手机的预期没有任正非之前说得那么坏/uff0c下降40%是比较悲观的预测/uff0c现实比当时的预测好的多/uff0c但减少100多亿美金是有的。
一、芯片/u201c巨无霸/u201d上市/uff0c算力超英伟达
徐直军表示/uff0c昇腾910总体技术表现超出预期/uff0c作为算力最强AI处理器/uff0c当之无愧。
昇腾910/uff08Ascend 910/uff09是华为第一款重磅推出的达芬奇架构云端AI芯片/uff0c采用台积电7nm工艺/uff0c最大功耗仅310W/uff0c明显低于设计规格的350W。
这款芯片已经验证/uff0c半精度/uff08FP16/uff09算力达256 TFLOPS/uff0c比NVIDIA Tesla V100 GPU的125 TFLOPS还要高一倍。其整数精度/uff08INT8/uff09达512 TeraOPS/uff0c还集成了128通道全高清视频解码器H.264/265。
华为已把昇腾910用于实际AI训练任务。
其中/uff0c在典型的ResNet-50 网络的训练中/uff0c昇腾910与MindSpore配合/uff0c与现有主流训练单卡配合TensorFlow相比/uff0c显示出接近2倍的性能提升。每秒训练的图片数量从965张提升到1802张。
面向未来/uff0c针对不同的场景/uff0c包括边缘计算、自动驾驶车载计算、训练等场景/uff0c华为将持续投资/uff0c推出更多的AI处理器/uff0c面向全场景持续提供更充裕、更经济、更适配的AI算力。
二、达芬奇架构的创新密码
昇腾910的功臣/uff0c正是华为自研的达芬奇架构。
达芬奇是历史上著名的全才/uff0c而华为的达芬奇架构/uff0c同样希望成为适应全场景的全才。
达芬奇架构具备高算力、高效率、灵活可裁剪的特点/uff0c具体而言特性如下/uff1a
1、可扩展计算/uff0c芯片的计算单元可以纵向扩展/uff0c支持int8/int32/FP16/FP32多精度/uff0c拥有可扩展3D Cube以及张量Tensor/向量Vector/标量Scalar多种计算单元/uff0c并拥有皮秒级电流控制和硬件辅助的任务调度。
2、可扩展内存/uff0c既有专用的/uff0c也有分布的/uff0c显式控制的内存分布实际/uff0c包括4 TBytes/s L2 Buffer缓存和1.2 TByte/s HBM高带宽内存/uff0c和传统冯·诺依曼架构有所差异。
3、可扩展片上互联/uff0c基于LSU可扩展/uff0c片上有超高带宽Mesh网络。
4、算力和功耗覆盖范围广/uff0c从蓝牙耳机到昇腾910芯片/uff0c算力范围达1000万倍/uff0c功耗范围达20万倍/uff0c很少芯片架构可以覆盖如此广的范围。
基于达芬奇架构的统一性/uff0c用户只需进行一次算子开发和调试/uff0c就可以横跨端边云进行部署/uff0c将算法迁移效率将大大提升。
而实现这些特性的关键要诀/uff0c在于AI计算的核心/u2014/u20143D Cube矩阵乘法单元。
由于99%的神经网络模型计算都用到矩阵乘/uff0c同等矩阵乘运算/uff0c3D Cube要比1D、2D的MAC算力花费更少的Cycle/uff0c从而大幅提高单位面积下的AI算力。
除了3D Cube以外/uff0c达芬奇核心中还有3个Buffer分别用于存储输入和输出矩阵/uff0c有Vector向量计算单元用于处理各种基本的计算类型和许多定制的计算类型/uff0c有Scalar标量计算单元来充当小CPU的角色。
三、新一代AI开源计算框架MindSpore
昇腾系列AI芯片及AI IP/uff0c只是华为全栈全场景AI解决方案的最底层。
在这一层之上/uff0c是华为芯片算子库和高度自动化算子开发工具CAAN/uff0c可将开发效率提升3倍。
再往上/uff0c是今天华为发布的另一个重磅产品/u2014/u2014MindSpore开源计算框架/uff0c对标TensorFlow、Caffe、Pytorch等主流AI框架。
能否实现AI无处不在/uff0c能否在任何场景下确保用户隐私得到尊重和保护/uff0c这些都与AI计算框架息息相关。
华为提出/uff0cAI框架应该是开发态友好/uff08例如显著减少训练时间和成本/uff09和运行态高效/uff08例如最少资源和最高能效比/uff09/uff0c更重要的是/uff0c要能适应每个场景包括端、边缘和云。
经过近一年的努力/uff0c全场景AI计算框架MindSpore在这三个方面都取得了显著进展。
面向AI训练和部署难题/uff0cMindSpore架构有如下特点/uff1a
1、可大可小/uff0c适用全场景不同资源预算独立部署。
2、通过协同经过处理后的、不带有隐私信息的梯度、模型信息/uff0c而不是数据本身/uff0c以此实现在保证用户隐私数据保护的前提下跨场景协同。
3、将模型保护Built-in到AI框架中/uff0c实现模型的安全可信。
4、在原生适应每个场景包括端/uff0c边缘和云/uff0c并能够按需协同的基础上/uff0c通过实现AI算法即代码/uff0c使开发态变得更加友好/uff0c显著减少模型开发时间。
以一个NLP/uff08自然语言处理/uff09典型网络为例/uff0c相比其他框架/uff0c用MindSpore可降低核心代码量20%/uff0c开发门槛大大降低/uff0c效率整体提升50%以上。
另外/uff0c根据此前公布的信息/uff0cMindSpore支持端、边、云独立和协同的统一训练和推理/uff0c从端到边缘、云的反馈可以更快处理。
MindSpore以统一分布式架构/uff0c支持机器学习、深度学习、强化学习等多种模型/uff0c包含在线和离线图计算/uff0c搭配各种调优工具/uff0c可实现更快的推送。且具备与核心系统解耦的编程接口。
通过MindSpore框架自身的技术创新及其与昇腾处理器协同优化/uff0c有效克服AI计算的复杂性和算力的多样性挑战/uff0c实现了运行态的高效/uff0c大大提高了计算性能。
除了昇腾处理器/uff0cMindSpore同时也支持GPU、CPU等其它处理器。
华为全场景的布局/uff0c覆盖了公有云、私有云、边缘计算、各种行业物联网终端和消费者终端等不同AI部署环境。
这套方案同时还将于华为的HiAI开发者框架与华为云EI相辅相成。
MiniSpore之上/uff0c是应用使能/uff0c华为提供一站式AI开发平台ModelArts、分层API和预集成方案。
这一平台为开发者提供数据标注、建模、训练及部署的全流程服务/uff0c将AI开发门槛几乎降低到零/uff0c就连开发小白也能分分钟上手。
四、华为昇腾/u201c芯/u201d战略
华为/u201c芯/u201d战略/uff0c强在无处不在。
基于灵活可扩展的特性/uff0c达芬奇架构能够横跨端边云全场景提供最优算力。
Max/Multi-Mini系列是云端的独苗/uff0c其首个AI芯片昇腾910正式官宣商用/uff0c负责超复杂的云端训练和推理。这一系列同时也面向边缘服务器。
另一个已经商用的/uff0c是Mini系列的开山之作昇腾310/uff0c该系列既能应用于边缘的IPC/uff0c也能用于个人电脑。
Mini系列能兼顾训练和推理/uff0c面向智能手机应用的Lite系列也是如此。另外两款终端系列Tiny、Nano则主攻推理/uff0c前者用于智能手机/uff0c后者用于耳机电话等IoT设备应用。
目前/uff0cMini和Max/Multi-Mini系列的首款芯片均已商用/uff0c而其余三款暂时还未露出庐山真面目。
徐直军表示/uff0cTiny将用在麒麟990上。
五、华为的AI战略与全栈方案
总体来看/uff0c华为的全栈方案具体包括/uff1a
Ascend/uff1a 基于统一、可扩展架构的系列化AI IP 和 芯片/uff0c包括Max、Mini、Lite、Tiny和Nano等五个系列/uff1b
CANN/uff1a 芯片算子库和高度自动化算子开发工具/uff1b
MindSpore/uff1a支持端、边、云独立的和协同的统一训练和推理框架/uff1b
应用使能/uff1a提供全流程服务/uff08ModelArts/uff09,分层API和预集成方案。
徐直军再次回顾华为的AI战略/uff0c包括/uff1a
1、投资基础研究/uff1a在计算视觉、自然语言处理、决策推理等领域构筑数据高效/uff08更少的数据需求/uff09 、能耗高效/uff08更低的算力和能耗/uff09 /uff0c安全可信、自动自治的机器学习基础能力。
2、打造全栈方案/uff1a打造面向云、边缘和端等全场景的、独立的以及协同的、全栈解决方案/uff0c提供充裕的、经济的算力资源/uff0c简单易用、高效率、全流程的AI平台。
3、投资开放生态和人才培养/uff1a面向全球/uff0c持续与学术界、产业界和行业伙伴广泛合作。
4、解决方案增强/uff1a把AI思维和技术引入现有产品和服务/uff0c实现更大价值、更强竞争力。
5、内部效率提升/uff1a应用AI优化内部管理/uff0c对准海量作业场景/uff0c大幅度提升内部运营效率和质量。
华为AI解决方案/uff08portfolio/uff09的全场景/uff0c是指包括公有云、私有云、各种边缘计算、物联网行业终端以及消费类终端等部署环境。
而全栈是技术功能视角/uff0c是指包括Ascend昇腾系列IP和芯片、芯片使能CANN、训练和推理框架MindSpore和应用使能ModelArts在内的全堆栈方案。
徐直军也回顾了制定以上AI战略的初衷。
华为定位AI是一种新的通用目的技术/uff08GPT/uff09/uff0c如同19世纪的铁路和电力/uff0c以及20世纪的汽车、电脑、互联网一样/uff0c将应用到经济的几乎所有地方。
同时华为也认为AI的应用总体还处于发展初期/uff0cAI技术和能力相比于长远期望还有很大差距。减小甚至消除这些差距/uff0c加速AI的应用/uff0c正是华为AI战略的初衷和目标。
具体包括致力于促成以下10个方面的改变/uff1a
1、模型的训练时间大幅减小/uff0c从数日、数月降低到几分钟、几秒钟/uff1b
2、算力从稀缺昂贵变成充裕、经济/uff1b
3、从AI主要在云、少量在边缘变成AI无处不在/uff0c任何场景/uff1b
4、目前主要算法诞生于1980年/uff0c下一步更多AI算法将变得更高效、能耗更低/uff0c同时更安全、可解释/uff1b
5、提高AI自动化水平/uff0c让能够AI自动数据标注、数据获取、特征提取等/uff1b
6、在模型的性能与可用度在工业生产中保持优秀/uff0c而不仅仅是/u201c测试优秀/u201d/uff1b
7、模型能够从非实时更新变为实时闭环系统的更新/uff1b
8、从与其他技术协同不充分变为多技术协同/uff0c包括云、IoT、边缘计算、区块链等/uff1b
9、从一项需要高级技能专家的工作/uff0c变成由一站式平台支持的基本技能/uff1b
10、从数据科学家稀缺变为数据科学家、领域专家、数据科学工程师相互协作。
本文由 投稿者 创作,文章地址:https://blog.isoyu.com/archives/huaweizuiqiangyunduanaixinpianshangyongxingnengchaoyingweidav100kaiyuanaikuangjiaduibiaoguge.html
采用知识共享署名4.0 国际许可协议进行许可。除注明转载/出处外,均为本站原创或翻译,转载前请务必署名。最后编辑时间为:8 月 24, 2019 at 04:12 上午