2019年08月23日 星期五
端边云AI算力爆发
华为AI全场景布局浮现

■广 告

    端边云的AI算力突破,关键难点是什么?

    AI正“润物细无声”的进入我们的生活,IoT的规模化商用也正步入快车道,AI与IoT技术的融合将形成AIoT,也就是万物智慧互联。届时我们现有的生活方式将被重新定义——人与环境的交互从物理按键进化到视觉、语音识别或虚拟现实;原本单一的硬件产品开始互联互通、端侧具备智能;无人驾驶、机器助手等新物种的出现等。AIoT即将成为工业机器人、智能手机、无人驾驶、智能家居及智慧城市等新兴产业的重要基础。

    伴随着5G技术商用,AIoT亦会加速落地和实现。可以预见的是,未来巨量的多维数据(如语音、图像、视频等)集中处理与边缘式分布计算的需求,势必将进一步挑战AI底层支持硬件——芯片的计算能力。同时,AIoT场景下AI应用对于端边云互动有着强需求。强大的云会让边、端能力更强,而强大的端、边则可提升数据处理的实时性和有效性,进而增强云的能力。二者需要紧密结合,这要求对芯片设计和云端架构进行统一考量。

    另一方面,在应用场景中,跨平台兼容问题、训练成本、大规模部署问题层出不穷。想出一个模型不算难,开发出来或许也还好,但是当想要把框架里的算法部署到数量众多的物联网设备上,那问题将是无穷无尽的。本地算力、网络连接能力、平台间的不兼容,都让开发者望而却步。

    业界全栈全场景AI解决方案

    2018年10月,华为副董事长、轮值董事长徐直军在2018华为全联接大会,发布了华为AI战略及全栈全场景的解决方案。

    其中受人关注的是华为一直保持神秘的芯片产品——昇腾系列芯片。从华为公布的信息来看,昇腾(Ascend)芯片层,包含了从Ascend Nano、Lite、Tiny一直到云侧使用的Ascend Max。可以看出昇腾系列芯片是完整AI堆栈解决方案的基础层,目标是在任何场景下以低成本提供优良的性能,使得个人、家庭和组织的不同应用可以选择的AI算力解决方案。

    其中,是否要采用统一架构,是一个十分关键的选择。诚然,统一架构的好处很明显:只需一次算子开发,然后可在任何场景下使用;跨场景一致开发和调试体验;更重要的是,一旦完成某个芯片的算法开发,就可顺利将其迁移到面向其他场景的其他芯片上。

    从传统设计思路来看,无非两种选择:

    选择一:采用堆叠扩展(Scale out)的方法实现巨大的计算可扩展性。首先,设计针对最小或较小计算场景进行优化的架构,然后通过堆叠来匹配最大的计算场景,但这将不可避免地增大芯片面积和功耗,直至难以接受;

    选择二:采用向下缩小(Scale in)的方法,即首先设计针对最大或较大计算场景进行优化的架构,然后通过精细分割来匹配最小的计算场景,但这必将导致任务调度和软件设计异常复杂,并且可能由于电流泄漏而使低功耗目标无法达成;

    除此以外,在多场景下,内存带宽和延迟与适当的计算能力保持匹配,避免算力利用率低,还有芯片内及芯片间互连也必须面对功率和面积限制等多种问题需一并解决。

    面对如上诸多因素,华为创造性的提出了达芬奇架构,通过可扩展计算、可扩展内存和可扩展互连等三大独特关键技术,使统一架构成为可能。

    为实现高可扩展和灵活的计算能力,华为首先设计了一个可扩展的3D Cube作为超高速矩阵计算单元,在其最大配置(16×16×16)下,一个Cube可在一个时钟周期内完成4096个FP16 MACs运算;鉴于需要支持的巨大动态范围,我们认为16×16×16 Cube是性能和功耗的最佳平衡点。以16×16×16为中心,具有Cube Scale in功能和高效的多核堆叠功能,这样就可以使用一种架构来支持所有场景。而对于那些计算能力较低的应用场景,Cube可以逐步缩小到16×16×1,这意味着在一个周期内完成256个MACs运算。这种灵活性与一套指令集结合,成功提供了计算能力和功耗的平衡。通过支持多种精度,可以有效地执行每项任务。

    为实现高可扩展内存,每个达芬奇Core都配备专用SRAM,其功能固定,容量可变,适应不同的计算能力场景,大大提升了计算过程中数据的交换速度。

    芯片内超高带宽Mesh网络将多个达芬奇内核连接在一起,保证内核之间以及内核与其他处理单元之间的极低延迟通信,使得高密度计算内核的性能得到充分利用。

    今年4月,基于昇腾310(Ascend mini)的Atlas人工智能计算平台正式开售,覆盖了从终端、边到云数据中心推理场景。

    Atlas 200尺寸仅有信用卡一半大小,是一款高效能的嵌入式AI加速模块,可以实现图像、视频等多种数据分析与推理计算,可广泛被集成到智能摄像头、机器人、无人机中。

    Atlas 300智能加速卡是半高半长的PCIe AI加速卡,可帮助传统服务器实现AI算力腾飞,不仅可以提供多种数据精度及性能,还可以兼顾能效限制,可广泛应用于数据中心和智能边缘。

    智能边缘产品Atlas 500智能小站,机顶盒大小,可实现16路高清视频处理能力;同时也是业界应用半导体制冷散热技术的智能边缘产品,不用风扇散热,可满足-40℃至70℃室外工作环境。

    Atlas 800深度学习系统是一站式深度学习平台服务,内置大量优化的网络模型算法,以便捷、高效的方式帮助用户轻松使用深度学习技术提供数据标注、模型生成、模型训练、模型推理服务部署的端到端能力,降低使用AI的技术门槛,让客户更聚焦业务本身,使AI业务能快速开发与上线。 

    (本文所有数据均由华为公司提供) 

京ICP备06005116