思腾云计算

发布时间:2023年12月21日

在这 AI 的时代,数据几何式增长,高性能计算硬件呼之欲出,要服务各种场景下的计算需求,就得在高性能计算硬件和 AI 应用之间架起一座桥梁,CANN 异步计算架构就是这座桥梁。一端是 AI 应用和框架,另一端是 Ascend 系列芯片,CANN 从 2018 年初露锋芒到 2022 年发布的 CANN 6.0 最新版本,在使能 AI 开发效率和性能方面持续保持业界领先,CANN 5.0 比 CANN3.0 性能翻倍,CANN 6.0 版本在性能、开放性及易用性上持续提升,在开源算法支持、自定义算子开发、动态 shape 场景支持等方面全方位满足 AI 开发者的诉求,不断提升生态满足度; 在新版本中,有 400+ 算子支持动态 shape,支持 80% 的主流算子,极大提高了 AI 场景生态满足度,以匹配客户更多的 AI 业务场景,在算子开发方面推出原生支持 C/C++ 的算子开发语言,降低算子开发门槛,同时提供昇腾硬件亲和的数据结构,在保持性能的基础上提升用户自定义算子开发效率,使得算子开发效率得到倍级提升。CANN 6.0 版本将会提供包括 11 大类在内的 70 个 DSL 算子编程接口、新增 11 类算子调度策略,从而使更多算子采用简单的 DSL 方式开发,算子库中 DSL 算子覆盖度可达 80%。CANN 同时支持算子 Debug 调试、一键生成工程代码、自动编译部署到算子库、简化算子交付件等功能,基于全流程解决开发者痛点,最大程度降低算子开发门槛。持续提升模型开发效率,实现模型下载即用 CANN 支持模型的自动化迁移、调测及智能调优,从真正意义上实现模型下载即用。在 CANN 6.0 版本下,主流框架 TensorFlow 和 PyTorch 的模型迁移成功率可达 80% 以上,兼容主流三方库 Horovod/Keras/DeepSpeed 等。在此基础上还能方便地将那些随算法演进而开发的自定义 kernal 或 function 保留到框架侧执行,提升算法适配灵活度。在模型调优方面,开发者不仅能借助一系列昇腾亲和 API 提升性能,还能通过智能化调优工具代替复杂的手工优化操作,CANN 6.0 版本的平均调优效率较上一代提升一倍以上。

所以一个优秀的国产运算卡,具有较高的硬件运算性能只是成功了一半,强大的软件支撑才是竞争力的核心,那具备这么优秀的软硬件性能,这张卡主要应用在哪些领域呢?

首先 CANN 超强的图像并发处理能力和丰富多样的图像处理接口,为城市智慧交通提供了有力的技术支持,让出行管理更高效,通行更通畅,其次随着 CANN 对动态 shape 的支持度不断提升还可以应用于 ORC 识别,语音识别,身份证识别,人脸识别,车辆/车牌识别等的智慧金融,智慧园区,智慧生产等领域;除了以上领域,媒体视频领域也正逐步借力 CANN 图像并发处理能力,为用户带来全新的视觉体验,给人们的生活增色添彩。视频类业务发展至今,已不仅仅是单纯视频内容的播放呈现,以自由视角为代表的,极具张力的视觉体验吸引了越来越多的受众。所谓自由视角,就是通过现场环绕部署的多台摄像机,让观众多角度、多细节、立体化地欣赏到精彩的表演效果或比赛瞬间。借助 CANN 超强图像并发处理技术,将现场从不同角度采集的多路视频进行并发解码处理,经过AI智能合成后,编码成视频流实时传送给观众,带来沉浸式的视觉体验,再者我们在看视频或直播的时候,往往会根据当前网络状况选择不同的清晰度,这对应在服务端其实就是视频转码的过程,将原始视频解码过后,根据用户选择的不同清晰度进行编码。在整个过程中,视频编解码性能的好坏考验着用户的耐心,CANN 提供的超强图像并发处理技术,在视频解码的同时可轻松完成多路视频编码,大大降低转码时间,实时满足用户观看需求。

接着介绍 Atlas 300V Pro,V 就是 video 的缩写,是一张视频解析卡,它与 300I pro 显著的区别就是显存容量大,为48GB,大的显存可以在一定范围内提高系统的运行速度,能够处理的分辨率也越高,所以显存容量大了,其分辨率也越好,能够处理视频的路数也越多,Atlas 300V Pro 就是专门为 大容量、多路数视频解析场景而生的,这种场景在安防领域十分常见。

Atlas 300T pro 是基于昇腾 910 AI 处理器开发的训练卡,其最大功耗为 300W,PCIE4.0*16 接口,全高全长双宽,需外接电源,内置 30 个 AI core,其算力与国际顶尖 AI 芯片持平;单卡可提供超领先的 FP16 280 TFLOPS 算力,能够加快深度学习训练进程,搭载 1 个 100GE QSFP-DD 网络接口,通常在训练时常用的神经网络训练大都使用随机梯度下降算法,显存中除了加载模型参数,还需要保存中间状态,主要是梯度信息,相比推理,显存需求要增加几倍,显存要够大才能跑起来;要训练好的模型,需要使用大量数据读入显存,显存带宽也要够大,所以总结起来就是训练卡要求显存大,高带宽,而此卡显存容量为:16GB DDR4 + 32GB HBM 支持 ECC,大家都知道 HBM 有比 DDR4 或 GDDR5 更低的功耗,更高带宽。 此外训练时需要 support 更多功能 异构计算架构 CANN 的软硬件协同优化充分释放硬件算力,为高效训练奠定了坚实的基础。

全新一代 CANN,更是能通过图级和算子级的编译优化、自动调优等软硬件深度协同优化,全面释放硬件澎湃算力,达到 AI 模型训练性能的大幅提升。针对包括分类、检测、NLP、语义分割在内的常用模型训练场景,均可实现性能翻番,让整个训练过程快到“飞”起

文章来源:https://blog.csdn.net/STGPU/article/details/135124450
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。