互联网行业AI训练平台案例
——容器+NV Device Pulg-In+虚拟化技术?构建弹性资源池
背景 | 某头部互联网搜索公司的AI训练平台支撑搜索的全AI业务的训练任务,平台采用K8S+Docker+NV Device Pulg-In方式,以物理GPU卡为最小单位为用户分配GPU资源。 |
痛点 | 存在无法快速支持跨设备多卡训练,卡资源碎片化,资源调度不灵活,资源利用率低和无法统一监控管理资源等问题。 |
方案 | 资源池化解决方案改造当前基于K8S+Docker的GPU集群,既增加了软件定义带来的使用/管理便捷性,又无需修改上层AI应用。 |
客户收益 |
?
场景:
支持
训练、研发
等用户
AI
应用场景;
?
GPU
使用率提升:
验证跨设备
16
卡多卡训练加速比,相比于单卡,可达
14.8
倍;
?
工作效率提升:
快速支持跨设备多卡训练,有效降低算法工程师的工作负载;
|