GPU异构计算中心的案例一

发布时间：2024年01月15日

互联网行业AI训练平台案例

——容器+NV Device Pulg-In+虚拟化技术?构建弹性资源池

背景	某头部互联网搜索公司的AI训练平台支撑搜索的全AI业务的训练任务，平台采用K8S+Docker+NV Device Pulg-In方式，以物理GPU卡为最小单位为用户分配GPU资源。
痛点	存在无法快速支持跨设备多卡训练，卡资源碎片化，资源调度不灵活，资源利用率低和无法统一监控管理资源等问题。
方案	资源池化解决方案改造当前基于K8S+Docker的GPU集群，既增加了软件定义带来的使用/管理便捷性，又无需修改上层AI应用。
客户收益	? 场景：支持训练、研发等用户 AI 应用场景； ? GPU 使用率提升：验证跨设备 16 卡多卡训练加速比，相比于单卡，可达 14.8 倍； ? 工作效率提升：快速支持跨设备多卡训练，有效降低算法工程师的工作负载；

文章来源:https://blog.csdn.net/Roinli/article/details/135608879
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！