2023年大模型智能应用涌现,带来了大模型工程实践的爆发,在大模型进一步落地应用过程中,AI Infra作为连接硬件和上层应用的中间层基础设施,无疑是关键的一环。
近日,AICC 2023人工智能计算大会上,量子位主编方驭洋主持“AI Infra:大模型时代掘金利器”圆桌论坛,与浪潮信息AI应用架构师朱红、潞晨科技副总裁梁爽、始智AI wisemodel创始人兼CEO刘道全、无问芯穹商务副总裁李枫,围绕大模型时代AI Infra概念、行业地位、发展挑战和多元化算力等关键问题展开思想碰撞。
与会嘉宾指出,AI Infra是支撑AI和大模型的底座,大模型训练和推理是复杂的系统工程,需要在硬件、软件以及训练、推理等各个层面和角度深入优化,解决算力成本、训练门槛和多元化算力等挑战,发扬开源思想,推动人工智能快速发展。
以下是圆桌论坛问答实录:
主持人:目前AI Infra的概念并不统一,有人把它定义为AI所需要的全部硬件基础设施,有人强调它是算力层跟应用层之间的软件堆栈,请问各位如何定义AI Infra?在当前整个AI产业当中,扮演着什么样的角色?
朱红:从业界角度来说,大家认为AI Infra是硬件之上的软件层。从浪潮信息的角度来看,应用层之下的硬件、软件都可以纳入AI Infra中,也可以称之为AI中台或者AI平台。
AI Infra在整个AI产业中起着承上启下的作用,因为AI由算力驱动,而算力的发挥取决于AI Infra层。
梁爽:我觉得AI Infra包含硬件、软件。大模型一般需要在成千上万的计算卡上进行分布式训练,用户如果采用原生软硬件方案,在海量参数的情况下可能会出现显存溢出,很难把硬件的利用效率发挥出来。通过数据并行、张量模型并行、流水线并行等方式,AI Infra为客户提供更强的计算能力,能够在大模型训练时高效地把分布式硬件利用起来。同时,训练大模型的成本可能高达上千万,我们的AI Infra目标是把训练成本减少一半、时间减少一半,这也是用户关心的点。
刘道全:AI Infra还有一个更宽泛的范围,除了前面已提到软硬件系统,还包括网络、存储等硬件和软件等。大模型的训练、推理是一个系统工程,需要在计算、网络、存储等各个层面优化,才能更好地把性能和效率发挥出来。
从大模型社区的角度来说,我们现在更多地把模型和数据集汇聚起来,后续还会把应用开发层、模型训练、部署和推理等相关的开源工具软件也汇聚起来,让大家更容易地获取和使用,提升工作效率。
李枫:在我们看来,AI Infra是支撑以大模型为代表的AI技术的底座,包括硬件、软件、工具链和优化方法等,是一个整体解决方案。无问芯穹成立刚刚半年,此前我们公开露面不是很多,业内很多朋友记得我们团队,就是从“M×N”开始的。我们在AI Infra上,着眼于软硬一体的整体解决方案,做从算法到芯片、从芯片集群到模型、再从模型到应用的三阶段“M×N”中间层产品,一方面帮助AI开发者们克服目前多元异构算力初阶软件生态,以及异构算力池的影响,另一方面依托我们行业领先的AI计算优化能力,助力提高算力的供给水平、持续降低计算成本、提高大模型的落地能效。
主持人:随着大模型热潮的到来,大家对于大模型工程实践有了更明确的认知。大模型训练和推理是一件非常复杂的事情,需要很多基础设施作为支撑,也正因为此,AI Infra越来越受到关注,请各位嘉宾谈谈大模型应用面临哪些挑战?
朱红:效率是大模型应用的核心挑战,包括刚才提到延迟、速度等都属于效率范畴。浪潮信息认为效率需要从横向和纵向来看,首先是纵向的效率是AI计算平台的效率如何发挥出来,是大家非常关心的点;第二,横向的效率亦即稳定性,无论是训练还是推理都能够长期运行,这是保障。
浪潮信息的很多工作聚焦在这两个层面,也就是怎么解决纵向和横向的效率问题,然后去推动大模型的落地应用,这是我们服务客户过程中发现的挑战和解决思路。
梁爽:对于客户来说,AI大模型应用的挑战包括推理延迟、推理速度,以及如何减少推理参数,还有一些量化技术。在终端应用场景,比如像“智能座舱”,客户对于硬件的需求更为敏感,现在智能驾驶大多数采用高通芯片,能不能实现大模型推理、推理能不能达到主流加速卡的效果,这对于相关应用来说都是非常重要的。这种终端场景的硬件算力是有限的,又牵扯到模型压缩技术和推理优化,我们也在做推理方面的研发工作。
刘道全:大模型应用最大的问题是应用跟模型的脱节。因为最终到应用层面,需要从业务角度去考虑。现实是应用方面的人员大都不懂模型,而模型方面人员多数也很难体会实际应用场景。大模型厂商都想着怎么把模型的通用能力提升起来,但是对应用的理解和认知其实可能远远不够。无论是?ToB应用还是ToC应用,每个环节和流程都有很多的业务知识在里面,怎么把这一部分业务知识跟模型能力结合起来,就需要应用和模型开发人员共同参与进来,可能才能真正的解决问题,做出好的应用。
现阶段始智AI是从社区切入,能够更多地了解行业需求,不管是应用端的需求,还是模型层等的需求,最终是希望打通大模型应用开发的环节,让后续应用开发环节不再需要关心模型怎么调,模型相关事务都可以在平台上基本自动化的完成,做到应用跟模型的分离。这里涉及很多中间环节,我们也可以跟潞晨科技、无问芯穹等中间各方合作,一起把中间的环节串起来,让更多的人更方便地使用大模型。
在这个过程中,开源社区就有重要地位和作用。开源社区是行业信息的汇集地,在从应用到底层的框架到更底层芯片的架构中起到承上启下的作用。大模型和中间工具软件最终还是需要落地应用才能创造价值,整个过得始终离不开社区承上启下的作用。我们未来不会自己去做应用,还是希望在中间联合更多合作伙伴把大模型应用开发的环节打通,最后让应用变得简单,让AI落地也更简单。
李枫:因为大模型落地成本很高,做推理很贵,大部分人接受不了这个价格,我们利用软硬一体化优势,首先把成本降下来,其次软硬一体化能够发挥异构算力潜能,可以把模型开发训练门槛降低,让更多创造者有能力进入这个领域,这是我们的考虑。
另外,大模型如果想真正在行业落地,还需要行业数据。这时候一定需要软硬结合,才能去做行业落地的完整方案,而非仅依靠模型。因为一个模型的落地,不足以实现一个场景。
主持人:看来大模型应用和普及的核心关键是“效率”,各位嘉宾都有着丰富的一线实践经验,请大家分享一下真正降低大模型普及门槛的着力点,技术或者是生态领域都可以谈一谈。
梁爽:开源大模型框架系统是我们推动大模型应用和普及的实际行动,也填补了国内相关技术空白。AI之所以发展的如火如荼,与开源精神和无数开源社区贡献者密不可分。潞晨科技开源大模型框架,也是希望能够把研发成果共享给大家,让AI能够发展的更好,降低AI的门槛,提升生产力。
刘道全:首先,解决刚才提到的应用跟模型脱节的问题,关键是促进应用层和模型层之间的互动交流,这需要让更多应用场景里的人参与到大模型应用的开发中。
第二,数据质量比较好的场景,也是大模型落地更容易的方向,比如银行、金融、电商等领域,还有工业领域已经实现IoT数据采集和自动化的场景等,总体上有了高质量的数据,就有大模型应用落地更好的基础。
第三,目前大模型应用的聚焦点更多的还是AI技术领域,而对于核心场景应用需求的挖掘还不够,未来在应用场景和需求方向上做更多的探索。
主持人:除了开源软件包括框架层面的进展,我们现在面临着一个很大问题,就是算力的紧缺,从软硬件结合角度,有哪些可以努力改进的地方?
朱红:开源确实是促进AI产业发展、推动行业落地的很关键的一步,对于整个产业推动也是很大。浪潮信息目前也在尝试把自身工作以类似的方式推出去,加速大模型的应用和普及,降低行业应用门槛。
李枫:针对算力紧缺的问题,首先要“把能用的算力用得更好”,可以从推理端进行更多量化,通过减少模型的存储空间和计算需求来提高推理效率,使得同样算力可以跑更多的模型。第二,“把以前利用不了的算力用起来”,也就是对于模型训练考虑异构化,通过异构计算平台把更多的算力使用起来。
主持人:当前大模型训练等底层支撑面临算力多元化的挑战,现在从AI Infra层面考虑还是要做更多元化的适配。目前各位是否有相关技术布局?
朱红:多元算力支撑是现在非常热的话题,也是浪潮信息持续关注的方向。我们两年前发布“源?1.0”大模型之后,就开始考虑在推理阶段适配更多推理硬件,也落地了一些实际工作,能够把当时百亿规模模型,高效地推理跑起来。现在,“源?2.0”也在做各种硬件适配。
当然,模型训练也是我们重点关注的方向,我们也在与比较有潜力的算力提供方进行更多优化工作,也引入了开源工作。目的是希望无论是商业化软硬件方案,还是硬件+开源软件的方案,我们都能够支持用户又快又好地把训练、推理跑起来。
梁爽:我们已经适配了比较多的硬件。相比国外,国内的多元算力在算子数量、生态系统等方面确实存在差距。这时,就需要多元算力厂商和用户一起去做研发适配,争取能够尽快地赶上。
刘道全:适配工作其实并不是我们自己去做,我们目前和一些多元算力厂商的探索更多是生态层面的合作。社区可以作为一个很好的入口,让大家可以先体验一下多元算力的能力,这也是比较重要,特别是很多偏应用的中小企业,很多可能还没有使用过多元算力。体验之后才能更好地了解相关芯片在推理和训练方面的能力。
李枫:我们的布局核心是“M×N”中间层。其中“M”和“N”都是指多元适配,在硬件侧支持多种芯片,在模型侧支持多种大模型,这一中间层具备大模型推理引擎、训练引擎、异构算力评测等能力,使大模型算法能运行在多种芯片上,并实现最优训练与推理效率,相当于是在大模型和不同芯片之间搭建了桥梁。