原文:2023: The Year of AI:https://journal.everypixel.com/2023-the-year-of-ai
2023 年是 AI 领域的关键年份,我们在此聚焦今年对该行业未来发展具有重大影响的主要事件:
AI技术的改进而非革命性创新:
2023年的AI发展重点在于现有技术的改进,未有像ChatGPT或图像生成器那样的革命性突破。
这一年被视为过渡期,为向更强大的AI未来迈进做准备。
2. 图像生成技术的发展:
Adobe Firefly和Generative Fill推动了视觉内容创作的多样化。
Midjourney V.5和V.6模型提高了图像生成的效率和连贯性。
DALL·E 3简化了图像生成过程,提高了用户体验。
Shutterstock.AI的加入和对艺术家的认可标志着伦理AI的重要一步。
3. 视频生成技术的突破:
Stability AI推出了具有里程碑意义的Stable Video Diffusion模型。
HeyGen推出了用于语音克隆并调整唇部运动的工具。
Runway Gen-2使用户能够更容易地通过文本生成视频。
Pika和Pika 1.0吸引了大量用户,提升了视频创作和编辑的能力。
Meta的PiCA模型为3D人脸远程传输提供了逼真体验。
4. 文本生成领域的进展:
谷歌的Bard和Gemini引入了仿人类情感,并与OpenAI的ChatGPT竞争。
xAI的Grok展现了幽默感和反叛特质,承诺解答敏感问题。
OverflowAI在VS Code和Slack中提高了知识整理效率。
Meta的Llama 2优化了对话性能,超越其他开源模型。
OpenAI的GPT-4处理图像输入,并支持实时网络浏览,迈向AGI。
Mistral 7B和Mixtral 8x7B展示了大语言模型的竞争和开放性。
李开复创立的01.AI发布了Yi-34B llm,强调成本效益。
5. 其他技术进展:
Meta AI的SAM模型提升了物体分割能力。
直接偏好优化(DPO)为大语言模型提供了稳定高效的微调方法。
Zephyr-7B通过直接偏好优化(dDPO)提高了聊天模型意图识别准确性。
总结来看,2023年AI领域虽然没有出现颠覆性创新,但在现有技术上进行了深化和优化,这些进步为未来通用人工智能(AGI)的实现打下了坚实基础。同时,AI伦理问题和技术开放性也成为行业关注的焦点。
在今年的 AI 进展方面,重点在于改善现有技术,而非引入类似于 去年的 ChatGPT 或图像生成器?那样的革命性创新。虽然没有令人震撼的效果,且真正的通用人工智能(AGI)尚未实现,但今年标志着从之前的重大突破向更强大的未来过渡的中间阶段。为了展示这种发展趋势,我们制作了一个视觉时间线,强调了今年在 AI 领域最为显著的进展:
Adobe Firefly: Adobe 的 Firefly( 链接?)和 Generative Fill( 链接?)推动了多样化视觉内容的创作,如插画、艺术构思和照片编辑。集成到 Photoshop( 链接?)中的 Adobe Firefly 使 AI 技术普及化,让更多用户能够轻松使用。其发布的文本效果功能( 链接?)也是一个重要进展,它允许用户给文字和短语添加风格或纹理。
Midjourney: Midjourney 的 V.5 模型( 链接?)在图像生成领域达成了重要里程碑,展现了更高的效率、连贯性和分辨率。它的最新 alpha 版本,Midjourney V.6( 链接?),进一步增强了功能,比如更精准地响应用户输入(prompt)、提高了模型的知识水平和简易的文本绘制能力。
DALL·E 3: 基于 ChatGPT 的 DALL·E 3( 链接?)简化了图像生成过程,避免了复杂的用户输入(prompt)设置。此外,ChatGPT 还推出了一项功能,帮助用户优化输入内容,并根据反馈调整图像。
Shutterstock.AI: 知名库存图片平台 Shutterstock.AI( 链接?)加入了 AI 功能,使用户能将输入内容转换成可授权的图像。Shutterstock 在推动伦理 AI 方面迈出了重要一步,对贡献的艺术家给予认可和奖励。
Stability AI: Stability AI 推出了 Stable Video Diffusion?,这是一个具有里程碑意义的视频生成(generative video)模型,可在 GitHub 上开源访问。类似于 AI 图像生成的趋势?,Stable Video Diffusion 模型很可能在 AI 生成视频领域发挥核心作用。
HeyGen: 这家 AI 创业公司推出了 一款用于语音克隆的工具?,能够调整视频中的唇部运动并进行语言翻译。
Runway Gen-2: Runway 发布了 Gen-2 模型?,使用户仅需通过文本提示、图片或其他视频即可轻松生成完整视频。下面的例子就是一种展示。
Pika 和 Pika 1.0: 在首次发布时,Pika 吸引了超过五十万用户,每周生成数百万视频。在 Pika 1.0?中,升级后的 AI 模型使用户能够以多种风格(包括 3D 动画、动漫、卡通和电影)创作和编辑视频。
Meta 的像素编解码头像(PiCA): Meta 的 Pixel Codec Avatars?(PiCA)模型为视频中的 3D 人脸提供了更加逼真的远程传输体验。
Bard 和 Gemini: 谷歌的 Bard?为聊天机器人注入了仿人类的情感和情绪。Bard 聊天机器人采用多模态数据集训练,而 谷歌的 Gemini?以“最有能力”的 AI 模型身份崭露头角,成为与 OpenAI 的 ChatGPT 齐名的竞争者。
Grok: 埃隆·马斯克的创业公司 xAI?展现了其对 AI 发展的承诺,并有可能与 OpenAI 竞争。他们 推出了“Grok”?—— 一款具备幽默感、反叛特质,并能通过 𝕏 平台获取实时信息的聊天机器人。xAI 承诺,Grok 能 回答其他 AI 系统所回避的敏感问题?。
OverflowAI: Stack Overflow 的 OverflowAI?通过提高知识整理效率,使得用户能在 Visual Studio Code 和 Slack 中快速找到 AI 推荐的相关答案。
Llama 2: Meta 推出了 Llama 2?,这是其开源大语言模型 (LLM) 的升级版,性能更优。Meta 还对这一模型进行了针对对话场景的优化,使其在大多数标准测试中超越了其他开源模型。
GPT-4: OpenAI 的 GPT-4?现在能够处理图像输入,生成标题、分类,实现听取和对话互动,还支持 实时网络浏览?。OpenAI 还进一步扩展了插件支持,促进了一个丰富多彩的开源竞争环境。GPT-4 标志着 OpenAI 向通用人工智能 (AGI) 迈进的新篇章。
Mistral 7B: Mistral AI?,估值大约 20 亿美元的今年,推出了 Mistral 7B,一个具有挑战性的大语言模型,旨在与 GPT-4 和 Claude 2 竞争。Mistral AI 采用开放技术策略,允许用户免费下载该模型,以促进技术共享和创新。
Mixtral 8x7B: Mistral AI 同样推出了 Mixtral 8x7B?,这是一个高质量的稀疏混合专家模型(SMoE),具备开放的权重参数,拥有总计 46.7B 参数,这标志着模型在提高真实性和减少偏见方面开放性的一大步。
Yi-34B llm: 今年估值达到 10 亿美元的李开复创立的 01.AI?发布了 Yi-34B — 一种开源的神经网络模型,它以远超竞争对手的参数数量取得了优越性能,特别强调了其在成本效益方面的突出表现。
这一部分暂无具体内容,但预示着 AI 领域还有更多激动人心的发展。
任何物体分割模型 (SAM): Meta AI 推出了 SAM?,这是一个强大的分割模型,能够在无需额外训练的情况下提取图像中的物体,展示了其出色的适应性。SAM 在大型数据集上的训练证明了它在物体分割方面的高效能力。
直接偏好优化 (DPO): DPO 的出现?标志着一种稳定且高效的方法,用于微调大规模无监督的大语言模型(LLM)和教授文本到图像模型。DPO 能够在不依赖复杂的基于人类反馈的强化学习 (RLHF) 的情况下实现精确控制。
Zephyr 直接蒸馏 LM 对齐: Zephyr-7B?是直接偏好优化 (dDPO) 的成果,它为带有 70 亿参数的聊天模型树立了新的标准,通过减少训练量提高了意图识别的准确性。
自主 AI 智能体: 自主 AI 智能体的兴起?标志着向高级自主 AI 系统的重大转变。这些 AI 智能体被视为通用人工智能 (AGI) 的雏形,它们能够根据用户的目标自动生成任务和指令,并自主完成直至达成目标。
EvoDiff: 微软的 EvoDiff?是一个开源 AI 框架,专注于快速且成本效益的蛋白质生成,有望在治疗和工业应用领域带来突破。
稳定音频: Stability AI 发布?一款可以根据简单文本提示生成短而高质量音频片段的工具。
GPT 商店,版权屏障,ChatGPT 机器人构造器: OpenAI 推出?GPT 商店来销售定制化的 GPT 机器人,版权屏障用于承担版权侵权索赔的法律费用,以及一个无需编程的平台,用于创建定制化的 ChatGPT 版本。
Stability AI 开源其大语言模型 (LLM): Stability AI 已开源其模型?,包括 StableLM-Alpha 和 Stable Vicuna。这些模型在文本和代码生成方面表现卓越。特别是 Stable Vicuna,它是首个采用人类反馈强化学习 (RLHF) 训练的开源聊天机器人。另外,Stability AI 还 推出了 SDXL Turbo?,这是一款能实时将文本转换为图像的生成模型。
在 2023 年这个充满活力的年份,行业领袖之间形成了一系列影响深远的合作关系,这些合作正在塑造未来的发展方向。以下是今年在 AI 领域具有里程碑意义的几个重要合作和联合:
Stability AI 和 Init ML
Stability AI 通过 收购了 Init ML?,这是受欢迎的编辑应用 ClipDrop 背后的关键团队,其目的是将 Stability AI 的先进技术 融入到 ClipDrop 的生态系统中?。这次合作已催生了 SDXL Turbo 的开发?。
Runway 和 Getty Images
Runway 与 Getty Images 建立了战略合作伙伴关系?,共同推出了一款新的视频生成模型 RGM (Runway 和 Getty Images 联合模型)。这一模型结合了 Runway 的 AI 技术和 Getty Images 庞大的授权创意内容库。这一合作旨在彻底改变内容创作的流程,帮助企业制作符合品牌特色的高质量定制视频。
Snowflake 和 Neeva
作为数据仓库平台的重要玩家,Snowflake 收购了 Neeva?,这是一家以利用生成式 AI 改善搜索体验而知名的初创公司。Neeva 最近结束了其基于订阅的、无广告的搜索引擎服务。Neeva 的创始人也承认了让用户尝试新搜索引擎的难度。
Shutterstock 和 OpenAI
Shutterstock 和 OpenAI 确定?了为期六年的深化合作关系。OpenAI 获得了 Shutterstock 高质量数据的使用权,以此来丰富其模型训练的数据集,包括多种图像、视频和音乐资源。Shutterstock 则继续利用 OpenAI 的技术,推出了 Shutterstock 的 AI 图像生成工具。
2023 年的 AI 法律领域正经历着快速变化,面对不断出现的新挑战和持续的争论。关于版权、公司政策及更广泛的监管框架的讨论正在塑造 AI 法律领域的发展方向。以下是今年最重要的法律议题:
欧洲 AI 法规
欧盟推出了 全球首个全面的 AI 法规?,对 AI 的应用进行规范。这项法规根据 AI 系统潜在的风险进行分类,并据此制定了相应的规定。虽然 AI 法规已经初步达成一致,但其实施面临延迟,预计将于 2025 年开始执行。
美国版权局对 AI 创作内容注册的立场
美国版权局明确表示,拒绝对由 AI 算法 Midjourney 创作的图像进行 版权登记?。这一决定成为先例,表明完全由 AI 创作、无人类参与的艺术作品不适用于版权保护。此外,美国版权局还发布了 关于 AI 协助创作作品的指南?,明确了人类利用 AI 工具创作的作品可能符合版权保护。该指南指出,需要根据人类在创作过程中的作用是否起到决定性因素来评估这些作品。
“当前的法律体系还没准备好承认由 AI 创作的作品的版权,因为 AI 是基于已有数据学习,这些数据的版权属于其他人,这使得版权归属成为一个挑战。预计通过明年 州政府进行的调查? ,公众的参与将推动这一问题的解决。在缺乏广泛公众参与的情况下,目前独立解决这个问题较为困难。”
Daria Kuznetsova,Everypixel 公司法律顾问
McKinsey?近日公布了一幅内容丰富的图表,全面概括了 2023 年人工智能(AI)治理领域内最关键的政策和监管动向。该图表以直观的视觉形式展示了 2023 年对 AI 法律框架塑造做出的显著贡献。
来源: McKinsey
2023 年,人工智能领域的辩论和讨论异常活跃,涉及到许多不确定性和该领域不断变化的规则。随着行业自身的发展,这样的辩论变得在所难免,预示着未来将有更多引发深思的对话和挑战。以下是今年最为引人注目的几场辩论:
对 ChatGPT 的企业限制
主要的金融机构,包括摩根大通、花旗集团、美国银行、德意志银行、高盛和富国银行等, 已经限制了 ChatGPT 的使用?,原因是出于对安全和隐私的担忧。这反映出一个更广泛的趋势:众多公司开始向员工发出警告,提醒他们在企业环境中使用人工智能应用时要考虑到相关的法律问题。
OpenAI 对低薪工人的使用
《时代》杂志的调查揭露了 OpenAI 与 Sama 的合作, 在肯尼亚雇佣低薪工人?来筛选 ChatGPT 的敏感内容。这一事件引发了人们对工人待遇以及内容审核对心理健康影响的伦理关切。
OpenAI 的领导层变动
Sam Altman 的暂时离职?和迅速回归上个月成为热门新闻。Sam Altman 由于与董事会的沟通问题而辞去 OpenAI 的领导职务,接着发生了一系列领导层变动。临时 CEO Mira Murati 和大部分员工都支持 Altman 重返领导岗位。这一意外事件引起了广泛关注,也让人们对这次领导层变动的真正原因及其对未来的影响产生了疑问。
Adobe 和 Figma
Adobe 计划以 200 亿美元收购 Figma?的消息引起了监管机构的关注,欧盟委员会和英国竞争与市场管理局因可能存在反垄断问题而开始调查。这项拟议的交易不仅仅是设计层面的问题,Adobe 在客户数据平台方面的主导地位也让许多首席信息官 (CIOs) 担忧它可能对云计算软件的消费产生重大影响。但由于在欧洲和英国难以获得反垄断审批, Adobe 最终放弃了这项交易?,并向 Figma 支付了 10 亿美元的终止费。
摄影师在世界摄影大赛中以 AI 作品搅动风云
摄影师 Boris Eldagsen 在 索尼世界摄影大奖?中引发轰动,他提交了由 AI 创作的艺术作品。Eldagsen 拒绝接受奖项,这激发了一场关于 AI 生成图像是否适合参加传统摄影竞赛的讨论,这也挑战了人们对于摄影作品真实性和创造性的传统观念。
2023年的AI进展体现了行业对稳健增长和用户体验的重视,而不是单纯追求技术上的大跃进。这种策略可能是对过去几年快速发展后市场和用户需求理解更深入的反映。预计2024年人工智能将会继续往以下方向继续深入发展:
更深层次的跨模态能力: 期待看到AI在理解和生成跨文本、图像、视频等不同模态内容方面的进一步整合和进步。
AI伦理与规管: 随着AI技术的普及,对其进行伦理和法规监管的需求将变得更加迫切,预计2024年将看到更多关于数据隐私和算法透明度的讨论和政策制定。
更强大的自然语言理解(NLU): 随着模型对人类语言细微差别的理解能力增强,预计2024年将出现更加精准和智能的语言模型。
AI辅助创作: 创作工具将继续融入AI,使艺术家和设计师能够更快地实现创意,并探索新的艺术形式。
AI民主化: 2024年可能会看到更多易于使用且价格合理的AI工具出现,这将进一步推动AI技术向非技术用户群体的扩散。
通用人工智能(AGI)研究: 尽管2023年没有实现AGI,但研究将继续深入,未来几年可能会见证AGI相关的重大突破。
人机协作增强: 期待看到人工智能在辅助人类决策和增强人类能力方面的应用会更加广泛和有效。
总之,2024年AI发展可能会持续在提高效率、可访问性、用户体验以及伦理标准方面取得进展。