2023AI大事纪

发布时间:2024年01月04日

2023年AI大事纪

1月15日: ChatGPT成为历史上增长最快的消费者应用

在这里插入图片描述

据瑞士银行巨头瑞银集团的一份报告显示,ChatGPT 在推出仅两个月后,它在 2023 年 1 月末的月活用户已经突破了 1 亿,成为史上用户增长速度最快的消费级应用程序[3][3] 4。根据 Sensor Tower 的数据,TikTok 达到 1 亿用户用了 9 个月,Instagram 则花了 2 年半的时间。

1月27日:微软投资OpenAl 100亿美元

在这里插入图片描述

2023 年 1 月 27 日宣布向 OpenAI 追加数十亿美元的投资,以加速 AI 突破,拓展双方在 AI 超算和研究方面的合作,并致力于 AI 技术商业化
微软和 OpenAI 从 2019 年开始建立了紧密的战略合作关系,微软先后向 OpenAI 投资了 10 亿美元和 100 亿美元,并将 OpenAI 的技术整合到了自家的搜索引擎 Bing、办公套件 Office 和代码生成工具 GitHub Copilot 中

2月10日:微软推出“新必应”

在这里插入图片描述

2023年2月10日,微软正式发布了新版必应搜索引擎,它集成了人工智能和实时搜索的功能,提供了更智能、更便捷、更有趣的搜索体验。

新版必应的主要特点有以下几个方面:

聊天模式:新版必应支持与用户进行自然语言的对话,能够理解和回答用户的各种问题和指令,也能够生成创意和有趣的内容,比如诗歌、代码、论文摘要等12。新版必应使用了先进的自然语言处理技术,能够与人类进行流畅的对话,还能根据用户的需求,完成各种任务,如写文章、写代码、翻译等。

撰写模式:新版必应提供了一个专门的撰写功能,用户可以提出写作主题的需求,并制定回复的格式,例如邮件、段落,以及行文的语气和长短。新版必应能够根据用户的要求,生成符合规范和逻辑的文本,帮助用户提高写作效率和质量。

见解模式:新版必应提供了一个专门的见解功能,用户可以提出对某个话题或事件的看法或观点,新版必应会根据网络上的信息,给出一些相关的见解和分析,帮助用户拓展思路和视野。新版必应能够从不同的角度和层面,对某个话题或事件进行深入的探讨,提供有价值和有意义的见解。

2月17日:动画AI视频随林肯公园推出AI生成的音乐视频而进入主流

在这里插入图片描述

2月17日:动画AI视频随林肯公园推出AI生成的音乐视频而进入主流。林肯公园是一支著名的摇滚乐队,它在2023年推出了一首名为“One More Light”的新歌,同时发布了一部由Kaiber的人工智能生成引擎制作的动画音乐视频。Kaiber的人工智能生成引擎可以根据用户输入的图像或文本描述,快速生成不同风格的动画视频。这部音乐视频的画面十分唯美和感人,引起了广泛的关注和赞誉,也让更多的人认识到了动画AI视频的魅力和潜力。

2月22日:Spotify推出名为“DJ”的AI功能。

在这里插入图片描述

2月22日:Spotify推出名为“DJ”的AI功能。Spotify是一款流行的音乐流媒体服务,它在2023年推出了一项名为“DJ”的人工智能功能,它可以像电台主持人那样为用户推荐专属的歌曲和艺术家,并提供一些有趣的评论和见解。这个功能结合了OpenAI的动态AI语音技术和Spotify的个性化技术,它可以根据用户的收听历史和喜好,生成不间断的音乐流,并用人类的声音介绍每首歌的背景和特点。用户可以通过点击DJ按钮,选择不同的流派、艺术家或心情,来调整音乐流的内容和风格。

2月24日:AWS与Hugging Face合作。

在这里插入图片描述

2月24日:AWS与Hugging Face合作。AWS是全球最大的云服务提供商,它提供了一系列的服务和工具,如Amazon SageMaker、Amazon Trainium和Amazon Inferentia,来帮助开发者构建、训练和部署机器学习模型,提高性能和降低成本。Hugging Face是一家主流的机器学习模型托管平台运营商,它提供了一个开源的Transformers库,包含了超过10万个预训练的模型和1万个数据集,让开发者可以轻松地使用和精调流行的机器学习模型,如ChatGPT、BLOOM和Jurassic等。AWS和Hugging Face的合作,让开发者可以更容易地在AWS平台上调用Hugging Face的模型,尤其是那些生成式AI模型,从而更快地将生成式AI应用投入到生产环境

2月28日:Snapchat推出AI聊天机器人"My AI"

在这里插入图片描述

2月28日:Snapchat推出AI聊天机器人“MyA”。Snapchat是一款流行的社交媒体应用,它在2023年推出了一款名为“MyA”的AI聊天机器人,它可以与用户进行自然语言的对话,也可以生成各种有趣和创意的内容,如滤镜、贴纸、表情包等。MyA是基于Snapchat的Bitmoji技术和OpenAI的GPT-3模型开发的,它可以根据用户的个性和喜好,创建一个独一无二的虚拟形象,也可以根据用户的情绪和场景,提供合适的回复和建议 。

3月1日: OpenAl推出ChatGPT 和Whisper API

在这里插入图片描述

3月1日: OpenAI推出ChatGPT和WhisperAPI。OpenAI是一家致力于创造造福所有人的人工智能的非营利性研究机构,它在2023年推出了两个新的人工智能产品:ChatGPT和Whisper API。ChatGPT是一款基于GPT-3模型开发的聊天机器人,它可以与用户进行自然语言的对话,也可以生成各种有趣和创意的内容,如诗歌、故事、歌词等。Whisper API是一款基于DALL-E模型开发的图像生成API,它可以根据用户输入的文本描述,生成符合要求的图像,如“一个穿着牛仔裤的章鱼”或“一个会飞的猫”等 。

3月17日: OpenAI推出GPT-4。

在这里插入图片描述

3月17日: OpenAI推出GPT-4。OpenAI在2023年推出了GPT-4模型,这是一款拥有1000亿个参数的大型语言模型,它可以理解和回答用户的各种问题和指令,也可以生成各种类型的内容,如文本、图像、音频、视频等。GPT-4模型是基于GPT-3模型的改进和扩展,它使用了更多的数据和算力,提高了模型的性能和泛化能力,也增加了模型的多模态和多语言的能力 。

3月22日: Adobe推出AI图像生成器AdobeFirefly 。

在这里插入图片描述

AdobeFirefly是一款创意生成式AI工具,它可以根据用户输入的文本,生成符合要求的图像内容,如“一个用英语说话的熊猫的视频”或“一首关于太阳的歌曲的音频”等。

AdobeFirefly的目标是让用户可以轻松地创造出自己想象的内容,无论是用于娱乐、教育还是商业目的。AdobeFirefly是由多个模型组成,专为具广泛技能和技术背景的客户提供服务,适用于不同的应用场景。Adobe的第一个模型由Adobe Stock素材库、公开许可内容和版权已过期的公共领域内容训练,将专注于图像和文本效果,旨在生成可安全用于商业用途的内容。

AdobeFirefly将直接整合至Adobe的旗下产品和服务中,如Adobe Express、Adobe Experience Manager、Adobe Photoshop和Adobe Illustrator等,让用户可以毫不费力地在现有的工作流程中应用生成AI的强大功能12。

3月24日: OpenA发布ChatGPT插件,人人都认为这是AI的"应用商店"

在这里插入图片描述

ChatGPT插件是一种可以将ChatGPT连接到第三方应用程序的工具,让ChatGPT可以访问最新的信息、运行计算或使用第三方服务。

ChatGPT插件的目标是让用户可以通过自然语言的对话,完成各种各样的任务,无论是查询信息、预订旅行、购物、写代码、生成内容等等。ChatGPT插件是由开发者定义的API,可以根据用户的需求和场景,定制不同的功能和效果。

ChatGPT插件的发布,标志着ChatGPT从一个单一的AI,变成了一个开放的AI平台,它可以与各种应用程序进行交互,提供更丰富、更智能、更便捷的服务。有人将ChatGPT插件比作AI的应用商店,因为它可以让用户轻松地选择和安装自己想要的插件,就像在手机上下载和使用各种应用一样。

3月24日: Canva在Canva Create上推出新的AI工具。

在这里插入图片描述

Canva在Canva Create上推出了一套新的AI工具,它们可以根据用户的输入,自动生成各种类型的内容,如文本、图像、音频、视频等12。

Canva的AI工具的目标是让用户可以轻松地创造出自己想象的内容,无论是用于娱乐、教育还是商业目的。Canva的AI工具包括以下几种:

Magic Switch: 可以将现有的设计立即转换为另一种格式,例如将博客转换为电子邮件或社交媒体帖子,而无需手动更改布局或更新副本文本。该功能还可以在不离开页面的情况下自动将设计翻译成100多种语言。

Magic Eraser: 可以删除图像中不需要的内容,如背景、水印、标签等。

Magic Edit: 可以用生成式AI生成的图像来替换某个设计元素,如将人物的脸部、服装、发型等进行变换。

Magic Design: 可以根据用户输入的图像或文本描述,生成符合要求的设计模板,如海报、名片、邀请函等。

Magic Draw: 可以识别用户正在绘制的内容,并使形状更加平滑和美观,如将涂鸦转换为漂亮的图标或图案。

Magic Animate: 可以根据用户绘制的动画路径,生成动态的图像或视频,如将静态的logo变成有趣的动画。

Magic Write: 可以根据用户输入的主题或要求,生成符合规范和逻辑的文本,如标题、简介、摘要、文章等。

Magic Translate: 可以将用户输入的文本,自动翻译成100多种不同的语言,支持语音和文字的输入和输出。

Magic Present: 可以根据用户输入的简单的文本提示,生成漂亮的演示文稿,如将“介绍自己”转换为一份包含个人信息和照片的幻灯片。
Magic Sync: 可以将视频和音乐的节奏相匹配,无需任何手动剪辑,如将一段舞蹈视频和一首歌曲自动同步。

3月28日:AI版本的教皇方济各走红

在这里插入图片描述

AI版本的教皇方济各是一系列由Midjourney1这款图像生成器生成的教皇方济各的搞笑图片,它们让教皇穿上了各种时尚和奇特的服装,如巴黎世家的羽绒服、迪斯尼的米老鼠T恤、NASA的太空服等

3月28日: Zoom推出AI助手Zoom IQ

在这里插入图片描述

Zoom IQ是一款基于OpenAI的GPT-4模型开发的AI数字助手,它可以在Zoom会议和电话上与用户进行自然语言的对话,帮助用户完成各种任务,如总结聊天、组织想法、起草聊天内容、电子邮件和白板会议、创建会议议程等。

Zoom IQ的目标是提高用户的生产力和协作效率,让用户可以更专注于会议的内容,而不是琐碎的细节。Zoom IQ是由多个插件组成,可以根据用户的需求和场景,定制不同的功能和效果。Zoom IQ也可以与其他的应用程序和服务进行交互,如Google Workspace、Microsoft Office 365、Salesforce、Slack等

4月6日: Meta发布“Segment Anything Model”,用于AI提取图像或视频中的对象

在这里插入图片描述

Segment Anything Model(SAM)是一款由Meta发布的AI图像分割模型,它可以根据用户输入的文本、图像或视频,自动识别和提取其中的任何对象,如“一个穿着红色衣服的女孩”或“一只黑色的猫”等12。

SAM的目标是让用户可以轻松地从图像或视频中分割出自己感兴趣的内容,无论是用于AR/VR、内容创作、教育还是其他场景。SAM是由多个模型组成,包括一个基于GPT-4模型的文本编码器,一个基于DALL-E模型的图像编码器,一个基于Transformer模型的图像分割器,以及一个基于BERT模型的语义标签器12。

SAM的特点是可以处理多种类型的输入,包括文本、图像、视频、点、框、涂鸦等,也可以支持多轮交互,让用户可以通过反馈来优化分割结果。SAM还可以为分割出的对象提供语义标签,让用户可以知道对象的类别和属性12。

4月13日:AutoGPT和开源自主代理在社交媒体上引起轰动。

在这里插入图片描述

AutoGPT和开源自主代理是两个基于GPT-4模型的开源项目,它们可以根据用户设定的目标,自动执行各种任务,如搜索信息、编写代码、生成内容等12。

AutoGPT和开源自主代理的特点是可以自问自答,无需用户提供每一步的提示,也可以与其他的应用程序和服务进行交互,如Google Workspace、Salesforce、Slack等12。

4月14日:亚马逊和AWS发布Bedrock和CodeWhisperer。

在这里插入图片描述

Bedrock和CodeWhisperer是亚马逊和AWS发布的两款生成式AI的新工具,它们可以帮助开发者和组织利用基础模型和自动代码生成来构建和扩展生成式AI应用程序。

Bedrock是一项完全托管的服务,提供了来自AI21 Labs、Anthropic、Stability AI、Meta和亚马逊的高性能基础模型,以及用于构建生成式AI应用程序的广泛功能,可简化开发,同时维护隐私和安全。Bedrock的特点是可以处理多种类型的输入和输出,包括文本、图像、音频、视频等,也可以支持多轮交互,让用户可以通过反馈来优化生成结果。

CodeWhisperer是一款自动代码生成工具,它可以根据用户输入的自然语言描述,生成符合要求的代码,支持多种编程语言,如Python、Java、C#等。CodeWhisperer的目标是提高开发者的生产力和协作效率,让开发者可以更专注于创意和逻辑,而不是细节和语法。

4月17日:埃隆·马斯克创立XAI.

在这里插入图片描述

XAI是一家由埃隆·马斯克创立的人工智能公司,它的目标是“了解宇宙的真实本质”12。

XAI的特点是可以自问自答,无需用户提供每一步的提示,也可以与其他的应用程序和服务进行交互,如Twitter、特斯拉等

5月3日: Inflection AI发布Pi

在这里插入图片描述

Pi是一款由Inflection AI发布的対話型AI,它可以与用户进行自然语言的对话,也可以生成各种有趣和创意的内容,如诗歌、故事、歌词等。

Pi的目标是让用户可以与一个友好和支持的伙伴进行交流,无论是用于学习、娱乐还是其他目的。Pi是由Inflection AI自主开发的世界一流的AI技术构建的,它可以根据用户的兴趣和需求,提供无限的知识和见解。

Pi的特点是可以处理多种类型的输入和输出,包括文本、图像、音频、视频等,也可以支持多轮交互,让用户可以通过反馈来优化生成结果。Pi是一个教师、教练、知己、创意伙伴和倾听者

5月10日: Meta推出新的AI研究模型ImageBind

在这里插入图片描述

ImageBind是第一个将六种类型的数据结合到一个单一的嵌入空间的模型。该模型包括的六种数据是:视觉(图像和视频形式)、热力(红外图像)、文本、音频、深度信息,以及最有趣的——由惯性测量单元或IMU产生的运动读数。(IMU存在于手机和智能手表中,用于一系列任务,比如将手机从横向切换到纵向、区分不同类型的身体活动)。

5月19日: OpenAI推出免费的ChatGPT ioS应用。

在这里插入图片描述

ChatGPT iOS应用是一款由OpenAI发布的聊天机器人应用,它可以与用户进行自然语言的对话,也可以生成各种有趣和创意的内容,如诗歌、故事、歌词等。

ChatGPT iOS应用的目标是让用户可以在手机上轻松地使用ChatGPT的强大功能,无论是用于查询信息、获取建议、创作内容还是学习知识。ChatGPT iOS应用还集成了Whisper,支持语音输入,并提供了ChatGPT Plus的付费服务,可以使用更高级的GPT-4模型

6月2日:NVIDIA研究开发了用于从2D视频剪辑进行3D重建的Neuralangelo。

在这里插入图片描述

Neuralangelo是一款由NVIDIA研究开发的AI模型,它可以利用神经网络,将2D视频剪辑转换为详细的3D结构,生成建筑物、雕塑和其他现实世界物体的逼真的虚拟复制品。Neuralangelo 能生成具有复杂细节和纹理的 3D 结构。随后,创意人士可以将这些 3D 物体导入设计软件中,对其进行进一步编辑,用于艺术、视频游戏开发、机器人和工业数字孪生。

6月19日:Meta发布名为Audiobox的新文本到语音AI

在这里插入图片描述

Meta于2023年6月19日发布了名为Audiobox的新文本到语音AI。Audiobox是一款基于语音和自然语言提示生成音频的先进研究模型。通过结合语音输入和文本提示,Audiobox可以轻松生成各种声音,包括语音、音效和音景,从而为多种用例提供定制音频。这对于视频、播客、游戏等多种用例都具有潜在的影响,为未来的音频创作开辟了新的可能性。

6月28日:百度推出ERNIE 3.5

在这里插入图片描述

百度于2023年6月28日推出了ERNIE 3.51。ERNIE 3.5是一款基于知识增强的基础模型,具有更高的效能、功能和性能。ERNIE 3.5的一个显著特点是插件功能,包括“百度搜索”和“ChatFile”等,可以扩展模型的能力。ERNIE 3.5的推理吞吐量比ERNIE 3.0提高了17倍。ERNIE 3.5在创意写作、问答、推理、代码生成等方面都有所提升.

7月4日: Midjourney推出新的“Panning功能。

在这里插入图片描述

Midjourney于2023年7月4日推出了名为“Panning”的新功能1。Panning是一种扩展图像的方法,可以在不改变原始图像内容的情况下,将图像的画布沿着所选方向扩展21。Panning支持水平和垂直方向的扩展,只能在每次操作中请求一个方向的扩展3。Panning功能可以通过Midjourney Model Version 5、5.1、5.2和niji 5使用2。Panning功能支持Remix Mode,这允许您在扩展时更改提示2。

7月6日: OpenAl推出Super alignment来解决超级智能对齐问题

在这里插入图片描述

OpenAI于2023年7月5日推出了名为“Superalignment”的新项目。该项目旨在解决超级智能对齐问题,确保人工智能系统遵循人类意图,从而避免人工智能灾.。OpenAI计划在未来四年内投入20%的计算资源,以推进这一项目21。该项目的目标是建立一个自动对齐研究员,以帮助我们控制比人类更聪明的人工智能系统.

7月12日: Anthropic推出Claude 2。

在这里插入图片描述

Anthropic公司于2023年7月11日发布了Claude 2,这是他们的新一代模型,具有更好的性能、更长的响应时间和更长的记忆. Claude 2是一个强大的模型,可以进行有意义的对话、内容创作、复杂推理、创造力和编码. 它可以通过API访问,也可以通过一个新的公共beta网站claude.ai访问. Claude 2的输入和输出长度都有所增加,用户可以在每个提示中输入多达100K个标记,这意味着Claude可以处理数百页的技术文档甚至一本书. Claude 2的编码能力也得到了很大的提高,它在Codex HumanEval上的得分从56.0%提高到了71… Claude 2还可以预测趋势、比较和对比多个文档等. Anthropic公司正在计划Claude 2的更多功能改进,并将在未来几个月内逐步部署它们.

7月19日: Meta和微软发布Llama 2。

在这里插入图片描述

2023年7月19日,Meta和微软合作推出了Llama 2,这是Meta公司的下一代开源大型语言模型,可以免费用于研究和商业用途。Llama 2旨在帮助开发者和组织,构建生成式人工智能工具和体验。Llama 2包括预训练和微调的Llama语言模型(Llama Chat、Code Llama),参数范围从7B到70B,性能在许多外部基准测试中优于其他开源语言模型,包括推理、编码、熟练度和知识测试

7月27日: Stability AI发布SDXL 1.0

在这里插入图片描述

Stability AI在2023年7月27日发布了其最新的图像生成模型SDXL 1.0。SDXL 1.0被称为下一代文生图模型,拥有目前所有开放式图像模型中最大的参数数量,采用了创新的新架构,包括一个拥有35亿参数的基础模型和一个66亿参数的优化模型。

SDXL 1.0的发布标志着AI绘图圈的一个重要里程碑。它不仅能够生成比以前版本的Stable Diffusion更多的细节和更高分辨率的图像,而且还允许在本地机器上运行,无需支付访问SDXL模型的费用,减少了审查的担忧。
此外,SDXL 1.0的模型对自然语言的理解能力远超Stable Diffusion 1.5,使得在Stable Diffusion 1.5下,我们往往需要用各种复杂的提示词来强调画面的细节,而在SDXL 1.0下,这些复杂的提示词可以得到简化。

8月11日: HeyGen宣布推出他们的2.0版AI生成的虚拟克隆头像

在这里插入图片描述

HeyGen在2023年8月11日宣布推出他们的2.0版AI生成的虚拟克隆头像。

HeyGen是一个国产AI视频生成工具,曾因为“泰勒·斯威夫特说中文”“郭德纲表演英文相声”等视频片段爆火出圈,受到了国内和海外用户的关注和追捧,网站流量增长达到了92%。

HeyGen的2.0版相比之前的版本,有着显著的提升。据了解,新版本的HeyGen在原有的基础上进行了大量的优化和升级,使得生成的视频效果更加逼真,无论是人物的表情、动作,还是语音的发音、语调,都能做到高度还原真实情况,给人带来极强的沉浸感。

此外,HeyGen的2.0版还增加了许多新的功能,比如可以创建自己的AI形象、制作虚拟主播、文字/图片转视频、声音克隆等,大大提高了用户的使用体验。

8月23日: Meta开源一个名为SeamlessM4T的AI模型

在这里插入图片描述

Meta在2023年8月23日开源了一个名为SeamlessM4T的AI模型。这个模型是Meta的AI技术开发的,可以帮助用户将近100种语言进行转录和翻译。SeamlessM4T是第一个一体化多语言多模式翻译模型,这个单一模型可以根据任务执行多达100种语言的语音到文本、语音到语音、文本到文本翻译和语音识别任务。

SeamlessM4T支持近100种语言的自动语音识别、语音到文本翻译,以及近100种输入语言和35种输出语言的语音翻译、文本转语音翻译。它的目标是建立一个通用语言翻译器,就像《银河系漫游指南》中的虚构的巴别鱼一样。

Meta在开源协议CC BY-NC 4.0下公开发布了SeamlessM4T,开发人员可以在这个模型的基础上进行开发。同时,Meta还发布了SeamlessAlign的数据集,这是迄今为止最大的开放多模态翻译数据集,覆盖挖掘的语音和文本对齐总计达270000小时。

SeamlessM4T的出现解决了语音到语音翻译任务对单独系统的依赖的难题[4]。用户可以在SeamlessM4T的Demo体验网站上进行操作,例如点击“START RECORDING”按钮开始录音,选择需要翻译的语言种类,最后点击“TRANSLATE”就会出现翻译结果。

9月21日: OpenAl宣布DALL-E 3

OpenAI的DALL-E 3是其最新的文本到图像生成模型,它在DALL-E 2的基础上进行了改进,不仅提升了图像的视觉冲击力,而且在细节清晰度上也有显著提升。相比于前一代,DALL-E 3能够更准确地呈现复杂的细节,包括文字、手和人脸等。

DALL-E 3的最大特点是与ChatGPT的集成。它原生构建在ChatGPT之上,用ChatGPT来创建、拓展和优化prompt。这样一来,用户无需在prompt上花费太多时间。当用户输入一个想法时,ChatGPT会自动为DALL-E 3生成量身定制的、详细的prompt。同时用户也可以使用自己的prompt。

此外,DALL-E 3还能生成更高质量的图像,更准确地反映提示内容。即使是DALL-E 2,也会经常忽略特定的措辞导致出错。但是,OpenAI的研究人员发现,升级后的DALL-E 3能够把这种提示没有要求但生成裸体、或是令人反感的图像风险降低到了0.7%。

9月22日: 微软发布Copilot,“你的日常AI伙伴”

在这里插入图片描述

微软在9月22日发布了一款名为Copilot的AI工具,被称为“你的日常AI伙伴”。Copilot是基于OpenAI的GPT-3技术,它可以帮助开发者在编写代码、编写电子邮件、编写文档等方面提供智能辅助。

Copilot的主要特点是能够理解上下文,并根据上下文提供有用的建议和建议。Copilot可以根据用户的输入和上下文,自动生成代码片段、注释、函数名称、变量名称、甚至整个代码段。

此外,Copilot还可以根据用户的需求,自动生成电子邮件的草稿,并提供相关信息和建议。Copilot还能够帮助用户编写文档,提供相关信息和建议,甚至自动生成整个文档。

Copilot的出现,将极大地提高开发人员的工作效率,减少编写代码和编写文档的时间和精力,并提高文档和代码的质量。Copilot还可以帮助企业提高生产效率,减少错误和重复工作,并提高文档和代码的质量。

9月26日: chatGPT引入语音和图像的多模式。

在这里插入图片描述

在2023年9月26日,OpenAI宣布将在ChatGPT中引入新的语音和图像功能,允许用户进行语音对话、上传图像。这些新功能将在两周内于Plus和企业版推出,其中,语音功能将在iOS和安卓平台提供,图像功能将在所有平台提供。

新的语音功能由新的文本转语音模型提供支持,能够仅从文本和几秒的样本语音中生成类似人类的音频,OpenAI与专业配音演员合作创作了每一个声音,并使用开源语音识别系统Whisper将用户的口语转录为文本。

图像理解由多模态GPT-3.5和GPT-4提供支持,这些模型将其语言推理技能应用于各种图像,例如照片、屏幕截图以及包含文本和图像的文档。

这些新功能的引入,使ChatGPT变得更加智能化和人性化,大大提升了用户体验,也进一步推动了人工智能技术的发展

9月28日: OpenAl宣布ChatGPT浏览互联网

在这里插入图片描述

OpenAI的ChatGPT在2023年9月28日宣布,它现在可以浏览互联网,为你提供最新的权威信息,并提供直接来源链接,不再受限于2021年9月之前的数据。

然而,需要注意的是,当前只有Plus和Enterprise用户可以使用浏览功能。OpenAI官方承诺,该功能很快会向所有用户开放。

启用步骤很简单,如果你是Plus和Enterprise会员,在桌面端需要打开设置中的「Browse with Bing」,接受ChatGPT的最新测试版功能,然后通过点击主页面上的「GPT-4」切换按钮,并再次启用「Browse with Bing」即可。

OpenAI表示,得益于实时联网功能,你可以使用 ChatGPT 帮助你进行技术研究、挑选电动自行车或计划假期出行安排。

然而,有一些用户反馈,尽管ChatGPT的表现在基础问题上的表现还是不错的,例如,当我向它询问今天广州的天气怎么样?它能快速给予我回复,并附上具体的来源链接。但是,恢复联网功能的 ChatGPT 的表现似乎并没有突破预期,一名深度体验后的 X 博主失望地表示,就像传统的搜索引擎一样,ChatGPT 仅仅是提供问题的答案,而没有办法尝试理解主题

9月29日: MistralAl发布开源的7B语言模型

在这里插入图片描述

MistralAl是一家总部位于巴黎的初创公司,由Meta和谷歌的研究人员于七个月前创立1。他们在2023年9月29日发布了开源的7B语言模型。

MistralAI的创始人Arthur Mensch在接受媒体采访时表示,尽管作为一家年轻的初创公司,但Mistral对标的是包括谷歌、OpenAI在内的整个AI行业。他们的愿景是创建一个开放、可靠、高效、可扩展、可解释和可审计的人工智能平台。

Mistral 7B是MistralAI推出的第一个大模型,它被誉为“最强7B开源模型”。这款模型被称为“权重开源(open weights)”模型,设定了新的性能标准,并在其商业平台开放了访问。

Mistral 7B的最大特点就是它是完全开源的,没有任何使用限制。这款模型在参数量为Llama 2 70B的十分之一的基础上,成功在MT Bench上击败了Llama 23。在所有标准的英文和代码基准测试中,Mistral 7B的性能优于当前可用的高达13B参数的LLM3。

10月3日: Rewind推出Rewind Pendant,种可记录现实对话的可穿戴设备

在这里插入图片描述

Rewind Pendant是一款由Rewind公司开发的可穿戴设备,它可以捕捉并安全地存储现实世界的对话。这款设备利用先进的人工智能语音转文本技术,在本地转录、加密和存储对话内容。

Rewind Pendant的主要功能是可以记录你在现实世界中所说和听到的内容,然后将其转录、加密并完全存储在你的手机本地。通过这种方式,Rewind Pendant成为了一种个性化人工智能,真正由你所看到、所说或听到的一切提供支持。

此外,Rewind Pendant还有一些实用的应用场景。比如,你可以用它来随时备忘,比如记住配偶让你去买的东西,或者在全天的会议后,与同事们分享会议摘要。另外,它还可以捕捉你的孩子们说的令人难以置信的事情,以便以后回放并回味。

值得注意的是,Rewind Pendant非常注重用户的隐私保护。所有录音都存储在你的手机上,没有其他人可以访问这些录音,即使是Rewind公司自己也不能。

10月4日: Linkedln推出新的AI工具。

在这里插入图片描述

LinkedIn在2023年10月4日推出了一系列新的AI工具,其中包括高级会员生成式AI工具套件,这些工具由OpenAI提供技术支持,并集成了专有数据,可以生成个性化的生成式AI输出内容,从而帮助高级会员提高生产力。

这些新的AI工具主要包括AI聊天机器人和AI生成式AI工具套件。AI聊天机器人可以帮助用户评估一份工作申请是否值得投入时间和精力,用户只需进入一个职位发布页面,选择一个问题提示,例如“我适合这份工作吗?”或“我应该如何为这份工作做好准备?”,聊天机器人就会根据用户的个人资料和经验,给出相应的回答。

另一方面,AI生成式AI工具套件则可以帮助用户简化编写职位列表、填写简历和更新个人资料的过程,新功能将类似于ChatGPT LinkedIn的产品管理副总裁Gyanda Sachdeva表示,这些新的AI工具不仅限于基于文本的内容,视频和其他媒体格式已经被纳入了接受生成式人工智能治疗的路线图,为用户提供了全面和身临其境的体验

10月23日:NVIDIA的突破使得机器人能够自我学习。

在这里插入图片描述

NVIDIA开发的一款名为Eureka的新型AI智能体。Eureka可以教授机器人复杂的技能,例如快速转笔,而且第一次转得像人类一样好.Eureka利用最先进的大语言模型(如GPT-4)卓越的零样本泛化、代码编写和上下文改进能力,对奖励代码进行渐进优化。由此产生的奖励可用在强化学习中学习复杂的技能。

10月26日:中国研究人员开发了名为“啄木鸟”的多模态AI系统

在这里插入图片描述

中国的研究人员在2023年10月26日开发了一种名为“Woodpecker”的多模态AI系统,这是一种专门为解决多模态大语言模型(Multimodal Large Language Models, MLLMs)中的幻觉问题而设计的系统。

幻觉是指在多模态大语言模型中,生成的文本与图像内容不一致的现象,这是一个困扰研究者们的大问题。为了解决这个问题,研究人员开发了“Woodpecker”系统,这个系统可以从生成的文本中挑选出幻觉并进行纠正。

“Woodpecker”系统包括五个阶段:关键概念提取、问题制定、视觉知识验证、视觉声明生成和幻觉校正3。这个系统的独特之处在于,它可以直接从模型给出的错误文本下手,“倒推”出可能出现“幻觉”之处,然后与图片确定事实,最终直接完成修正.

在多个不同的模型(如LLaV,mPLUG-Owl,MiniGPT-4,Otter)的评估中,“Woodpecker”系统的准确率都表现出了不同程度的增长,特别是在MiniGPT-4和mPLUG-Owl模型中,准确率分别实现了惊人的30.66%和24.33%的提升.

11月6日: 埃隆·马斯克的XAI推出Grok

在这里插入图片描述

埃隆·马斯克的人工智能初创公司xAI于2023年11月4日推出了他们的首款人工智能模型Grok。Grok是一款对话式人工智能,其设计初衷是回答用户提出的问题。

Grok的名称来源于科幻小说《异乡异客》中的一个概念,意为深刻而直观地理解事物。Grok的特点是具有幽默感,因此,如果你不喜欢幽默,那么可能不适合使用它。

Grok的设计理念是通过社交媒体平台X(前身为推特)实时了解世界,并回答一些其他人工智能系统拒绝回答的棘手问题。马斯克表示,相比其他生成式人工智能,与社交媒体平台X实时连接,获得对这个世界的实时认知,是Grok拥有的巨大优势.

Grok的开发者xAI团队在4个月内运用前沿技术开发了驱动Grok的引擎Grok-15。在2个月内,Grok-1在HumanEval代码生成任务上取得了63.2%的准确率,在MMLU数据集测试中取得了73%的准确率.

11月7日: OpenAI在DevDay上揭示了GPT Builder、GPT-4 Turbo、Assistants API等

在这里插入图片描述

在2023年11月7日的OpenAI DevDay活动中,OpenAI推出了一系列新产品和服务,其中包括GPT-4 Turbo、GPTBuilder以及Assistants API。

GPT-4 Turbo

GPT-4 Turbo是OpenAI的一次重大更新,它在原有的GPT-4基础上进行了升级。相较于标准版GPT-4,GPT-4 Turbo的进步主要体现在以下几个方面:

  1. 更长的上下文对话长度####:标准版GPT-4模型最多支持8192个token,而GPT-4 Turbo支持最高12.8万个token,相当于一本标准大小的300页纸质书所包含的文本量。
  2. 更多的控制权####:新的模型允许开发者指示模型固定以特定形式返回有效JSON—JSON模式。同时开发者可以通过访问seed参数和system_fingerprint响应字段,来实现“模型对每次请求都给出确定性的输出”。
  3. 更新的知识库####:GPT-4对于现实世界的知识截止于2021年9月,而GPT-4 Turbo的知识则截止于2023年4月。

GPT Builder

GPTBuilder是OpenAI的一种新型工具,它可以帮助开发者更方便地构建自定义的辅助型AI应用。通过简化目标集成和利用各种模型和工具,开发者现在可以创建针对各种任务定制的AI应用。

Assistants API

Assistants API是OpenAI的一项新服务,它可以让开发者直接检索自己的数据库和文档库,甚至不需要将数据库和文档库矢量化就可以将自己的数据转化为GPT的知识库。

11月17日: YouTube和谷歌DeepMind公布名为“Lyria’的新AI模型

在这里插入图片描述

2023年11月17日,谷歌旗下的DeepMind和YouTube共同发布了一款名为Lyria的AI音乐生成模型。

Lyria是谷歌DeepMind的一项新技术,它可以从文本中创作独特且高质量的音乐,包括乐器和人声。这一创新是谷歌旗下视频分享平台YouTube的新功能的一部分,旨在让用户能够轻松生成自己的音乐作品。

Lyria的设计目标是为用户提供对输出的风格和表现更为微妙的控制。DeepMind团队还宣布扩展其AI检测工具SynthID,以覆盖由Lyria生成的音频

11月17日: Sam Altman被解职,不再担任OpenAI的首席执行官

在这里插入图片描述

Sam Altman在2023年11月17日被解除了OpenAI的首席执行官职务。这是经过OpenAI董事会的深思熟虑后做出的决定。

11月22日: Sam Altman重新被聘为OpenAl的首席执行官。

在这里插入图片描述

Sam Altman在2023年11月22日被重新任命为OpenAI的首席执行官1267。这是在他于11月17日被解除首席执行官职务后的五天内发生的戏剧性逆转。

在这次事件中,OpenAI的前董事会投票决定解雇Altman作为首席执行官,但内部对Altman离职的不满很快就公开了出来。最终,OpenAI在11月22日晚宣布,他们已经达成了一项原则性协议,让Altman重返OpenAI担任首席执行官,并创建了一个新的董事会,由Bret Taylor(主席)、Larry Summer和Adam D’Angelo组成。

这次任命对于OpenAI的未来发展可能会产生重大影响,因为Altman曾是OpenAI的创始人之一,并且在公司的早期阶段发挥了重要作用2。然而,这次任命也引发了一些争议,因为Altman在被解雇后的几天里,OpenAI的内部分歧变得公开化

11月29日: Pika推出Pike 1.0,一种文本到视频的生成器

在这里插入图片描述

Pika Pike 1.0是由Pika Labs开发的一款人工智能视频生成工具,它利用先进的视频基础模型彻底改变了视频的制作和编辑方式.

Pika Pike 1.0的主要功能包括:

文本到视频:用户可以从文本或图像生成视频。
图像到视频:将现有视频转换为不同风格,包括不同的角色和对象。
视频到视频:将现有视频转换为不同风格,包括不同的角色和对象。
扩展视频的画布或宽高比:可以扩展视频的画布或宽高比。
更改视频内容:使用人工智能编辑视频内容,如更改某人的服装,添加另一个角色或更改环境。

12月6日:谷歌DeepMind揭示了Gemini。

在这里插入图片描述

谷歌DeepMind的最新AI模型Gemini是一个重大的技术突破,它是一个多模态AI模型,可以处理文本、图像、音频和视频等不同类型的信息。Gemini模型的出现标志着谷歌进入了一个全新的时代,被称为“Gemini时代”,预计将广泛应用于各类公司和消费者设备,例如Google Pixel手机。

Gemini模型的核心优势在于其原生多模态(natively multimodal)的特性。以往的多模态大模型往往是通过组合不同类型的输入来实现的,而Gemini则是从头开始构建的,更接近人类认识世界的方式。

Gemini模型在32个多模态基准测试中取得了30个SOTA(State Of The Art,即当前最优效果)的记录,是第一个在MMLU(大规模多任务语言理解)测评上超过人类专家的模型。Gemini在此项取得的成绩是90.0%,作为对比,人类专家的成绩为89.8%,GPT-4为86.4%5。

12月20日:微软与Suno AI合作,推出AI歌曲生成技术。

在这里插入图片描述

微软与AI音乐创作平台Suno AI达成合作,推出了一项新功能:只需输入简短的文字描述,Copilot就可以自动生成包含器乐、歌词和演唱的歌曲片段。

Suno AI是一家专注于AI音乐技术的公司,他们的技术能够从简单的句子中生成完整的歌曲,包括歌词、伴奏和歌声。通过与Microsoft Copilot的结合,这一先进技术现在将变得更加易于使用,并且向更广泛的用户群体开放。

12月27日: OpenAl正在商谈额外融资,估值超过1000亿美元

在这里插入图片描述

据报道,微软公司资助的开放人工智能研究中心(OpenAI)正在进行初步讨论,拟以1000亿美元或以上的估值进行新一轮融资。这笔交易将巩固OpenAI作为全球最具价值初创企业之一的地位。

然而,关于此轮融资的具体条件、估值和时间,目前还没有最终确定,可能会有所变化。

文章来源:https://blog.csdn.net/qq_39811006/article/details/135316550
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。