ChatGPT 发布已经一年了,有专家将其描述为投放在人工智能世界的“中子弹”。从那以后,人工智能的发展速度是无与伦比的。本文探讨了过去一年中 ChatGPT 和生成式 AI 的一些重要时刻。
ChatGPT 由人工智能研究公司 OpenAI 于 2022 年 11 月 30 日推出。在发布的短短五天内,这款聊天机器人就吸引了 100 多万用户,显示出公众对这项新的人工智能技术的巨大兴趣。
ChatGPT 建立在 OpenAI 的?GPT-3?系列大型语言模型之上,使其能够对自然语言提示生成类似人类的文本响应。用户可以与 ChatGPT 进行对话,向它提问或请求它执行某些任务,例如总结文章、编写代码或撰写论文或诗歌。
ChatGPT 的病毒式流行源于其令人印象深刻的语言能力以及它是免费且可公开访问的事实。虽然 GPT-3 等其他 AI 模型以前仅供研究人员和开发人员使用,但 ChatGPT 的推出首次向公众开放了对话式 AI。
ChatGPT的推出也引发了关于高度先进的人工智能系统潜在危险的辩论。批评者指出了错误信息传播等风险,因为 ChatGPT 能够生成非常令人信服的文本。这引发了关于人工智能伦理的讨论,以及在部署此类变革性技术时需要透明度和监督。
ChatGPT 的推出代表了使 AI 触手可及的一个里程碑。它让我们得以一窥未来人工智能如何融入我们的日常生活,自动执行死记硬背的任务并增强人类的创造力。
?
2023 年 3 月,OpenAI 发布了 GPT-4,这是其生成式预训练 Transformer 语言模型的更新版本。
OpenAI 称,与 GPT-3 相比,GPT-4 表现出了显著的改进,有 1.76万亿参数(与 GPT-3 的1750亿参数相比),在准确性和幻觉缓解方面的性能提高了 40%。
GPT-4 可以执行许多自然语言任务,例如摘要、翻译、论文写作和回答问题。它还可以记住上下文并执行逻辑推理。参数和训练数据的增加使 GPT-4 成为迄今为止功能最强大的生成式 AI 模型之一。
?
ChatGPT 插件于 2023 年 3 月首次为选定的开发人员和合作伙伴推出。插件允许 ChatGPT 访问外部信息并执行受限的操作,如预订航班。最初的插件是由 Expedia、Slack 和 Wolfram 等公司开发的。?
在接下来的几个月里,OpenAI 逐渐向更多的用户开放了访问权限。截至 2023 年 5 月,ChatGPT Plus 用户可使用的插件超过 200 个。这让 Plus 用户可以提前使用娱乐、购物、旅游等插件。
然而,插件的可用性仍然有限。正如我们将看到的,有了自定义 GPTs 和 ChatGPT 存储,OpenAI 还提供了更多。2023 年 11 月,OpenAI 在他们的第一届开发峰会上宣布了 GPT Store。
?
ChatGPT 的自定义说明首次在 2023 年 7 月的测试版中推出,仅针对 ChatGPT Plus 订阅者。这使得 Plus 用户可以提供持续的指导和偏好,以形成 ChatGPT 在对话中的响应,而不必对每个提示重复说明。?
该特性通过合并您希望 ChatGPT 在每次生成响应时考虑的首选项或规范,使 ChatGPT 更加强大。
?
作为 ChatGPT 企业版的一部分,高级数据分析于 2023 年 8 月在 ChatGPT 中推出。它建立在现有的 Code Interpreter 插件的基础上,扩展了其分析数据的能力。高级数据分析使技术和非技术团队能够在几秒钟内从信息中获得见解。?
在接下来的几个月里,高级数据分析继续作为 ChatGPT Plus 和企业订阅的一部分提供。它提供了比免费 ChatGPT 模型更有用的数据分析能力。但是,访问仍然有限。
随着 GPT Store 和自定义 GPTs 的宣布,OpenAI 基本上民主化了高级数据分析所提供的——塑造聊天 GPT 技能和知识的力量。
现在所有人都可以通过 GPT 商店使用数据分析功能,而不仅仅是企业订阅者。
?
在 ChatGPT 中使用 DALLE-3 生成
2023 年 10 月,OpenAI 推出了 DALLE-3,这是其革命性的人工智能文本到图像生成器的最新版本。DALLE-3 代表了在生成准确反映书面提示的图像方面的重大飞跃-这是人工智能图像合成中臭名昭着的挑战。?
与以前的版本相比,DALLE-3 显著提高了对提示文本的理解和遵从性。它现在可以处理更长的、更详细的提示,而不会丢失上下文或忽略关键字。这将产生更符合用户预期视觉的图像。
DALLE-3 还引入了更高的分辨率和更逼真的输出。
一个突出的新功能是与 ChatGPT 的集成,允许用户简单地向聊天机器人描述图像想法。然后, ChatGPT 将自动生成一个定制的提示段落,以提供给 DALLE-3。如果需要,用户可以通过要求 ChatGPT 改进提示来进行迭代。这简化了提示工程过程。
OpenAI 在此版本中优先考虑安全性,采取措施防止不适当或有偏见的内容。DALLE-3 拒绝模仿在世艺术家的风格或未经许可代表公众人物的请求。该公司现在允许艺术家选择不使用他们的作品来训练未来的迭代。
?
OpenAI 于 2023 年 11 月 6 日举行的首次开发日开发者大会,标志着该公司的一个重要里程碑。在主题演讲中,首席执行官 Sam Altman 公布了许多新的 AI 功能,api 和产品。正如我们将在下面看到的,开发日发布了GPT-4 Turbo、助手 API、自定义 GPTs 和 GPT 商店。
Dev Day 强调了 OpenAI 致力于快速迭代和扩展其 AI 的访问。这次活动展示了在能力和灵活性上的巨大飞跃。通过改进的模型、新的 api 和像 GPT 商店这样的产品,OpenAI 正在使开发人员和用户能够根据他们的独特需求塑造 AI。这些公告显示了 OpenAI 在引领AI革命方面的优势地位。
GPT-4 Turbo 代表了 OpenAI 的下一代文本生成 AI 模型 GPT-4。在 OpenAI 的第一个开发日上宣布,GPT-4 Turbo 比2023 年 3 月发布的原始 GPT-4 提供了一些改进。
最值得注意的是,GPT-4 Turbo 已经根据截至 2023 年 4 月的数据进行了训练,而不仅仅是 GPT-4的 2021 年 9 月的数据。这为模型在响应提示时提供了更多最新的知识。GPT-4 Turbo 还支持更大的上下文大小,多达 128000 个 token,使其能够理解更多的上下文并产生更周到的响应。
此外,GPT-4 Turbo 具有优化的性能和定价。它的成本是每 1000 个输入 0.01 美元,每 1000 个输出 0.03 美元,这使得它比 GPT-4 更实惠。OpenAI 指出,与 GPT-4 相比,输入定价便宜 3 倍,输出定价便宜 2 倍。
目前,开发人员可以通过 API 访问 GPT-4 Turbo 预览版。随着模型超越测试版,OpenA I计划在未来几周内发布完整的生产版本。API 预览已经使开发人员能够开始集成和测试 GPT-4 Turbo 的增强功能。
GPTs,或自定义 AI 模型,代表了一种新方法,任何人都可以为特定的用例创建定制的 ChatGPT版本,而无需编码。正如在开发日上宣布的那样,GPTs 允许用户结合指令、知识源和技能来构建定制的 AI 代理。
例如,老师可以创建一个专注于数学教育的 GPT 来帮助学生学习。或者,游戏公司可能会建立一个可以回答幻想世界中错综复杂的知识和角色问题的系统。从本质上讲,GPTs 为普通人开启了一种能力,让他们能够根据自己的独特需求塑造 ChatGPT 的功能。
GPTs 通过将 ChatGPT 的广泛知识转化为有针对性的专业知识来提供价值。它们还允许用户纠正错误信息,保持知识更新,并通过持续的指导防止有害响应。通过自定义行为,GPTs 可以变得更加有用和可靠。
GPT商店代表了人们如何访问和利用AI技术的重大转变。它允许任何人为特定的用例创建和分发定制的ChatGPT版本(称为GPTs),而不需要编写代码。
GPT 商店提供了一个分享这些AI作品并可能变现的平台。经过验证的构建者可以发布他们的GPTs,让他们可以通过搜索和排行榜被发现。在接下来的几个月里,他们还可以根据使用情况赚钱。
这与非常成功的 app store 模式类似,但适用于人工智能模式,而不是移动应用。它激励构建者创造创造性的 GPTs,为他人提供价值。GPT 商店可以在将 AI 应用于特定用例方面释放一波创造力,就像移动应用程序的激增一样。
通过通过 GPT 商店普及可定制 AI 的访问,OpenAI 正在围绕定制模型建立一个生态系统和经济。基于平台创建者和构建者的创新性,ChatGPT 的功能有可能迅速扩展到新的领域。
风靡全球的人工智能聊天机器人 ChatGPT 背后的 OpenAI 公司,在短短五天内经历了一次奇怪的高管人事变动,包括解雇和重新聘用首席执行官萨姆·奥特曼。这个传奇故事就像一部错误的喜剧,情节的曲折和逆转堪比情景喜剧。?
11 月 17 日,OpenAI 董事会突然解雇了奥特曼,并没有给出明确的解释。考虑到奥特曼作为联合创始人的身份,以及在他的领导下 ChatGPT 最近取得的成功,这一举动震惊了许多人。当数百名OpenAI 员工发起反抗,威胁如果奥特曼不复职就辞职时,事情变得更加复杂了。
他们认为,奥特曼对于维护 OpenAI 安全开发人工智能以造福人类的使命至关重要。微软意识到这是一个机会,于是聘请奥特曼领导一个新的人工智能项目,试图挖走他和其他员工。在 ChatGPT刚刚起步的时候,这一权力变动有可能扼杀 OpenAI。
令人意外的是,OpenAI 董事会在解雇奥尔特曼仅仅五天之后就同意让他重新担任 CEO。
作为交易的一部分,大多数老董事会成员辞职。
似乎结局好一切都好,但这个传奇故事暴露了幕后的一些重大戏剧性事件。这是一个曲折和情感的过山车——困惑,愤怒,阴谋,解脱——值得肥皂剧。
在这一天结束的时候,奥特曼得意洋洋地出现了,他的声誉和影响力得到了加强。然而,OpenAI 内部的权力斗争远未解决。随着他们继续塑造人工智能的未来,这不会是硅谷最热门的初创公司的最后一次情节转折。
随着 OpenAI 和 ChatGPT 的迅速崛起,生成式 AI 也有了许多重要的发展。
2023 年 2 月,谷歌推出了基于 LaMDA 和 PaLM 2 LLM 的人工智能聊天机器人 Bard。随着ChatGPT 的流行,谷歌推出了自己的人工智能,包括推理、编码和多语言功能。与 ChatGPT 不同,Bard 从网络上提取信息。
Llama 1 于 2022 年 7 月首次推出,是一个拥有 70 亿个参数的开源对话人工智能模型。它是在GitHub 上提供的,用于研究目的。Llama 1 表现出很强的对话能力,但其有限的尺寸限制了更复杂的推理。
一年后,也就是 2023 年 7 月,Meta 和微软宣布发布 Llama 2,代表了拥有 700 亿个参数的下一代模型。Llama 2 经过优化,可以在 Windows 和 Azure 云上高效运行。它还集成了更好的内容过滤以确保安全。更大的 Llama 2 解锁了更复杂的推理能力。
2023 年 8 月,IBM 宣布计划在其沃森人工智能平台上也提供 Llama 2。这将使企业用户能够访问Llama 2 的增强功能。IBM 还表示,在发布“Llama 2”之后,将推出自己的人工智能开发模型和工具。
2023 年 6 月,广受欢迎的 Pandas Python 库添加了一系列人工智能功能来增强其功能。Pandas AI 可以使用自然语言对 Pandas 数据框架数据进行汇总。此外,您可以使用它来绘制复杂的可视化、操作数据框架和生成业务见解。
它是一个初学者友好的工具;即使是没有什么技术背景的人也可以使用它来执行复杂的数据分析任务,帮助您更快地分析数据并得出有意义的结论。
Mistral 7B 是由总部位于巴黎的法国初创公司 Mistral AI 于 2023 年 9 月发布的。
Mistral 7B 是一种开源语言模型,在保持效率的同时提供了令人印象深刻的性能。它只有 70 亿个参数,在许多基准测试中都优于 Meta 的 Llama 213B 等大型专有模型。Mistral 较小的尺寸使其对于希望构建自定义 AI 应用程序的开发人员和组织来说更容易访问和灵活。
Mistral 的突出特点之一是它的多功能性——它既擅长于文本生成等自然语言任务,也擅长于编码相关任务。与其他只关注自然语言的语言模型相比,这种双重优势使其具有独特的价值。
Stability AI于 2022 年 11 月 22 日发布了稳定视频扩散研究预览。
Stable Video Diffusion 是 Stability AI 发布的首个视频 AI 新模型,可以从静态图像生成动画短视频。它建立在 Stability AI 流行的稳定扩散图像生成模型的基础上,代表了该公司首次涉足生成视频合成。
该模型有两个版本—— SVD 和 SVD-XT。SVD 可以将图像转换成 14 帧的视频,而 SVD-XT?可以生成 25 帧的视频,两者的帧率都在 3 ~ 30 帧/秒之间。这些模型先在包含数百万个视频的大型数据集上进行训练,然后再对数十万个视频片段进行微调,最终达到约 100 万个视频片段。
在生成式人工智能领域,过去的一年可以说是革命性的,有突破性的进展和重要的里程碑。ChatGPT 的推出为这一年的快速进展奠定了基调,使对话式人工智能的访问民主化,并引发了关于先进人工智能系统影响的重要对话。今年晚些时候引入了 GPT-4,其功能得到了扩展,进一步突显了该领域的快速发展步伐。
将 DALLE-3 集成到这个生态系统中,为人工智能功能带来了一个新的维度,增强了从文本描述生成详细的上下文感知图像的能力。这种整合不仅推动了人工智能创造力的界限,而且强调了人工智能开发中伦理考虑和安全的重要性。
这一年,OpenAI 还应对了内部挑战,首席执行官萨姆·奥特曼(Sam Altman)被解雇后又被重新聘用,这突显了领先人工智能组织内部的复杂性和动态。
另一方面,语言模型的开源生态系统的兴起,如 Meta 的 LLaMA-2, Mistral AI 的 Mistral 7B 和其他开源 LLM,为用户和开发人员提供了更多的选择和功能。这种竞争对消费者是有益的,因为像GPT-4 这样的专有型号的价格在 2023 年已经大幅下降,我们期待这一趋势继续下去。