第一个现象级音乐生成产品Suno;GenAI动画技能全图;超级个体的技术写作手册;大语言模型入门新书 | ShowMeAI日报

发布时间:2024年01月19日

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦!

👀 AI将彻底摧毁阅读文化,书籍这种内容载体真的过时了吗?

https://www.kdpcommunity.com/s/article/Addition-of-AI-Questions-to-KDP-Publishing-Process

补充一个背景:Amazon KDP (Kindle Direct Publishing) 是亚马逊为创作者提供的一个自助出版平台。作者可以基于平台的系列工具,轻松创建并发布电子书/平装书并获取收益。

ChatGPT 等大模型聊天工具的问世,深刻改变了一直以来的创作方式。一批「先锋」创作者孜孜不倦地探索,寻找 AIGC 参与或主导创作过程的最佳方式。

从最开始的灵感风暴、片段素材,到后来独立产出短篇小说、中篇小说、翻译校对、配图插画、绘本漫画……日渐完备的提示词和越来越智能的创作工具,也使得 AIGC 书籍快速、大批量地冲向了市场

👆 上面提到的 Amazon KDP 平台,因为其特殊的发行制度,在一段时间内成为 AIGC 书籍的汇聚地。2023年9月,Amazon 发布官方公告,明确规定每名作者每天自行出版书籍不得超过三本,为这一趋势按下了减速键。


https://matduggan.com/ai-is-gonna-kill-books/

补充一份背景:按照传统的阅读方式来计算,普通人的年均阅读量是4本,有良好阅读习惯的人可以看完30-50本,而超级读者的上限也就80本左右。

Mathew Duggan 这篇博文比较完整地说清楚了「纸质书 → 电子书」这一转变所带来的阅读伤害,并且预测了「AI会如何彻底颠覆长久以来的阅读传统」。

随着互联网的发展而出现的海量质量参差不齐的电子书,挤占了本来就有限的阅读时间,并且慢慢演变成了「夸张的标题+有争议的话题」这种吸引流量的套路。

优质内容创作者们深受其害,并逐步了创熄灭作热忱。这已经是创作者和读者的「双输」了。而AI时代,这个趋势被加速了。

少数创作者用AI技术在短时间内制造了大量「垃圾」,推向市场后也不担心用户是否喜欢,因为数量就可以取胜了。另一种意义上的「薄利多销」。

读者面对的,是更加不能确定的内容品质和阅读体验,谁也不想花几个小时读一本垃圾。看完书后意识到被骗了,是一种混合了愤怒和失望的激烈情绪,把更多人推得越来越远……

🉑 第一个现象级音乐生成产品 Suno.ai,音频领域的内容协同创作工具

https://www.suno.ai/

补充一份背景:Suno.ai 是一个基于AI的音乐创作平台,可以根据用户输入的简单提示词生成带有伴奏和人声的音乐,还支持自定义设置歌词、风格和歌名

2022年,音乐家和AI科学家组建团队,在努力了18个月后成功推出 Suno.ai 并获得了广泛的认可。不需要乐理知识,不需要任何乐器,只需要想象力就可以轻松创建音乐!!Suno.ai 增长迅速并成为各大AI榜单的常客。

2023年12月,微软宣布旗下 Copilot 与Suno 达成合作。用户在微软 Copilot 中输入简单指令,就可以调用 Suno 插件完成音乐创作。这次合作进一步提高了 Suno.ai 的知名度和认可度。

虽然,Suno.ai 还有很多优化和发展空间,但它展现出的能力已经足够让普通用户欣喜,首页 Trends 排行榜的歌曲听起来甚至还挺不错 ? 关于 Suno.ai 更多介绍

Suno.ai 的定位,与视频领域的AI创作工具 Pika 非常类似。

它们直接允许所有用户创建内容,而不仅仅是专业人士的创作辅助工具。因此它们讲述的是类似的故事——AI时代的 TikTok ? Suno.ai 内容协同创作工具的发展推演



🉑 好歌词是成功的一半:手把手教你用 LLM生成 Suno 歌词

https://210ethan.github.io/thoughts/aimusic.html

补充一份背景:今天日报第2条提到了AI音乐生成工具 Suno.ai,提到可以自定义设置歌词;这里就交给你如何使用 Prompt 生成可以直接可用的歌词

作者将 ChatGPT + Suno.ai 两个工具结合起来,构建了一个简单实用的AI音乐创作工作流。在 👆 这篇文章里,作者分享了自己的 Prompt 结构,并且用5个示例展示了 Prompt 和音乐的生成效果。

作者的经验是,有吸引力和娱乐性的歌曲会更受听懂欢迎,这就需要高超的提示词技巧,其中一条建议就是把更多信息巧妙地隐藏中歌词中

有效的提示词结构

Create a(n) [number]-verse [style of music, e.g., country, rap, metal] that teaches the listener [information]

创建一首包含 [数字] 段歌词的 [音乐风格,例如乡村、说唱、金属] 的歌曲,给听众传达 [信息]

可以添加的额外条件或限定词

Have a [music style] feature in the middle

在歌曲中间加入 [音乐风格] 的特色

In the style of [artist]

模仿 [艺术家] 的风格

Use keywords such as [keyword1], [keyword2]

使用关键词如 [关键词1][关键词2]

Use a level of detail a [grade level] grader could understand

使用 [年级] 学生能理解的细节水平

Have a [type of mood] mood

营造 [某种情绪] 的情绪


我们选择文中的第一个示例,展示作者使用的提示词。生成的完整歌词 👆 如上图所示。

将歌词输入 Suno.ai 就可以生成对应的音乐片段啦,作者附在了原文里,点击原文可以听到~

Create an eight-verse country song that teaches the listener what the noble gases are, their properties, and how they’re different from other periodic table elements.

创建一首包含八段歌词的乡村风格歌曲,教授听众什么是稀有气体,它们的性质,以及它们与其他周期表元素的不同之处。

👀 我开了一家员工全是AI的公司,自动帮我炒股

https://www.bilibili.com/video/BV1Pe411H7PQ/

点击 👆 上方视频,可以查看完整的协作流程

B站 @林亦LYi 团队将把多个不同职能的 AI Agent 串联在一起,让他们互相交流讨论共同完成炒股赚钱的最终目标

作者一开始的设想非常好,基于AI构建了多名员工角色:专家巴菲特、领导 (分配任务)、谏官 (监督领导),还有新闻摘抄员、股价查询员、程序员、执行机器人……

然而这一切非常不顺利 🤔 这些员工的第一次合作时,篡位、罢工、状况百出。作者将 Prompt 大修一番才最终正常了一些。

这轮投资成绩为「三天时间赚了 0.49714%」。作者团队还在持续优化,并将于一个月后公布最新进展,可以关注一下~


https://github.com/OpenBMB/ChatDev/

ChatDev是一家虚拟软件公司,由智能体担任不同岗位角色,形成了一个多智能体 (multi-agent) 的组织架构。

Up主在视频末尾提到,这次尝试用到了 👆 清华大学的 ChatDev 项目。ChatDev 提供了一个易于使用、可高度定制、可扩展的框架,用于研究集体智慧。在这个场景下,AI 智能体们可以自主完成所有工作,包括编程、测试、优化、写文档等等。

🉑 零一科技Pretrain负责人@黄文灏:回望做大模型的一年

https://www.zhihu.com/question/632702043/answer/3363750643

补充一份背景:零一万物是由李开复创立的AI大模型创业公司,2023年3月组建,6月开始运营,11月发布首款开源中英双语大模型「Yi」

知乎有一个热度很高的问题:ChatGPT 发布一周年了,回望这一年你有什么感悟?1月15日,零一科技技术合伙人 @黄文灏 贡献了自己的答案,记录了几个听上去有点反共识的点。听听一线最核心岗位的见解:

  1. OpenAl 没有想象中那么稳:作者年初访问美国时,感觉国内与OpenAI在大模型领域的差距巨大,但年底再次访问时,对国内的进步感到信心满满;尽管 ChatGPT 领先,但国内的进步显著,头部大模型已与 ChatGPT 3.5相当

  2. OpenAI面临的诸多挑战OpenAI 面临着 AGI 和商业化追求之间的矛盾,以及模型领先力的可持续性问题,如果无法保持领先,可能会被传统企业和产品公司替代

  3. 没有「百模大战」:大模型分为两类,一类是从头开始训练的基础模型 (如 Yi、QWen、Baichuan、ChatGLM、DeepSake 等),另一类是 Continue Pretraining和 SFT 类别的模型,前者的花费是后者的几倍之多

  4. 开源和闭源的差距比想象中要大大模型开源的只是权重和模型结构,模型结构大家都相差不大,而更重要的数据和训练方法都没有开源;普通开发者很难参与大模型预训练过程,更多是在预训练完成后基于模型做 posttraining 的工作

  5. LLaMA对国内大模型的生态没有太大影响 (仅针对预训练):LLaMA 权重开源对中国大模型的繁荣帮助有限,因为数据和训练方法未公开;但是 LLaMA 提供了信心和投入的勇气

  6. 中国的researcher比想象中要强:中国的研究人员在大模型领域的实力被低估,国内研究者在大模型赛道上的进步迅速,有潜力的学生和新毕业生也能取得显著成果

🉑 生成式人工智能「动画」技能地图:技术脉络 + 工具合集

这是一份非常新且全的「GenAI+动画」资源汇总,把涉及到的技术和工具进行了层次化的总结,整理成了这份清晰的从业者技能地图。

而且,非常难得的是,作者持续追踪并更新到了2023年12月!!果断加入收藏夹~

Generative Image / 图像生成

As material and assets / 素材和资产

frame-by-frame / 图像逐帧动画

  • Standalone (text2imgs)

  • Transformative

Generative Video / 视频生成

Image models enhanced for video / 图像模型视频增强

Generative video models / 视频生成模型

  • Standalone (txt2vid)

  • Transformative (img2vid, vid2vid)

其他

3D character motion / 生成3D运动角色

LLM powered / LLM 驱动的工具

Face Animated and speech synthesis / 人脸的语音动画合成


https://diffusionpilot.blogspot.com/2023/09/overview-ai-animation.html

这篇文章可以作为小白入门指导,也可以是专业人士的备忘录

作者还为这张图写了一篇详细的使用手册,包括各部分的工具清单、使用链接、生成示例,还总结对比了优缺点,并且超链了大量的学习资料。

🉑 新书推荐 | 理解大语言模型:学习基础概念和技术

ShowMeAI知识星球资源编码:R224

这本书「Understanding Large Language Models: Learning Their Underlying Concepts and Technologies」是一门基础入门书,主要内容是大语言模型 (LLM) 的基本概念及基础技术,可以当作迈向 LLM 的第一步。

读完本书之后,你可以掌握 LLM 的基本概念,了解自然语言处理 (NLP) 的发展历程,理解 Transformer 模型和注意力机制,开始探索不同类型的 LLM 及其应用,并且能够掌握流行的 LLM 架构。

第1章:介绍

  • AI的简要历史

  • LLMs的地位

  • 总结

第2章:NLP的演变

  • NLP的历史

  • NLP的任务

  • NLP的基本概念

  • 语言建模

  • 总结

第3章:Transformer

  • 注意力

  • Transformer架构

  • 总结

第4章:什么使LLMs变大?

  • 什么使Transformer模型成为LLM

  • LLMs的类型

  • 基础模型

  • 应用LLMs

  • 过拟合

  • 灾难性遗忘

  • 评估

  • 总结

第5章:流行的LLMs

  • 生成预训练Transformer

  • 来自Transformer的双向编码器表示

  • Pathways语言模型

  • Meta AI的大型语言模型

  • 总结

第6章:威胁、机会和误解

  • LLMs与超级智能AI的威胁

  • 误解和滥用

  • 机会

  • 总结



🉑 技术写作手册 | 超级个体的创作心经,构建个人IP的实用小册

ShowMeAI知识星球资源编码:R225

Thoughtworks 多位作者共同撰写了这份「技术写作手册」,阐述他们在技术写作领域的各种经验和心得。如果你对创作感兴趣,或者想建立自己的内容IP,不妨看看这份薄薄的手册。

AI已经颠覆了创作流程和阅读习惯,但是,有关创作的诸多本质和技巧,依然是有效的

  1. 写作为什么这么难:写作的难度在于需要快速正向反馈和相对容易的任务;写作需要克制、避免低质信息的干扰,同时需要沉浸、为心流腾出时间

  2. 如何看待写作这件事:写作是创造性活动,需要心理建设,但也不需要过多准备,可以立即开始,形成自己的工作流程

  3. 这几年技术写作的感悟:技术写作可以巩固知识、分享知识、获得成就感,但这是一个长期的过程,不应该追求短期的点击量

  4. 写了十年技术博客的收获:长期写作带来的技术提升、个人品牌建设、以及对写作本身的理解;以及写作过程中的迷思和陷阱,比如「知识的诅咒」、对读者反馈的误解

  5. 技术人员如何写一本书:写书是需要耐心和毅力,更需要选择合适的写作方式和工具,与博客创作还是有区别的

  6. 我的第一本英文技术书:作者如何开始并逐步完善和重构内容的完整过程,分享了英文写作的挑战和收获,以及如何通过翻译提升语言能力

  7. 用什么工具写书:如何选择写作工具 (Word、Markdown、Latex等) 以及工具对写作效率的影响,使用 Git 进行版本控制的经验分享

  8. 写作的素材、排版、发布和推广:写作素材的收集、文章的排版规范、发布渠道的选择以及文章的推广策略

  9. 翻译这件小事:一个比较规范得翻译过程,以及各种技巧和注意事项

  10. 写作和编程:将写作与编程进行比较,向编程规范学习如何写作

  11. 技术写作的困境:技术写作面临的挑战,如何保证文章效果,如何找到内容受众,如何把握作品长度,如何才能得到更多的曝光等

  12. 如何评价一篇文章:评价文章质量的框架,包括写作动机、文章要解答的问题、优秀文章的特质、文章的结构和表面功夫等

感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们!

? 点击 👀日报&周刊合集,订阅话题 #ShowMeAI日报,一览AI领域发展前沿,抓住最新发展机会!

? 点击 🎡生产力工具与行业应用大全,一起在信息浪潮里扑腾起来吧!

文章来源:https://blog.csdn.net/ShowMeAI/article/details/135687491
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。