AIGC深度产业报告 量子位智库-34正式版.doc
《AIGC深度产业报告 量子位智库-34正式版.doc》由会员分享,可在线阅读,更多相关《AIGC深度产业报告 量子位智库-34正式版.doc(36页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、AIGC,AI-Generated ContentAIGC/AI生成内容Industry insight report产业展望报告 在技术上,AIGC已经可以完成哪些创作? 在价值上,AIGC除了直接生成艺术作品还能做什么? 在未来,AIGC将如何改变内容及相关产业? .量子位硬科技深度产业报告 AI生成内容 AIGC目录 技术及场景篇1 技术定义2 技术及落地场景介绍 基于模态2 文本生成5 音频及文字音频生成6 图像生成9 视频生成11 图像、视频、文本间跨模态生成15 策略生成15 技术及落地场景介绍综合赛道15 Game AI17 虚拟人生成19 相关预测 产业篇20 价值分析21 细
2、分赛道分析21 内容领域24 延展领域26 行业发展阶段分析29 产业链分析29 玩家分析如需进入AIGC相关讨论群、获取相关访谈实录等,请扫码添加量子位智库小助手;如您深耕于AIGC领域,希望和分析师进一步交流或联系业务,请扫码添加分析师(注明身份及来意)量子位硬科技深度产业报告 AI生成内容 AIGC关键结论1. 区别于Generative AI和Synthetic media,AIGC中的跨模态生成和策略/线索生成应当得到重视,这两者也是AIGC长期的重要价值增长点。2. 按照模态区分,AIGC可分为音频生成、文本生成、图像生成、视频生成及图像、视频、文本间的跨模态生成,细分场景众多,跨
3、模态生成需要重点关注。Game AI和虚拟人生成是目前变现较为明确的两大综合赛道,预计对原行业产生整体性影响。3. 以下技术要素值得关注:长/开放式文本生成、NeRF模型、Diffusion模型、跨模态大型预训练模型、小样本学习及自监督算法、强化学习及环境学习。以下技术场景值得关注:闲聊式文本生成、个性化营销文本、富情感及细节TTS、拼凑式视频生成、基于文本的AI绘画、语音复刻。5. 除降本增效、提供参考外,AIGC的以下两点价值更值得关注:对不同模态元素进行二次拆解组合,改变内容生产逻辑及形式;和其他AI系统或数据库进行联动,有实现高度个性化/高频优化。6. 我国AIGC行业仍处于刚刚起步阶
4、段,距离大规模验证和体系化发展仍有距离,“模块分拆+个性化推荐”的“泛AIGC”形式预计将有所发展。我国AIGC行业阶段划分AIGC相关技术场景及成熟度分类我国AIGC产业链划分AIGC相关业务场景分析感谢以下机构及个人参加深度访谈:倒映有声、Deepmusic、高林教授、黄民烈教授、rct AI、腾讯AI Lab、小冰公司量子位硬科技深度产业报告 AI生成内容 AIGC技术及场景篇1.1 技术定义AIGC全称为AI-Generated Content,指基于生成对抗网络GAN、大型预训练模型等人工智能技术,通过已有数据寻找规律,并通过适当的泛化能力生成相关内容的技术。与之相类似的概念还包括S
5、ynthetic media,合成式媒体,主要指基于AI生成的文字、图像、音频等。Gartner也提出了相似概念Generative AI,也即生成式AI。生成式AI是指该技术从现有数据中生成相似的原始数据。相较于量子位智库认为的AIGC,这一概念的范围较狭窄。Gartner2021年预测:人工智能对人类和社会的影响给出积极预测: 至2023年将有20%的内容被生成式AI所创建 至2025年,Gartner预计生成式AI产生的数据将占所有数据的10%,而今天这个比例不到1% 根据Gartner披露的“人工智能技术成熟度曲线”,生成式AI仍处于萌芽期,但其广阔的应用场景和巨大需求空间吸引着大量资
6、本和技术的投入,预计将在2-5年内实现规模化应用一方面,这一概念忽略了跨模态生成(如基于文本生成图像或基于文本生成视频)这一愈加重要的AIGC部分。我们会在下一部分对跨模态生成进行重点讲解。另一方面,在结合现有技术能力和落地场景进行分析后,我们认为“生成”和“内容”都应该采取更为广泛的概念。例如,生成中可以包含基于线索的部分生成、完全自主生成和基于底稿的优化生成。内容方面,不仅包括常见的图像、文本、音频等外显性内容,同样也包括策略、剧情、训练数据等内在逻辑内容。从特定角度来看,AI内容生成意味着AI开始在现实内容中承担新的角色,从“观察、预测”拓展到“直接生成、决策”。从商业模式来看,我们认为
7、,AIGC本质上是一种AI赋能技术,能够通过其高通量、低门槛、高自由度的生成能力广泛服务于各类内容的相关场景及生产者。因此,我们不会将其定义为PGCUGC之后的新内容创作模式,而是认为其在商业模式上会有大量其他交叉。我们会在价值篇对其商业模式进行进一步展开。1.2 技术及落地场景介绍基于模态我们认为,目前AIGC生成正在完成从简单的降本增效(以生成金融/体育新闻为代表)向创造额外价值(以提供绘画创作素材为代表)转移,跨模态/多模态内容成为关键的发展节点。技术视角下,我们认为以下场景将成为未来发展的重点:文本-图像-视频的跨模态生成、2D到3D生成、多模态理解结合生成。后文将对以上技术场景的技术
8、原理、现有进展、关键瓶颈等进行展开。商业视角下我们认为,未来3年内,虚拟人生成和游戏AI这两种综合性的AIGC场景将趋于商业化成熟。在这一部分,我们会基于不同的模态介绍对应的技术和商业场景,并给出各场景下的代表机构及发展现状。下图中的绿色部分,是我们认为2-3年内具有快速增长潜力的细分赛道。具体原因我们将在对应位置进行具体展开。1量子位硬科技深度产业报告 AI生成内容 AIGC较为广泛地实际应用、技术细节仍待进一步提升 底层技术原理基本明确,预计1-2年内将规模化应用 底层技术原理仍待完善,增长可期文本生成以结构性新闻撰写、内容续写、诗词创作等细分功能为代表,基于NLP技术的文本生成可以算作是
9、AIGC中发展最早的一部分技术,也已经在新闻报道、对话机器人等应用场景中大范围商业落地。量子位智库在此看好个性化文本生成以及实时文字生成交互。 细分技术介绍大型预训练模型成为当下主流做法与关键技术节点。一方面,2020年,1750亿参数的GPT-3在问答、摘要、翻译、续写等语言类任务上均展现出了优秀的通用能力,证明了“大力出奇迹”在语言类模型上的可行性。自此之后,海量数据、更多参数、多元的数据采集渠道等成为国内清华大学、智源研究院、达摩院、华为、北京大学、百度等参与者的关注点。目前,大型文本预训练模型作为底层工具,商业变现能力逐渐清晰。以GPT-3为例,其文本生成能力已被直接应用于Writes
10、onic、 Conversion.ai、 Snazzy AI、 Copysmith、 Copy.ai、 Headlime等文本写作/编辑工具中。同时也被作为部分文本内容的提供方,服务于AI dungeon等文本具有重要意义的延展应用领域。2量子位硬科技深度产业报告 AI生成内容 AIGC另一方面,以Transformer架构为重要代表,相关的底层架构仍在不断精进。研究者们正通过增加K-adapter、优化Transformer架构、合理引入知识图谱及知识库、增加特定任务对应Embedding等方式,增加文本对于上下文的理解与承接能力、对常识性知识的嵌入能力、中长篇幅生成能力、生成内容的内在逻辑
11、性等。以下为各技术场景下对应的基本原理。细分场景技术原理通过随机Mask(即遮挡)数据库文本中的词语或语段,让神经网络自主学习复原被遮挡部分,从而拥有“猜测”缺失内容的能力,产出预训练内容续写模型。再通过大规模预训练模型理解上文或给定条件,从概率层面推测最符合要求的输出结果。如完形填空和文章续写其本质是借助超大规模的训练参数猜测上下文的过程。首先通过词嵌入(Word Embedding)将字、词、句进行区分,然后基于特征评分、序列标注、分类模型等提取内容特征计算相关文本单元权重;其次选择相应的文本单元子集组成摘要候选集,完成内容选择;最后是针对字数要求等限定条件,对候选集的内容进行整理形成最终
12、摘要,完摘要/标题生成成内容组织。以TLDR为重要代表其细分路径又包含生成式文本摘要(AATS),即形成抽象认知并创造新词灵活概括,和抽取式文本摘要(EATS),即直接抽取原始素材并拼接成简单概要。主流思路是分离文本属性及文本内容。文本风格迁移隐式方法即使用某类无监督学习学习或强化学习模式将文本属性及内容自动分离,常见的有生成对抗方式,即通过GAN实现目标属性和文本属性完全由不同的编码控制的状态。实现情绪、时态、性别、政治倾向等的分离及迁移显式方法首先寻找并删除代表文风的短语,其次检索与目标文风最匹配的相似短语,最后生成目标语句并保证语句通顺、原意不变。要实现多种风格的转化,典型方法有在通用语
13、料库上预训练基于Transformer的语言模型来初始化编码器-解码器,然后以多种风格语言模型作为鉴别器来增强其对多个目标风格维度的转换能力。对话式文本生成适用于智能客服等任务型和闲聊型机器人等非任务型人机交互场景,可分类为管道模式及端对端模式。管道模式即将对话拆分成四个主要模块(自然语言理解、历史状态追踪、对话策略选择、自然语言生成)并分别进行模型训练。端对端模式将对话过程转化为历史对话信息到系统回复的映射问题,利用一个Seq2Seq框架构建整个对话系统,并利用强化学习摆脱大量标注数据的限制,通过离散隐向量学习句子之间的依赖关系。整段文本生成对话式&结构性文本生成结构性的文本生成,首先通过注
14、意力机制、多层感知器等系统进行语句内容预选,对数值、时间等类型数据进行推理,增强数据间的结构信息;其次通过Transformer等模式结合上下文进行推导,控制句法及文本连贯性,将语义与句法统一分析,最后采用Seq2Seq等模式,以BiLSTM为基础构建文本生成器,生成最终文本。目前而言,文本生成普遍具有上下文间逻辑问题、关键信息位置混淆、内容无中生有等问题从现有的落地场景来看,我们将其划分为应用型文本和创作型文本生成,前者的进展明显优于后者。此外,从应用推广的角度来说,辅助文本创作是目前落地最为广泛的场景。 应用型文本生成应用型文本大多为结构化写作,以客服类的聊天问答、新闻撰写等为核心场景。2
15、015年发展至今,商业化应用已较为广泛,最为典型的是基于结构化数据或规范格式,在特定情景类型下的文本生成,如体育新闻、金融新闻、3量子位硬科技深度产业报告 AI生成内容 AIGC公司财报、重大灾害等简讯写作。据分析师评价,由AI完成的新闻初稿已经接近人类记者在30分钟内完成的报道水准。Narrative Science 创始人甚至曾预测,到 2030 年, 90%以上的新闻将由机器人完成。在结构化写作场景下,代表性垂直公司包括Automated Insights(美联社Wordsmith)、Narrative Science、textengine.io、AX Semantics、Yseop、A
16、rria、Retresco、Viable、澜舟科技等。同时也是小冰公司、腾讯、百度等综合性覆盖AIGC领域公司的重点布局领域。 创作型文本生成创作型文本主要适用于剧情续写、营销文本等细分场景等,具有更高的文本开放度和自由度,需要一定的创意和个性化,对生成能力的技术要求更高。我们使用了市面上的小说续写、文章生成等AIGC工具。发现长篇幅文字的内部逻辑仍然存在较明显的问题、且生成稳定性不足,尚不适合直接进行实际使用。据聆心智能创始人黄民烈教授介绍,目前文字生成主要捕捉的是浅层次,词汇上统计贡献的问题。但长文本生成还需要满足语义层次准确、在篇章上连贯通顺的要求,长文本写作对于议论文写作、公文写作等等
17、具有重要意义。未来四到五年,可能会出现比较好的千字内容。除去本身的技术能力之外,由于人类对文字内容的消费并不是单纯理性和基于事实的,创作型文本还需要特别关注情感和语言表达艺术。我们认为,短期内创作型文本更适合在特定的赛道下,基于集中的训练数据及具体的专家规则进行场景落地。在创作型文本领域,代表性的国内外公司包括Anyword、Phrasee、Persado、Pencil、Copy.ai、Friday.ai、Retresco、Writesonic、 Conversion.ai、 Snazzy AI、Rasa.io、LongShot.AI、彩云小梦等。 文本辅助生成除去端到端进行文本创作外,辅助文
18、本写作其实是目前国内供给及落地最为广泛的场景。主要为基于素材爬取的协助作用,例如定向采集信息素材、文本素材预处理、自动聚类去重,并根据创作者的需求提供相关素材。尽管目前能够提升生产力,但我们认为相对于实现技术意义上的AI生成,能否结合知识图谱等提供素材联想和语句参考等更具有实用意义。这部分的国内代表产品包括写作猫、Gilso写作机器人、Get写作、写作狐、沃沃AI人工智能写作。 重点关注场景长期来看,我们认为闲聊型文本交互将会成为重要潜在场景,例如虚拟伴侣、游戏中的NPC个性化交互等。2022年夏季上线的社交AIGC叙事平台Hidden Door以及基于GPT-3开发的文本探索类游戏AI du
19、ngeon均已获得了不错的消费者反馈。随着线上社交逐渐成为了一种常态,社交重点向转移AI具有其合理性,我们预估未来1-2年内就会出现明显增长。目前较为典型的包括小冰公司推出的小冰岛,集中在精神心理领域的聆心智能、开发了AI dungeon的Latitude.io等。代表公司:聆心智能由国内NLP、对话系统领域专家黄民烈教授创办,专注于针对精神心理的AI驱动的高质量数字疗法。在技术上,聆心智能让AI围绕认知、情绪和行为三个维度对进行评估和干预。以多模态对话系统为核心交互框架,通过丰富的策略设计,让AI和用户产生足够的情感链接,生成用户个人模型及千人千面的治疗方案,解决用户的情绪困扰,完成心理治疗
20、。目前,聆心智能已与北医六院、湘雅二院、中日友好医院、清华大学玉泉医院等达成合作。4量子位硬科技深度产业报告 AI生成内容 AIGC此外,量子位智库重点推荐AI写作在个性化内容营销中的应用场景。该场景的应用与经济价值目前已经在国外Oneword等公司中得到明确验证,而国内目前尚未出现相关布局。有关这一场景,我们将在产业篇的延展细分赛道进行详细展开。音频及文字音频生成整体而言,此类技术可应用于流行歌曲、乐曲、有声书的内容创作,以及视频、游戏、影视等领域的配乐创作,大大降低音乐版权的采购成本。我们目前最为看好的场景是自动生成实时配乐、语音克隆以及心理安抚等功能性音乐的自动生成。 TTS(Text-
21、to-speech)场景TTS在AIGC领域下已相当成熟,广泛应用于客服及硬件机器人、有声读物制作、语音播报等任务。例如倒映有声与音频客户端“云听”APP合作打造AI新闻主播,提供音频内容服务的一站式解决方案,以及喜马拉雅运用TTS技术重现单田芳声音版本的毛氏三兄弟和历史类作品。这种场景为文字内容的有声化提供了规模化能力。目前技术上的的关键,在于如何通过富文本信息(如文本的深层情感、深层语义了解等)更好的表现其中的抑扬顿挫,以及基于用户较少的个性化数据得到整体的复制能力(如小样本迁移学习)。基于深度学习的端到端语音合成模式也正在逐步替代传统的拼接及参数法,代表模型包括WaveNet、Deep
22、Voice及Tacotron等。目前的垂直代表公司包括倒映有声、科大讯飞、思必驰(DUI)、Readspeaker、DeepZen和Sonantic。随着内容媒体的变迁,短视频内容配音已成为重要场景。部分软件能够基于文档自动生成解说配音,上线有150+款包括不同方言和音色的AI智能配音主播。代表公司有九锤配音、加音、XAudioPro、剪映等。在TTS领域,语音克隆值得特别关注。语音克隆是本质上属于指定了目标语音(如特定发言人)的TTS。技术流程如下:该技术目前被应用于虚拟歌手演唱、自动配音等,在声音IP化的基础上,对于动画、电影、以及虚拟人行业有重要意义。代表公司包括标贝科技、Modulat
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AIGC深度产业报告 量子位智库-34正式版 AIGC 深度 产业 报告 量子 位智库 34 正式版
限制150内