书签分享收藏举报版权申诉 / 36

立即下载

当前位置：首页 > 管理文献 > 产品策划 > AIGC深度产业报告量子位智库-34正式版.doc

AIGC深度产业报告量子位智库-34正式版.doc

上传人：阿***

文档编号：89764175

上传时间：2023-05-12

格式：DOC

页数：36

大小：8.09MB

( 4.5 )

《AIGC深度产业报告量子位智库-34正式版.doc》由会员分享，可在线阅读，更多相关《AIGC深度产业报告量子位智库-34正式版.doc（36页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、AIGC，AI-Generated ContentAIGC/AI生成内容Industry insight report产业展望报告在技术上，AIGC已经可以完成哪些创作？在价值上，AIGC除了直接生成艺术作品还能做什么？在未来，AIGC将如何改变内容及相关产业？ .量子位硬科技深度产业报告 AI生成内容 AIGC目录技术及场景篇1 技术定义2 技术及落地场景介绍基于模态2 文本生成5 音频及文字音频生成6 图像生成9 视频生成11 图像、视频、文本间跨模态生成15 策略生成15 技术及落地场景介绍综合赛道15 Game AI17 虚拟人生成19 相关预测产业篇20 价值分析21 细

2、分赛道分析21 内容领域24 延展领域26 行业发展阶段分析29 产业链分析29 玩家分析如需进入AIGC相关讨论群、获取相关访谈实录等，请扫码添加量子位智库小助手；如您深耕于AIGC领域，希望和分析师进一步交流或联系业务，请扫码添加分析师（注明身份及来意）量子位硬科技深度产业报告 AI生成内容 AIGC关键结论1. 区别于Generative AI和Synthetic media，AIGC中的跨模态生成和策略/线索生成应当得到重视，这两者也是AIGC长期的重要价值增长点。2. 按照模态区分，AIGC可分为音频生成、文本生成、图像生成、视频生成及图像、视频、文本间的跨模态生成，细分场景众多，跨

3、模态生成需要重点关注。Game AI和虚拟人生成是目前变现较为明确的两大综合赛道，预计对原行业产生整体性影响。3. 以下技术要素值得关注：长/开放式文本生成、NeRF模型、Diffusion模型、跨模态大型预训练模型、小样本学习及自监督算法、强化学习及环境学习。以下技术场景值得关注：闲聊式文本生成、个性化营销文本、富情感及细节TTS、拼凑式视频生成、基于文本的AI绘画、语音复刻。5. 除降本增效、提供参考外，AIGC的以下两点价值更值得关注：对不同模态元素进行二次拆解组合，改变内容生产逻辑及形式；和其他AI系统或数据库进行联动，有实现高度个性化/高频优化。6. 我国AIGC行业仍处于刚刚起步阶

4、段，距离大规模验证和体系化发展仍有距离，“模块分拆+个性化推荐”的“泛AIGC”形式预计将有所发展。我国AIGC行业阶段划分AIGC相关技术场景及成熟度分类我国AIGC产业链划分AIGC相关业务场景分析感谢以下机构及个人参加深度访谈：倒映有声、Deepmusic、高林教授、黄民烈教授、rct AI、腾讯AI Lab、小冰公司量子位硬科技深度产业报告 AI生成内容 AIGC技术及场景篇1.1 技术定义AIGC全称为AI-Generated Content，指基于生成对抗网络GAN、大型预训练模型等人工智能技术，通过已有数据寻找规律，并通过适当的泛化能力生成相关内容的技术。与之相类似的概念还包括S

5、ynthetic media，合成式媒体，主要指基于AI生成的文字、图像、音频等。Gartner也提出了相似概念Generative AI，也即生成式AI。生成式AI是指该技术从现有数据中生成相似的原始数据。相较于量子位智库认为的AIGC，这一概念的范围较狭窄。Gartner2021年预测：人工智能对人类和社会的影响给出积极预测：至2023年将有20%的内容被生成式AI所创建至2025年，Gartner预计生成式AI产生的数据将占所有数据的10%，而今天这个比例不到1% 根据Gartner披露的“人工智能技术成熟度曲线”，生成式AI仍处于萌芽期，但其广阔的应用场景和巨大需求空间吸引着大量资

6、本和技术的投入，预计将在2-5年内实现规模化应用一方面，这一概念忽略了跨模态生成（如基于文本生成图像或基于文本生成视频）这一愈加重要的AIGC部分。我们会在下一部分对跨模态生成进行重点讲解。另一方面，在结合现有技术能力和落地场景进行分析后，我们认为“生成”和“内容”都应该采取更为广泛的概念。例如，生成中可以包含基于线索的部分生成、完全自主生成和基于底稿的优化生成。内容方面，不仅包括常见的图像、文本、音频等外显性内容，同样也包括策略、剧情、训练数据等内在逻辑内容。从特定角度来看，AI内容生成意味着AI开始在现实内容中承担新的角色，从“观察、预测”拓展到“直接生成、决策”。从商业模式来看，我们认为

7、，AIGC本质上是一种AI赋能技术，能够通过其高通量、低门槛、高自由度的生成能力广泛服务于各类内容的相关场景及生产者。因此，我们不会将其定义为PGCUGC之后的新内容创作模式，而是认为其在商业模式上会有大量其他交叉。我们会在价值篇对其商业模式进行进一步展开。1.2 技术及落地场景介绍基于模态我们认为，目前AIGC生成正在完成从简单的降本增效（以生成金融/体育新闻为代表）向创造额外价值（以提供绘画创作素材为代表）转移，跨模态/多模态内容成为关键的发展节点。技术视角下，我们认为以下场景将成为未来发展的重点：文本-图像-视频的跨模态生成、2D到3D生成、多模态理解结合生成。后文将对以上技术场景的技术

8、原理、现有进展、关键瓶颈等进行展开。商业视角下我们认为，未来3年内，虚拟人生成和游戏AI这两种综合性的AIGC场景将趋于商业化成熟。在这一部分，我们会基于不同的模态介绍对应的技术和商业场景，并给出各场景下的代表机构及发展现状。下图中的绿色部分，是我们认为2-3年内具有快速增长潜力的细分赛道。具体原因我们将在对应位置进行具体展开。1量子位硬科技深度产业报告 AI生成内容 AIGC较为广泛地实际应用、技术细节仍待进一步提升底层技术原理基本明确，预计1-2年内将规模化应用底层技术原理仍待完善，增长可期文本生成以结构性新闻撰写、内容续写、诗词创作等细分功能为代表，基于NLP技术的文本生成可以算作是

9、AIGC中发展最早的一部分技术，也已经在新闻报道、对话机器人等应用场景中大范围商业落地。量子位智库在此看好个性化文本生成以及实时文字生成交互。细分技术介绍大型预训练模型成为当下主流做法与关键技术节点。一方面，2020年，1750亿参数的GPT-3在问答、摘要、翻译、续写等语言类任务上均展现出了优秀的通用能力，证明了“大力出奇迹”在语言类模型上的可行性。自此之后，海量数据、更多参数、多元的数据采集渠道等成为国内清华大学、智源研究院、达摩院、华为、北京大学、百度等参与者的关注点。目前，大型文本预训练模型作为底层工具，商业变现能力逐渐清晰。以GPT-3为例，其文本生成能力已被直接应用于Writes

10、onic、 Conversion.ai、 Snazzy AI、 Copysmith、 Copy.ai、 Headlime等文本写作/编辑工具中。同时也被作为部分文本内容的提供方，服务于AI dungeon等文本具有重要意义的延展应用领域。2量子位硬科技深度产业报告 AI生成内容 AIGC另一方面，以Transformer架构为重要代表，相关的底层架构仍在不断精进。研究者们正通过增加K-adapter、优化Transformer架构、合理引入知识图谱及知识库、增加特定任务对应Embedding等方式，增加文本对于上下文的理解与承接能力、对常识性知识的嵌入能力、中长篇幅生成能力、生成内容的内在逻辑

11、性等。以下为各技术场景下对应的基本原理。细分场景技术原理通过随机Mask（即遮挡）数据库文本中的词语或语段，让神经网络自主学习复原被遮挡部分，从而拥有“猜测”缺失内容的能力，产出预训练内容续写模型。再通过大规模预训练模型理解上文或给定条件，从概率层面推测最符合要求的输出结果。如完形填空和文章续写其本质是借助超大规模的训练参数猜测上下文的过程。首先通过词嵌入(Word Embedding)将字、词、句进行区分，然后基于特征评分、序列标注、分类模型等提取内容特征计算相关文本单元权重；其次选择相应的文本单元子集组成摘要候选集，完成内容选择；最后是针对字数要求等限定条件，对候选集的内容进行整理形成最终

12、摘要，完摘要/标题生成成内容组织。以TLDR为重要代表其细分路径又包含生成式文本摘要（AATS），即形成抽象认知并创造新词灵活概括，和抽取式文本摘要（EATS），即直接抽取原始素材并拼接成简单概要。主流思路是分离文本属性及文本内容。文本风格迁移隐式方法即使用某类无监督学习学习或强化学习模式将文本属性及内容自动分离，常见的有生成对抗方式，即通过GAN实现目标属性和文本属性完全由不同的编码控制的状态。实现情绪、时态、性别、政治倾向等的分离及迁移显式方法首先寻找并删除代表文风的短语，其次检索与目标文风最匹配的相似短语，最后生成目标语句并保证语句通顺、原意不变。要实现多种风格的转化，典型方法有在通用语

13、料库上预训练基于Transformer的语言模型来初始化编码器-解码器，然后以多种风格语言模型作为鉴别器来增强其对多个目标风格维度的转换能力。对话式文本生成适用于智能客服等任务型和闲聊型机器人等非任务型人机交互场景，可分类为管道模式及端对端模式。管道模式即将对话拆分成四个主要模块（自然语言理解、历史状态追踪、对话策略选择、自然语言生成）并分别进行模型训练。端对端模式将对话过程转化为历史对话信息到系统回复的映射问题，利用一个Seq2Seq框架构建整个对话系统，并利用强化学习摆脱大量标注数据的限制，通过离散隐向量学习句子之间的依赖关系。整段文本生成对话式&结构性文本生成结构性的文本生成，首先通过注

14、意力机制、多层感知器等系统进行语句内容预选，对数值、时间等类型数据进行推理，增强数据间的结构信息；其次通过Transformer等模式结合上下文进行推导，控制句法及文本连贯性，将语义与句法统一分析，最后采用Seq2Seq等模式，以BiLSTM为基础构建文本生成器，生成最终文本。目前而言，文本生成普遍具有上下文间逻辑问题、关键信息位置混淆、内容无中生有等问题从现有的落地场景来看，我们将其划分为应用型文本和创作型文本生成，前者的进展明显优于后者。此外，从应用推广的角度来说，辅助文本创作是目前落地最为广泛的场景。应用型文本生成应用型文本大多为结构化写作，以客服类的聊天问答、新闻撰写等为核心场景。2

15、015年发展至今，商业化应用已较为广泛，最为典型的是基于结构化数据或规范格式，在特定情景类型下的文本生成，如体育新闻、金融新闻、3量子位硬科技深度产业报告 AI生成内容 AIGC公司财报、重大灾害等简讯写作。据分析师评价，由AI完成的新闻初稿已经接近人类记者在30分钟内完成的报道水准。Narrative Science 创始人甚至曾预测，到 2030 年， 90%以上的新闻将由机器人完成。在结构化写作场景下，代表性垂直公司包括Automated Insights（美联社Wordsmith）、Narrative Science、textengine.io、AX Semantics、Yseop、A

16、rria、Retresco、Viable、澜舟科技等。同时也是小冰公司、腾讯、百度等综合性覆盖AIGC领域公司的重点布局领域。创作型文本生成创作型文本主要适用于剧情续写、营销文本等细分场景等，具有更高的文本开放度和自由度，需要一定的创意和个性化，对生成能力的技术要求更高。我们使用了市面上的小说续写、文章生成等AIGC工具。发现长篇幅文字的内部逻辑仍然存在较明显的问题、且生成稳定性不足，尚不适合直接进行实际使用。据聆心智能创始人黄民烈教授介绍，目前文字生成主要捕捉的是浅层次，词汇上统计贡献的问题。但长文本生成还需要满足语义层次准确、在篇章上连贯通顺的要求，长文本写作对于议论文写作、公文写作等等

17、具有重要意义。未来四到五年，可能会出现比较好的千字内容。除去本身的技术能力之外，由于人类对文字内容的消费并不是单纯理性和基于事实的，创作型文本还需要特别关注情感和语言表达艺术。我们认为，短期内创作型文本更适合在特定的赛道下，基于集中的训练数据及具体的专家规则进行场景落地。在创作型文本领域，代表性的国内外公司包括Anyword、Phrasee、Persado、Pencil、Copy.ai、Friday.ai、Retresco、Writesonic、 Conversion.ai、 Snazzy AI、Rasa.io、LongShot.AI、彩云小梦等。文本辅助生成除去端到端进行文本创作外，辅助文

18、本写作其实是目前国内供给及落地最为广泛的场景。主要为基于素材爬取的协助作用，例如定向采集信息素材、文本素材预处理、自动聚类去重，并根据创作者的需求提供相关素材。尽管目前能够提升生产力，但我们认为相对于实现技术意义上的AI生成，能否结合知识图谱等提供素材联想和语句参考等更具有实用意义。这部分的国内代表产品包括写作猫、Gilso写作机器人、Get写作、写作狐、沃沃AI人工智能写作。重点关注场景长期来看，我们认为闲聊型文本交互将会成为重要潜在场景，例如虚拟伴侣、游戏中的NPC个性化交互等。2022年夏季上线的社交AIGC叙事平台Hidden Door以及基于GPT-3开发的文本探索类游戏AI du

19、ngeon均已获得了不错的消费者反馈。随着线上社交逐渐成为了一种常态，社交重点向转移AI具有其合理性，我们预估未来1-2年内就会出现明显增长。目前较为典型的包括小冰公司推出的小冰岛，集中在精神心理领域的聆心智能、开发了AI dungeon的Latitude.io等。代表公司：聆心智能由国内NLP、对话系统领域专家黄民烈教授创办，专注于针对精神心理的AI驱动的高质量数字疗法。在技术上，聆心智能让AI围绕认知、情绪和行为三个维度对进行评估和干预。以多模态对话系统为核心交互框架，通过丰富的策略设计，让AI和用户产生足够的情感链接，生成用户个人模型及千人千面的治疗方案，解决用户的情绪困扰，完成心理治疗

20、。目前，聆心智能已与北医六院、湘雅二院、中日友好医院、清华大学玉泉医院等达成合作。4量子位硬科技深度产业报告 AI生成内容 AIGC此外，量子位智库重点推荐AI写作在个性化内容营销中的应用场景。该场景的应用与经济价值目前已经在国外Oneword等公司中得到明确验证，而国内目前尚未出现相关布局。有关这一场景，我们将在产业篇的延展细分赛道进行详细展开。音频及文字音频生成整体而言，此类技术可应用于流行歌曲、乐曲、有声书的内容创作，以及视频、游戏、影视等领域的配乐创作，大大降低音乐版权的采购成本。我们目前最为看好的场景是自动生成实时配乐、语音克隆以及心理安抚等功能性音乐的自动生成。 TTS（Text-

21、to-speech）场景TTS在AIGC领域下已相当成熟，广泛应用于客服及硬件机器人、有声读物制作、语音播报等任务。例如倒映有声与音频客户端“云听”APP合作打造AI新闻主播，提供音频内容服务的一站式解决方案，以及喜马拉雅运用TTS技术重现单田芳声音版本的毛氏三兄弟和历史类作品。这种场景为文字内容的有声化提供了规模化能力。目前技术上的的关键，在于如何通过富文本信息（如文本的深层情感、深层语义了解等）更好的表现其中的抑扬顿挫，以及基于用户较少的个性化数据得到整体的复制能力（如小样本迁移学习）。基于深度学习的端到端语音合成模式也正在逐步替代传统的拼接及参数法，代表模型包括WaveNet、Deep

22、Voice及Tacotron等。目前的垂直代表公司包括倒映有声、科大讯飞、思必驰（DUI）、Readspeaker、DeepZen和Sonantic。随着内容媒体的变迁，短视频内容配音已成为重要场景。部分软件能够基于文档自动生成解说配音，上线有150+款包括不同方言和音色的AI智能配音主播。代表公司有九锤配音、加音、XAudioPro、剪映等。在TTS领域，语音克隆值得特别关注。语音克隆是本质上属于指定了目标语音（如特定发言人）的TTS。技术流程如下：该技术目前被应用于虚拟歌手演唱、自动配音等，在声音IP化的基础上，对于动画、电影、以及虚拟人行业有重要意义。代表公司包括标贝科技、Modulat

23、e、overdub、replika、Replica Studios、Lovo、Voice mod、 Resemble Ai、Respeecher、DeepZen、Sonantic、VoiceID 、 Descript。乐曲/歌曲生成AIGC在词曲创作中的功能可被逐步拆解为作词（NLP中的文本创作/续写）、作曲、编曲、人声录制和整体混音。目前而言，AIGC已经支持基于开头旋律、图片、文字描述、音乐类型、情绪类型等生成特定乐曲。其中，AI作曲可以简单理解为“以语言模型（目前以Transformer为代表，如谷歌Megenta、OpenAI Jukebox、AIVA等）为中介，对音乐数据进行双向转

24、化（通过MIDI等转化路径）”。此方面代表性的模型包括MelodyRNN、Music Transformer。据Deepmusic介绍，为提升整体效率，在这一过程中，由于相关数据巨大，往往需要对段落、调性等高维度的乐理知识进行专业提取，而节奏、音高、音长等低维度乐理信息由AI自动完成提取。5量子位硬科技深度产业报告 AI生成内容 AIGC通过这一功能，创作者即可得到AI创作的纯音乐或乐曲中的主旋律。2021年末，贝多芬管弦乐团在波恩首演人工智能谱写完成的贝多芬未完成之作第十交响曲，即为AI基于对贝多芬过往作品的大量学习，进行自动续写。AI编曲则指对AI基于主旋律和创作者个人的偏好，生成不同乐器

25、的对应和弦（如鼓点、贝斯、钢琴等），完成整体编配。在这部分中，各乐器模型将通过无监督模型，在特定乐曲/情绪风格内学习主旋律和特定要素间的映射关系，从而基于主旋律生成自身所需和弦。对于人工而言，要达到乐曲编配的职业标准，需要7-10年的学习实践。人声录制则广泛见于虚拟偶像的表演现场（前面所说的语音克隆），通过端到端的声学模型和神经声码器完成，可以简单理解为将输入文本替换为输入MIDI数据的声音克隆技术。混音指将主旋律、人声和各乐器和弦的音轨进行渲染及混合，最终得到完整乐曲。该环节涉及的AI生成能力较少。该场景下的代表企业包括Deepmusic、网易-有灵智能创作平台、Amper Music、AI

26、VA、Landr、IBM Watson Music、Magenta、Loudly、Brain.FM、Splash、Flow machines。其中，自动编曲功能已在国内主流音乐平台上线，并成为相关大厂的重点关注领域。以QQ音乐为例，就已成为Amper music的API合作伙伴。对这一部分工作而言，最大的挑战在于音乐数据的标注。在标注阶段，不仅需要需要按时期、流派、作曲家等特征，对训练集中乐曲的旋律、曲式结构、和声等特征进行描述，还要将其有效编码为程序语言。此外，还需要专业人员基于乐理进行相关调整润色。以Deepmusic为例，音乐标注团队一直专注在存量歌曲的音乐信息标注工作上，目前已经形成了

27、全球最精确的华语歌曲音乐信息库，为音乐信息检索(MIR)技术研究提供数据支持。代表公司：Deepmusic公司致力于运用AI技术从作词、作曲、编曲、演唱、混音等方面全方位降低音乐创作及制作门槛，为音乐行业提供新的产品体验，提升效率。产品包括针对视频生成配乐的配乐猫、支持非音乐专业人员创作的口袋音乐、可AI生成歌词的 LYRICA、AI作曲软件LAZYCOMPOSER。目前已与国内多家音乐平台厂商达成合作。场景推荐我们认为，以乐曲二创、辅助创作等场景为代表，AI编曲将在短期内成为AI音频生成中的快速成长赛道。特别是由于可以指定曲目风格、情绪、乐器等，AIGC音乐生成对于影视剧、游戏等多样化、乃至

28、实时的背景音乐生成有重要意义。图像生成关键技术介绍生成对抗网络GAN 图像生成传统思路GAN指Generative Adversarial Nets，生成式对抗网络，由生成器和判别器两部分组成，生成器将抓取数据、产生新的生成数据，并将其混入原始数据中送交判别器区分。这一过程将反复进行，直到判别器无法以超过50%的准确度分辨出真实样本。6量子位硬科技深度产业报告 AI生成内容 AIGC相较于2014年初现期，现有的GAN在神经网络架构、损失函数设计、模型训练稳定性、模型崩溃问题上取得了相应突破，提升了最终图像的特定细节、内在逻辑、生成速度等。但要在实际应用中大规模稳定应用，GAN仍需解决以下

29、问题：GAN领域仍待解决的问题及创新思路解决训练不稳定问题GAN 模型的相互博弈过程容易造成训练不稳定，使得训练难以收敛。近期突破思路有Relativistic GAN。有别于传统 GAN 测量生成样本是否为真的概率这一做法，Relativistic GAN 将关注点放在测量生成样本比真实样本“更真”的概率，这一尝试使得 GAN 获得了更好的收敛性。缓解GAN的模式坍塌 model collapse，即生成样本大量重复相似模式坍塌被认为是应用 GAN 进行图像生成时最难解决的问题之一，它会造成训练结果冗余、生成图像质量差、样本单一等问题。近期突破性思路有包含两个判别网络的D2GAN。 GA

30、N的结构改善将 GAN 与机器学习中最新的理论成果进行交叉训练，引入迁移学习、强化学习等，使 GAN 与计算机图形学等技术更好地融合，推动明显结构的改善，有望成为下一步的研究热点。 GAN的压缩目前图像生成技术想要落地，势必要根据需求调整模型的大小，结合基于“知识蒸馏”的模型压缩方法，进行匹配需求的优化和压缩，从而内嵌入小型软件中，拓宽应用领域同样为当前的研究热点。扩散模型Diffusion Model 新一代图像生成主流模型2022年，Diffusion model成为图像生成领域的重要发现，甚至有超越GAN的势头。尽管大多通过Imagen、 DALLE 2等项目知名，但Diffusion本

31、身服务于图像生成。我们将在此对Diffusion model进行介绍。Diffusion是指扩散模型。最初受到热力学概念的启发，扩散模型通过增加噪声破坏训练数据来学习，然后找出如何逆转这种噪声过程以恢复原始图像。一旦经过训练，扩散模型就可以应用这些去噪方法从随机输入中合成新颖的“干净”数据。Diffusion模型原理Diffusion模型与其他图像生成模型对比相较于其他的图像生成模型（比如GAN、VAE和基于流的模型），在所需数据更少的背景下，Diffusion Model的图像生成效果有明显提升。我们将在跨模态部分对基于Diffusion model的知名模型，如Guide Diffusio

32、n、Disco Diffusion、DALLE2等进行具体介绍。神经辐射场模型NeRF 符合3D内容消费趋势的新一代模型NeRF通过将场景表示为隐式的神经辐射场，渲染时通过神经网络查询位置上的场景信息生成新视角图像。简单来说，NeRF利用深度学习完成了计算机图形学中的3D渲染任务。此前，2D到3D生成的领域也包含GAN方面的尝试，比如英伟达20-21年推出的GANverse3D能够生成可自定义并生成动画的3D图形。但由于GAN在对抗训练中会受限于样本特征，该模型当时仅适用于汽车、马匹和鸟类。而NerF在很大程度上克服了这一问题。7量子位硬科技深度产业报告 AI生成内容 AIGCNeRF模型基本

33、原理将场景的体积表示优化为向量函数，该函数由位置和视图方向组成的连续5D坐标定义。具体而言，是沿相机射线采样5D坐标，来合成图像将场景表示参数化为一个完全连接深度网络（MLP），该网络将通过5D坐标信息，输出对应的颜色和体积密度值通过体积渲染技术将这些值合成为RGB图像基于可微分的渲染函数，通过最小化合成图像和真实图像之间的残差，优化场景表示随着元宇宙等概念、深度相机等相关基础设施、VR眼镜等消费渠道的发展，3D内容生成将成为未来内容领域的必经之路，可以预见，通过降低对创作者3D建模能力和渲染能力的要求，NeRF对于虚拟人创建、3D训练环境构建、增强现实、线上游戏及电影特效等都具有重要

34、意义。自NeRF在ECCV 2020提出后，NeRF模型也持续在生成范围、生成效果、乃至于所需基础数据上进行改进。例如包含光影变化效果（谷歌团队联合MIT、UC伯克利发布的NeRV）、动态NeRF（HyperNeRF和ST-NeRF），接近实时生成（英伟达的Instant-NGP 和Instant NeRF），全场景NeRF（谷歌，mip-NeRF 360，对合成3D图像的视角和深度有了大幅提升。可以渲染完整的3D物体及场景，并支持在整个空间内从任何角度观看）、单张生成模型（2022年谷歌PHORHUM，甚至能够重现不可视区域；苏黎世联邦理工Pix2NeRF）、可进一步生成3D几何数据（英伟达

35、及斯坦福， EG3D，可生成高分辨率人脸的几何结构）量子位智库认为，其中的关键节点是能够基于单张图像生成3d模型，这预示着3D建模效率的明显提升。基于单张图像生成3D模型PHONUMPix2NeRF尽管NeRF在3D内容生成领域受到了广泛关注，但具有创新架构设计的3D GAN依旧在扮演重要角色。例如，在以单张图像生成3D模型上，作为纯隐式神经网络的NeRF确定位置的速度较慢，计算量较大，会导致画质低、变形等问题。而英伟达与斯坦福大学推出的结合了显隐式神经网络特征的EG3D模型，在速度和内存消耗上都有明显改进。技术及商业场景介绍基于对不同技术原理的梳理，我们将图像生成领域的技术场景划分为图像属

36、性编辑、图像局部生成及更改、以及端到端的图像生成。其中，前两者的落地场景为图像编辑工具，而端到端的图像生成则对应创意图像及功能性图像生成两大落地场景。图像属性及部分编辑属性编辑部分，可以直观的将其理解为经AI降低门槛的PhotoShop。目前而言，图片去水印、自动调整光影、设置滤镜（如Prisma、Versa、Vinci和Deepart）、修改颜色纹理（如DeepAI）、复刻/修改图像风格（DALLE 2 已经可以仅凭借单张图像进行风格复刻、NightCafe等）、提升分辨率等已经常见。关于此类场景，初创公司数量庞大，Adobe等相关业务公司（Adobe Sensai）也在进入这一领域。我们认

37、为，对于8量子位硬科技深度产业报告 AI生成内容 AIGC此类业务而言，引流渠道和与技术流程挂钩的产品使用体验非常重要。现有的代表公司包括美图秀秀（美图AI开放平台）、Radius5、Photokit、Imglarger、Hotpot、Remove.bg、Skylum（Mask AI）、Photodiva。图像部分编辑部分，指部分更改图像部分构成（如英伟达CycleGAN支持将图内的斑马和马进行更改）、修改面部特征（Metaphysics，可调节自身照片的情绪、年龄、微笑等；以Deepfake为代表的图像换脸）。由于技术限制，图像的各部分之间需要通过对齐来避免扭曲、伪影等问题，目前GAN还难以

38、直接生成高质量的完整图像。2019年，曾宣传能够直接生成完整模特图的日本公司DataGrid目前已无动向。但同时，也出现了由局部生成拼接为完整图像的生成思路。典型代表为选入CVPR2022的InsetGAN，该模型由Adobe推出。通过组合多个局部预训练模型生成完整图像的InsetGAN该模型由两类GAN组成，全身GAN （Full-Body GAN），基于中等质量的数据进行训练并生成一个人体和部分GAN，其中包含了多个针对脸部、手、脚等特定部位进行训练的GAN。该模型会通过检测部分GAN生成的特定区域在底层画布，也就是全身GAN生成的区域中的位置，经过裁剪后再将特定区域嵌入。同时，细粒度、分

39、区域的图像编辑能力也较为关键，代表为英伟达的EditGAN。该模型将需要编辑的原图像x嵌入到EditGAN的潜空间，借助语义分割图的相同潜码，将原图x分割成高度精细的语义块（segmentation mask），并得到分割图y。接着，使用简单的交互式数字绘画或标签工具进行手动修改。模型最终会共享潜码的优化，以保持新分割图与真实图像的RGB外观一致，如图所示：EditGAN，支持对图像进行细节修改图像端到端生成此处则主要指基于草图生成完整图像（VansPortrait、谷歌Chimera painter可画出怪物、英伟达GauGAN可画出风景、基于草图生成人脸的DeepFaceDrawing）、

40、有机组合多张图像生成新图像（Artbreeder）、根据指定属性生成目标图像（如Rosebud.ai支持生成虚拟的模特面部）等。该部分包含两类场景，分别为创意图像生成与功能性图像生成。前者大多以NFT等形式体现，后者则大多以营销类海报/界面、logo、模特图、用户头像为主。垂直代表公司/产品包括Deepdream Generator、Rosebud.ai、AI Gahaku、artbreeder、nightcafe、starryai、wombo、deepart、obvious、阿里鹿班、ZMO.ai、Datagrid、诗云科技、道子智能绘画系统等。由于图像的生成复杂度远高于文字，在整体生成上，

41、目前仍然难以达到稳定可靠的生成高质量图像。但据高林教授评价，人脸生成的应用将预计有更快的发展。从VAQ、VAE等技术选型开始，人脸生成的技术研究已经有了较好的效9量子位硬科技深度产业报告 AI生成内容 AIGC果，同时人脸数据集也较为充足。同时，单张的人脸生成价值相对有限。要进一步发挥其价值，可以考虑将其与NeRF、也即3D内容生成相结合，支持从不同的视角和动作还原特定对象面部，能够在发布会、面见客户等场景中有重要作用。而对于近年视频换脸效果不佳的情况，高教授认为这与底层设计优化，例如除纹理相似度之外，在解编码中考虑更多的时间、动作、甚至情感等因素，并叠加考虑数据、渲染能力等因素。视频生成量子

42、位智库认为，视频生成将成为近期跨模态生成领域的中高潜力场景。其背后逻辑是不同技术带来的主流内容形式的变化。本部分主要包括视频属性编辑、视频自动剪辑、视频部分编辑。视频属性编辑例如视频画质修复、删除画面中特定主体、自动跟踪主题剪辑、生成视频特效、自动添加特定内容、视频自动美颜等。代表公司包括Runway ML 、Wisecut、Adobe Sensei、Kaleido、帝视科技、CCTV AIGC、影谱科技、Versa（不咕剪辑）、美图影像研究院等。视频自动剪辑基于视频中的画面、声音等多模态信息的特征融合进行学习，按照氛围、情绪等高级语义限定，对满足条件片段进行检测并合成。目前还主要在技术尝

43、试阶段。典型案例包括Adobe与斯坦福共同研发的AI视频剪辑系统、IBM Watson自动剪辑电影预告片、以及Flow Machine。我国的影谱科技推出了相关产品，能够基于视频中的画面、声音等多模态信息的特征融合进行学习，按照氛围、情绪等高级语义限定，对满足条件片段进行检测并合成。视频部分生成（以Deepfake为典型代表）技术原理视频到视频生成技术的本质是基于目标图像或视频对源视频进行编辑及调试，通过基于语音等要素逐帧复刻，能够完成人脸替换、人脸再现（人物表情或面部特征的改变）、人脸合成（构建全新人物）甚至全身合成、虚拟环境合成等功能。其原理本质与图像生成类似，强调将视频切割成帧，再对每

44、一帧的图像进行处理。视频生成的流程通常可以分为三个步骤，即数据提取、数据训练及转换。以人脸合成为例，首先需要对源人物及目标人物的多角度特征数据提取，然后基于数据对模型进行训练并进行图像的合成，最后基于合成的图像将原始视频进行转换，即插入生成的内容并进行调试，确保每一帧之间的流程度及真实度。目前的技术正在提升修改精准度与修改实时性两方面。落地分析在我们看来，该场景的底层商业逻辑与虚拟偶像类似。本质上是以真人的肖像权作为演员，实际表演者承担“中之人”的角色。其主要落地场景包含两方面：一方面，可以选择服务于明星，在多语言广告、碎片化内容生成等领域使用，快速提升明星的IP价值。例如 Synthesia 为Snoop Dogg制作的广告，通过使用deepfake改变其嘴部动作，就能够将原始广告匹配到另一品牌。另一方面，则可以服务于特定商务场景，例如培训材料分发（如WPP的全球培训视频）、素人直播及短视频拍摄等。由于技术要求，需要对最终脸部所有者进行大量数据采集，需要相关从业公司获取大量面部数据授权，对针对市场需求进行相关运营，完善后续的配套监管和溯源措施。量子位智库接触了“中国马斯克”的创作团队，该团队目前已经将换脸能力在专业MCN中进行商业化。这可能会引入一种新的商业模式，基于生物资产（声音复刻/面孔授权）的创作者经济。与此同时，底层的IP授权和配套监管值得关注。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

14 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: AIGC深度产业报告量子位智库-34正式版 AIGC 深度产业报告量子位智库 34 正式版

得力文库 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：AIGC深度产业报告量子位智库-34正式版.doc
链接地址：https://www.deliwenku.com/p-89764175.html

AIGC深度产业报告 量子位智库-34正式版.doc

AIGC深度产业报告量子位智库-34正式版.doc