- 长臂猿-企业应用及系统软件平台
ChatGPT等生成式AI正在重塑各个行业的工作模式,尤其是影视领域。最近由Midjourney+Runway生成式AI制作的电影短片在社交平台上掀起了一股热潮,引发热议。
“我觉得这对于所有人来说都是一个很好的机会。”宋东桓表示,“大家的经验差距被AI拉平了,剩下的是个人想象力之间的差异,百花齐放的时代到来了。
近期,AIGC开放社区联合科技慢半拍播客栏目专访了编剧、AIGC创业者宋东桓,宋东桓通过AI创作工作坊,带领四十多人用两周时间创作了20部短片,他表示“如果采用传统制作,这些短片的成本不会低于30万,但是实际成本接近于0,这就是AIGC带来的变革。”
关于技术变革,他进一步解释道,“传统的影视行业当中有很多流程,但是AI加入后,整个流程就四步,剧本、出图、出视频,剪辑视频,然后就没了。”
对于影视行业未来的发展,他则表示,影视作品不是一个标品,最终拼的是差异。非标品的缺点是会带来不确定性,第一部电影很叫座,第二部可能差强人意,但是非标品的优点是带来多样性,中国有很多消费者,只要有一部分人喜欢,一部片子就可以活下去。长尾需求未来会给创作者带来更大的发挥的空间。
人人都能做电影
我是编剧、AIGC创业者宋东桓,最早学工科,后来改学影视。遇到喜欢的东西或者风头上的东西,我就会很想接触。目前我觉得AI对于所有人来说都是一个很好的机会。
我做工作坊的原因,一是看到Midjourney+Runway工作流带来的价值,可以快速将每个人的想法变成影像化作品;二是这个行业有需求,大量的人希望掌握这些工具解决内容生产的问题,毕竟现在有很多渠道可以变现。目前工作坊计划从简单的文生图,短片开始,然后逐渐升级到Wonder Studio+Blender,一层一层地探索AI创作。
第一期四十多人,提交作品的大概有1/3。
目前报名情况来看,一半学员来自我的朋友圈,也是做影视的。然后另一半比较复杂,对AI感兴趣的学生、图书编辑等不同职业的人。
不过,其实不需要什么背景知识。整个工作流只涉及两到三个软件,讲师2—3小时就可以讲清楚。对于普通人来说,学起来非常快,出视频的效果也不错。
说个题外话,2015年到2016年,影视行业编剧需求比较大,我参与过剧本工作坊,想以此来培养一批优秀的编剧。但是随着AIGC出现,大家的经验差距被拉平了,写作可以交给ChatGPT,绘画可以交给Midjourney,内容创作的差距变成了个人想象力之间的差异,我觉得百花齐放的时代到来了。
第一期是喻为星的《外星人》,男孩都能想到那种故事,然后经过风格化、类型化处理,相对容易实现。
也有一些人表示特别喜欢陈浚嘉的《Her》,这是对已有的电影《Her》的个人改编和外延。
第一期我注意到两个现象,一是跟Midjourney对话次数越多,越有热情的人,出的视频越好。第二就是拥有一定影视基础的人,作品更好。
第二期的第一名是Jill的《异世之门》,Jill是制片人,又是编剧,通过作品可以看出一些剪辑的经验,能够把故事讲述地引人入胜,同时也看得出来创作的野心,一开始故事就极具张力。
第二期喻为星做了一个爱情故事《虚度时光》,整个氛围感把握的很好,再加上风格化的处理,画面很有王家卫的风格,观赏性很强。
我相信AI创作工作坊会得到越来越多的关注。从创作者角度来看,每个人都有自己的想法或者创意,使用Midjourney+Runway之后可以更加自由地表达自我。从影视制作的角度来看,这种模式大大降低了IP孵化的难度。原来IP孵化从概念到故事,再到剧本和影像化作品,过程漫长而且耗费巨大,动辄数以亿计的资金。工作坊这样的短片,如果采用传统制作,成本一般不会低于30万,但是实际成本是接近于0,这就是AIGC带来的变革。
从技术角度看,目前有这个问题,主要原因在于大模型本身。生图类AI工具主要有两种,一个是闭源的Midjourney,一个是开源的Stable Diffusion。Midjourney在V4更新以后,不熟悉的人已经很难分辨是否是AI生成。Stable Diffusion因为前期用了大量二次元模型,后来加入chilloutMix真人模型,目前生成图依旧可以看出来底模。解决办法是给技术一些时间,我估计Midjourney到V6会好很多,而使用Stable Diffusion支持自主训练模型生成专属风格。有名的LoRA模型MoXin就是自主训练的,可以生成中国水墨画风格的图片,让人耳目一新。
4步生成一个短片
传统的影视行业当中有很多流程,细分下来十多步,依靠工种来划分,包括编剧、导演、制片、美术、摄影师、灯光、声音、剪辑、后勤等。AI加入之后,整个流程就四步,剧本、出图、出视频,剪辑。
如果是纯动画,即作品里面没有真人、真实场景,未来的制片成本会急速下降。动画制作最关键的两个内容是数字资产生成和动作捕捉,现在借助AI基本可以0成本实现。比如Blender可以免费提供从建模、动画、材质、渲染、到音频处理、视频剪辑等一系列动画短片制作解决方案。MetaHuman可以轻松创建极其逼真的人类角色。剩下的动作捕捉也非常简单,只需要一个摄像头就可以捕获一个人所有动作、表情、表演,几分钟就可以生成在纯虚拟3D动画世界的数字人表演。
之前流行过一个概念叫做虚拟制片,一个人站在一圈LED中间表演,最后利用UE生成环境。但是随着SAM(Segment Anything Model)分割一切模型出现,剪辑师能把空间中的所有细小的东西区分开来,虚拟制片就没有必要了。从这个角度来看,未来真人实拍和数字技术制作的边界会越来越小,越来越分不清楚。
GPT通过Next Token
Prediction(预测下一个令牌)产生智能。常见的使用方法有两种,一是使用者不知道答案,用穷举的办法找到答案,比如一个越狱故事,用GPT生成50个桥段,然后从中选择一个最优解;另外一种是使用者知道答案,通过引导GPT精准实现自己的需求。
两种使用方法都会遇到一些问题,目前最尖锐的问题是上下文限制和角色一致。突破长期记忆是创作长篇内容的基础,而对于角色来说,说出来的语言必须符合角色的设定才行。国外Fable发布的Showrunner(多智能体模型),可以根据用户提出要求,自动生成出相应的剧本,然后驱动其控制的AI智能体按照剧本将情节演出来。Showrunner曾独立充当编剧、导演、演员、剪辑、配音等角色,完成了一集完整的《南方公园》。这个《南方公园》的画面看起来还行,但是每个角色的聊天内容非常无聊,这就是目前AI的实力。
做图有闭源模型Midjourney和开源模型Stable Diffusion,在我看来两者走向了两个极端。Stable Diffusion的极端是精细化控制,就是用户可以利用AI更精准地实现自己的想法。Midjourney的极端是用户根本不需要想法,只需要说出苹果,AI就会生成无数好看的苹果,每一张都比想象中更好看。目前来看,闭源模型正在逐渐胜出,AI这种不知疲倦、不断自我修复、自我迭代能力确实有助于先发者长期保持领先优势。几个月以前,Midjourney和Stable
Diffusion不相上下,现在已经不可同日而语了。
生成视频主要是两个挑战,一是闪烁,二是动作控制。
造成闪烁的原因很简单,因为AI是一帧一帧生成图片然后再生成视频,如果图片衔接不连贯就会造成视频闪烁。闪烁的本质是算法、算力的问题。Stable Diffusion生成每张图片是单独计算的,为了让生成的视频不闪烁,需要控制第三张图片跟第一张图片建立联系,第四张跟第二张建立联系,以此类推,像传统动画一样衔接流畅。
我们采用Runway方式解决闪烁问题,Runway是1秒计算八帧画面,然后一次性生成4*8=32张图片的大图。因为所有图片是一次性生成,保证了关联性,所以衔接也就比较流畅。但是Runway的短板也很明显,就是时长会受限,一次只能算4秒。
还有一个问题是动作控制。目前有三种生成视频的办法,文生视频、图生视频、视频生视频。在视频生视频里面,动作控制类似于替换渲染,但是文生视频和图生视频缺少动作的参数,因此模型需要先识别、分割元素,再根据已有的规则去处理元素。比方说前方有一条深远的隧道,那么它可能生成的视频就是镜头前推。当然,目前的技术水平还不够完善,生成视频像抽卡,偶尔能够得到一个完美的视频,因此需要多次尝试。
在音乐生成方面。首先,音乐的复杂性在于旋律的自由度,评价音乐的好坏是很主观的事情,需要有一定音乐审美的人去进行评价。其次,我认为未来也会出现类似Midjourney这样的工具,根据提示就可以生成需要的音乐。但是,对于影视制作来说,音乐不是一个创作问题,而是一个选择问题。传统的工具比如说looper就可以很好地满足低成本制作的需要,不管是音色质量还是节奏、风格控制,都比AI更加方便。
剪辑方面,剪映是一个很好的平民化的工具。常见的剪辑软件有Premiere、Final Cut Pro、达芬奇、After Effects、Nuke等,功能非常全面,但是会收费,剪映可以免费下载并使用。国内用户付费意愿不高,我觉得剪映更符合国内环境。而且随着短视频的爆发,传统影视制作需要的色彩精准和跟踪效果都变得不那么重要,基础的剪辑就可以满足需要。
影视行业最终拼的是差异
目前为止没有落地案例,但是影视行业的宽容度会比大众想象的要高。归根结底,内容的好坏很难评价,画面美,有人喜欢,个人风格强烈,也会有人喜欢。AI视频红火了大半年,我相信中国第一部AI电影不会很遥远。
我觉得很难定义,因为这个行业就很难定义。如果划分两个层,决策层和执行层。对于执行层来说,用AI提升效率,这是自我工作的需要,决策层知道得越晚,信息差就能带来丰厚利润。决策层目前还没有听到有AI制作的消息。
第一批进入的都是想快速把创意变成影像作品的人,比如导演、制片人。我估计AI创作的短片接下来会迎来几何式增长,年底会到达高峰。以我们工作坊为例,四十多人两周时间已经创作了20部作品,而与我们做类似的事情的人还有很多。
决策层其实也好判断,看ROI就可以了。原来3000万做一部电影,现在20万就可以,决策必然向着低成本方向倾斜。
首先会有一个红利期,红利期是因为信息不对称,我们可以提前做一些事情。其次,红利期结束,掌握工具的人始终占尽先机。换句话说,即使全行业都掌握了这个工具,也是有一些人会跑在前面。
不冲突,我们工作坊最开始做的是扫盲和零门槛的课,因为受众最广,容易学习。未来也会考虑安排Blender、UE提升门槛。
一条街上如果只有一家店卖酱肘子,那可能会门可罗雀,但是这条街上家家卖卤货,我觉得也不是个坏事。因为影视作品不是一个标品,大家拼的是差异。非标品的缺点是会带来不确定性,第一部电影很叫座,第二部可能差强人意。但是非标品的优点是带来多样性,中国有很多消费者,只要有一部分人喜欢,一部片子就可以活下去,长尾需求未来会给创作者带来更大的发挥的空间。
我认为这是面对同一现象的两种态度,一种乐观,一种悲观。当下只是一个允许你有更多选择的时期。当你去讲一个故事,如果这个故事已经讲了千年,那这个故事要么是名著,要么是宗教。就今天而言,讲一个千年的故事已经越来越难了,所以只要做一个故事的讲述者就好了,不用去管这个故事之外还有多少故事,只要维持这个故事能够被人讲,没有被忘记,这个故事就是有价值的故事。
是的,对于创作者来说,故事是与时间做朋友。
希望收听完整音频对话内容的朋友,请移步【科技慢半拍】播客节目: