作者 / 刘书亮(野草)
排版 / 呼呼
(资料图片仅供参考)
我从去年11月开始尝试AI绘画到现在。不得不说,整个时代都在见证它变化之迅速。如今他已经成长为一头巨大的、聪明的、(多数情况下还算)听话的怪兽。
面对AI绘画,我们似乎只有两条路可走:一是驯化它,二是杀掉它。人们对它的所有讨论,基本上都没有逃离这两个选项。
而这二者并没有绝对的正确与错误之分,主要看你怎么选了。对此,我的选择是前者。
为此我写了下面这篇论文,作为我负责的2022国社科艺术学项目“虚拟数字人的产业应用与文化生态研究”(22CH191)的阶段性成果,并发表于《当代动画》2023年第2期。我讨论了AIGC在当今互联网的内涵(为什么说它不是继PGC、UGC之后的一个新阶段),AI绘画背负「原罪」成长的必然过程,以及摆脱「原罪」的部分可能方法。为了进一步去看看目前AI绘画工具与服务的版权归属,我还查阅了许多服务平台的用户协议、常见问题页,可参见注释与文献列表。
AI生态总归是瞬息万变的,文章仅供大家参考。为方便大家阅读,我在推送里增加了一些换行,添加了一些图与图注。
以下,奉上文章——
论AI绘画对文化创意领域的影响
文 / 刘书亮
提要:近年来,AI绘画技术发展迅猛,工具易用性强,效果也愈来愈好,带来了丰富的行业应用场景,人们用AI绘画工具进行灵感激发,设计图片物料,打造虚拟形象,制作同人作品,或生成转描动画等,包括AI绘画在内的AIGC已经形成了新的工具使用逻辑。不过,其广泛的应用也带来了文化创意领域从业者们的职业焦虑,以及对其“侵权”嫌疑的反对之声。从学理层面上看,新技术的发展难免带来行业生态的变化。AI绘画模型训练过程中的伦理“原罪”非常适合用让·鲍德里亚的“完美的罪行”概念来阐释。这种情况下,所谓“抄袭”是难以具体指认的;但相应地,AI绘画工具的使用者仍面临一定的法律风险。只有对AI工具自身进行完善,以AI来对抗AI,或许才能在未来解决该问题。
关键词:人工智能 AI绘画 AIGC 文化创意 数字艺术
迅速发展的AI(artificial intelligence,人工智能)技术已经在社会生产中发挥着重要作用,且应用场景丰富多样。其中,由 AI生成的艺术作品获得了文化创意领域的极大关注,它主要包括由AI生成的图像、动画、声音、文字等。理论上,它们可以被作为数字化的作品来流通和交易,携带了艺术商品的属性。作为本文的研究对象,AI绘画尤其得到了大规模的社会热议,它对整个行业的影响更是辐射至插画、动画、漫画、概念设计等诸多方向,已经成为一个不容忽视的重要议题,值得详细探究。
01
AI绘画工具的特征与广泛应用
AI绘画受到大众的关注(所谓“出圈”)虽然时间不长,但相关服务市场已经颇具规模,且已经能够看到一些显著特征:
第一,从用户角度来说,AI绘画工具非常易用,而且选择很多。国际上有基于 Discord社区的Midjourney,有Stable Diffusion(包括其官方在线版 DreamStudio),还有DALL·E 2与Disco Diffusion等;中国国内也有许多不同的 AI绘画工具。这些服务所使用的模型各不相同,能力不一。使用方法上,这些工具主要包含两大类功能:一种是文生图(text-to-image),即用户通过输入文字描述(prompt)来让 AI输出图像;另一种是图生图(image-to-image),即AI对用户提供的图片做出理解和重新生成。
总体来说,这些工具的共同点是操作非常简单,可以说非常“傻瓜化”,使用门槛低。目前,AI绘画的爱好者数量众多,并已然形成一个文化圈,还出现了一套属于他们的圈内术语,如将文字描述唤作“咒语”,善用“咒语”达成目标,生成效果较好的作品则是“驯化”了 AI。
第二,AI模型的迭代速度快。AI可以学习任何“投喂”给它的内容,以便训练出一个完整、可用的模型。机器的学习速度很快,训练它的内容数据规模可以非常大。对于AI绘画模型来说,训练内容可以来自互联网上的任何公开发布的图像信息。AI技术团队也会不断对服务模型进行再训练,从而不定期升级服务模型。
例如Midjourney的模型就在2022年11月从v3升级至v4,能力和效果提高显著。像NovelAI(Image Generation模块)这样基于Stable Diffusion,但换以新模型的产品也受到人们的欢迎。Stable Diffusion开源之后,借助它作为基底进行再训练而成的各类模型更是越来越多,造成了该领域生态的繁荣。
第三,作品效果虽然尚不够完美,却也相当好。知名学者汉斯·莫拉维克曾给出一个有趣的观点:要让电脑如成人般地解决智力测试或下棋的问题是相对容易的,但要让电脑具备像一岁小孩般的感知和行动能力却相当困难,甚至是不可能的。这一判断在计算机科学与工程领域非常有名,史称“莫拉维克悖论”。今天的电脑算力和莫拉维克的时代已经不可同日而语。仅从AI绘画的结果来看,莫拉维克悖论确实在一定程度上被AI解决了。无论文生图还是图生图,领域内的头部服务产品已经能给出令人颇为满意的答卷。
所以,AI绘画已经吸引了一大批专业团队、企业级使用者与具有明确目标的个人博主,整个行业内出现了广泛的应用场景:一些CG艺术家与设计师借助AI进行设计灵感的激发、创意辅助或头脑风暴;部分企业已经开始使用AI来完成视觉宣传物料与美术设计元素;许多个人博主在Instagram、小红书等这些图片类社交平台用 AI生成的虚拟形象来经营自己的账号,吸引流量,积累粉丝;动画、漫画、游戏作品的爱好者提取自己喜欢角色的大量图像素材,单独训练特定角色的模型,得以方便地生成同人作品;还有一些团队将AI绘画与web3(基于区块链技术的去中心化网络)、NFT(non-fungible token,非同质化通证)等结合起来,也做了许多新型的艺术尝试……
由 AI生成的作品《太空歌剧院》(Space Opera Theater)在2022年美国科罗拉多博览会的艺术竞赛上获奖,被视作AI绘画在艺术与设计界的里程碑事件。虽然目前的AI尚有一些待解决的难题,例如AI绘制人手的拙劣能力就备受诟病与嘲笑,但让计算机攻克这件事只是时间问题。随着ControlNet这类能在很大程度上对AI绘画模型在构图、角色动作等方面的不稳定性进行弥补的工具的出现,AI绘画在生成效果与可控性上将有更大的提高,从而被越来越多的人接受并使用。由此,AI动画的议题也得以被广泛讨论——当然,许多在网络上盛传的所谓“AI动画”,实际上是转描(rotoscope)影像,其将真人演员的实拍影像逐张转成绘画效果并连缀而成,这并不符合传统意义上动画的制作逻辑。
https://mp.weixin.qq.com/s?__biz=MzA3NTU0ODIxMw==&mid=2650076975&idx=2&sn=4ebfb0b96173abdb3b317b8383255e26&chksm=876e8475b0190d63d9368d894a709c922a23bd4ea64fd028ab5804e09d99a77ed4405c6a19ff&scene=21#wechat_redirect【复制链接跳转查阅】
02
AIGC的内涵
兼论其与PGC、UGC的关系问题
文化创意领域基于对 AI迅速发展的满意与进一步期待,提出了 AIGC(AI-generated content,人工智能生产的内容)一词,来指代 AI提供给我们的各类内容,并呼应以往的两个概念 PGC(professional-generated content,专业主体生产的内容)与 UGC(user-generated content,用户生产的内容)。然而,目前很多人把AIGC视作继 PGC、UGC之后的一个新阶段,这种看法实际上存在很大问题。
为此,我们必须先解释清楚从PGC到UGC的发展过程。
行业对PGC与UGC进行定义的基础,是web2时代的网络媒体平台,典型代表包括但不限于微博、抖音、哔哩哔哩、小红书等,这里也简称“平台”。这类平台需要海量的内容填充以便持续活跃,而这仅靠PGC是不可能达到的,因此平台不遗余力地促成了UGC与PGC共生生态的土壤,相应的典型手段如流量池机制,提供美好的影响力愿景,吸引博主们入驻并自行生产内容。
平台和博主们协作运转的共同基础,是达拉斯·斯麦兹所揭示的受众商品(audience commodity)理论。他敏锐地指出,受众(audiences and readerships,大众传媒的观众和读者们)成了一种商品,其内容包括了受众群体的数量规模、基本信息和行为习惯。这种特殊的商品由媒体制作人“生产”出来,并由广告主在投放广告时购买;而传媒内容本身是一种引诱,一种“免费午餐”,目的在于积累受众,维持他们的忠诚关注,从而不断“生产”出更大规模的受众商品。
在当今的新媒体时代,平台用户在双重意义上成为受众商品:博主是平台内的生产者,为平台代产“免费午餐”;博主积累粉丝们成为该博主的受众商品的同时,也为平台贡献了受众商品。手握大规模的、特定属性的受众,平台就可以贩卖宣传资源位(如APP开屏广告、商务热搜等),PGC、UGC主体们则可以在自己生产的内容里做赞助或植入等来变现。因此,以往所谓“xGC”的定义逻辑中掩藏着平台的权力,归根结底是在强调为平台生产内容的不同主体:PGC来自企业(或专业团队)主体,UGC来自个人用户(或小团队)主体。
然而,具备作品生产性的AI尚不能单独代表某种新主体加入这个平台权力下的场域,也无法直接提升平台的用户规模(除非平台亲自以 AI去海量佯装人类用户账号并生产内容,以扩充表面上的平台用户规模,而那将陷入虚假繁荣的危险),或者说无法生产平台赖以生存的“受众商品”。所以到目前为止,所谓 AIGC对平台来说价值较为微小。AI的高效,是PGC主体与UGC主体实现生产力解放的重要途径,但能够通过发布 AI作品来主张权益和获利的主体性质并没有变:虽然AI参与了无数创作,但它只是一种工具。《太空歌剧院》在2022年比赛中获奖时,这个奖是颁给了投稿的艺术家杰森·艾伦,而没有颁给 AI服务方 Midjourney;就算CG艺术家用数位板以标准的流程创作了一张概念设计图并获奖,我们也会把奖颁给艺术家,而非Wacom(数位板硬件品牌)或 Photoshop(软件品牌)。至少目前,我们并未将AI作为一个单独的主体去看待——至于未来的 AI是否可能具有生命,那是另一个完全不同的话题。
因此,当我们抛开平台权力来谈论AI作品,即便要继续沿用AIGC这个概念,它也绝对不是继PGC、UGC后的新阶段,而是一种新的工具使用逻辑。
实际上,等到AI技术更卓有成效之时,新的网络传播生态用一种有些麻烦但较为准确的说法来指称,或许应是AI-PGC与 AI-UGC。若是那一天真的到来,借助 AI的力量将可能是文化创意工作(无论是大企业、专业团队还是个人自由职业者)的家常便饭,也是从业者们的一种基本生存技能。
03
AI绘画在文化创意领域引发的争议及其分析
AI引发了文化创意领域的焦虑与争议。诸多插画师和艺术家纷纷抵制AI绘画,尤其是著名的CG艺术平台ArtStation成为国际上抵制AI绘画的重镇。
总结起来,AI受到抵制的主要原因有下述两方面,本文将逐一进行分析。
(一)AI工具与职业生态失衡
人们担心AI绘画工具会导致插画与概念设计领域面临大规模的失业:一方面,会有越来越多的行业需求直接向AI寻求帮助,从而以非常低廉的成本和极高的效率得到所需的图片物料;另一方面,懂得使用AI工具的人,可能伪装成真正的插画师来承接商业项目从而获利。所谓“AI艺术家”的称呼更是遭到了创作者群体的反感,他们认为AI生成的图像根本不能称为“艺术”。当然,从后分析美学的立场看来,很明显这只不过是对“艺术”概念的再次反叛与超越——就像拼贴艺术、现成品艺术等都曾面临的问题一样。
而技术导致从业者“丢掉饭碗”的焦虑,恐怕是一个难免的必然过程,也是艺术史上的经典问题。新技术常常代表更高的效率,进而往往意味着人力替代。马歇尔·麦克卢汉称媒介是人之延伸以及截除的经典洞见是对媒介环境作用下人类感官被改变的描述;若是套用他的说法,我们可以说技术工具改变了劳动关系,从而会形成某种“文化的延伸与截除”。AI绘画正是以其自身的出现催生了新的文化繁荣,却也让旧的文化似乎陷入危机。
此外,当我们从广义上谈论AI这件事的时候,是在期望计算机对人的思维和行动有相当充分的仿拟,因此,一个AI高度发展的技术阶段,理论上是AI能帮助人类做各种事情的阶段,不只绘画行业,而是所有行业都将受到冲击——文化创意领域内就至少包括但绝不限于表演、影视合成与后期、动画制作、播音主持。
总之,新的生产技术必然意味着场域内利益相关主体的动态发展与新变化,这绝非 AI时代的新鲜事。至于未来究竟会怎样,或许任何预测都显得盲目,视觉艺术史上层出不穷的新技术带给相应旧技术的命运也不尽相同。
(二)AI对图像的学习及其伦理难题
AI绘画依靠机器学习,而学习的对象包括了艺术家们在网上公开的作品,有些人认为“机器正在快速抄袭”,是对著作权的侵害。尤其是,目前的AI已经可以有针对性地学习某一画家的作品。
如果用户在文生图描述中写下知名艺术家的名字,部分AI绘画模型甚至能识别并生成相应风格的画。持抵制意见的艺术家们认为,“合理使用”(fair use)的说法不足以为 AI开脱。
视觉艺术的从业者,也常常需要学习前人的作品,其中不乏临摹:可能是达·芬奇、伯里曼这些曾经的大师,也可能是金政基、克里格·马林斯等当代的艺术家。同样,AI要想足够好地运转起来,也需要大量地学习(当然,“思考”方式可谓完全不同),从网络上爬取的数据是它的重要“学习资料”。仅从操作上看,这和在社会科学研究中用工具软件对微博评论、Bilibili弹幕等社交痕迹进行爬取并没有本质不同。然而关键的差异是,与人相比,AI的学习过程实在太快了,是人类无法企及的速度。这推翻了人们对“学习”行为本身的心理预设。
AI学习后生成新图像的结果虽然带着“学习资料”的深刻印记,然而这些印记又过于细碎,是一种无比精巧的拼贴、缝合。在御宅与二次元文化研究领域,如果我们能够同意日本学者东浩纪提出的“数据库消费”——那个包纳了双马尾、猫耳、眼睛娘这类受到消费者喜爱的外貌元素的角色塑造与消费模式——那么,到了AI时代,这种模式就更加变本加厉,“数据库”规模更庞大且分类精细。在这种情况下,经过计算、拼合后的结果很难辨认出是来自某件具体的原作品,只能依稀辨认风格来源,多数情况下也就无法以法律程序指认所谓“抄袭”之“罪”,这令反对 AI绘画的艺术家们咬牙切齿却又叫苦不迭。将让·鲍德里亚提出的概念“完美的罪行”(从鲍德里亚的理论路径中接续了“仿真秩序”这一主脉)用来描述AI绘画,可谓再贴切不过:一桩没有罪犯,没有受害者,也没有动机的罪行,实情永远地隐退,了无痕迹,其秘密永远不会被发现。数不清的原作品全都被“打散”和“溶解”在AI生成的图像中。
理论上讲,艺术家当然可以拒绝授权AI爬取、学习自己公开发表在艺术平台上的作品;然而从实际情况来看,如果平台不提供有效的反爬取功能,互联网的运作机制很难兑现上述艺术家的要求。更重要的是,绝大多数平台目前也确实不提供这种功能。基于web2,平台在功能上的决策者只能是平台自身。虽然现在已经有了“我的作品被训练了吗?”(Have I Been Trained?)这样的网站,用户可以到这个网站主动选择拒绝自己的作品参与LAION(从而也是使用它的Stable Diffusion v3)的模型训练*,不过,纵使它能实现部分艺术家的诉求,其生效范围也仅限于少数几个模型,而市面上的AI服务已经太多。
*截至本文写作之日,这个网站自身也仍有一些亟待解决的问题。
就平台本身而言,像ArtStation这样修改了服务协议(相信是出于对艺术家用户们反对声浪过强缘故)并单独增加“NoAI”(拒绝AI)标签的情况仍属罕见,标签的实际作用究竟有多大,其实也非常值得存疑。况且,ArtStation虽做了上述服务升级,却并不全然禁止AI对内容的爬取和学习。其官方页面提供的解释是,他们不想拿着网站条款去做一个“看门人”,因为这可能会扼杀那些尊重艺术家选择、遵守版权法的AI研究与商业化尝试*。
*具体可参见:https://help.artstation.com/hc/en-us/articles/11451085663501-Use-of-AI-Software-on-ArtStation,2023年2月8日访问。
总之,由于目前的法律对 AI的完善约束是缺席的,对平台屏蔽 AI的相关功能实现也迷雾重重,可以说AI绘画不是全然的法律议题,而是一个更加复杂的伦理议题。但是,只要互联网整体上不是偏执狂式地“仅允许‘人类’访问”(这种偏执狂绝不允许人类在跟机器的较量中败下阵来),那么,AI对任何在网络上公开的内容进行爬取和分析就无法被禁止,也难以被追溯。
04
展望与必要的补充
AI绘画技术发展迅猛,工具易用,发出了动摇行业规律的巨大响动,似乎这一趋势已经不可逆转。而针对AI绘画所携带的伦理“原罪”,我们若反过来从使用者角度来看待这个议题,更有利于看清问题的实质——工具的使用者面临不大但未知的法律风险。虽然多数AI绘画工具把权利让渡给了用户——Midjourney指出,付费过后生成的图像归用户所有(免费试用者按CC非商业授权);NovelAI主动声明了放弃对生成图片的所有权;DreamStudio则注明了图片版权依照CC0标准,也即开源的公共资源*……但这仅仅解决了AI服务方与使用者的权利分配。目前的AI工具却不负责确认生成结果跟机器学习来源素材的相似性是高还是低:使用者在使用一张AI生成的插画图片时,不能知晓该图片是否与某插画师的作品过于相像。*几个服务方的用户协议、常见问题页面如下:https://docs.midjourney.com/docs/terms-of-service,2023年2月8日访问。https://docs.novelai.net/image/faq.html,2023年2月8日访问。https://stability.ai/faq,2023年2月8日访问。同时服务协议页面指出,用户拥有这些图片,可参见:https://beta.dreamstudio.ai/terms-of-service。
实际上,AI绘画的生产还有许多模式尚未被充分挖掘。譬如对于技术条件更佳、团队结构较为完备的公司主体来说,通过定制和定向训练的模型来生成AI-PGC就非常值得尝试。这种模型由于训练过程在理论上可控,故而相信可以进一步规避图片版权层面上的法律风险。
如果能够在AI的算法设计、模型优化等层面上要求计算机排查生成结果跟训练源没有过度相似的情况,AI绘画服务使用者面临的法律风险也将可预见地明显减小,在结合AI进行生产时不易陷入版权纠纷。以音乐领域为例,谷歌的AI音乐产品MusicLM在研发过程中已经充分重视通过模型优化来尝试避免生成结果与训练源的过度重复,类似的研究值得被用在 AI绘画领域。甚至可以尝试训练专门的AI,以便智能排查某AI图像是否与网络上已公开的其他图片相似性过强,并给出对比结果——尽管这个结果在量化上又会推演出新问题……总之,想解决AI引发的问题,若套用让·鲍德里亚在《象征交换与死亡》里的表达,或许我们只能“用AI来反对AI”*。这确实是实际解决问题的可能思路。
*让·鲍德里亚的原话是“用莫斯反对莫斯,用索绪尔反对索绪尔,用弗洛伊德反对弗洛伊德”,详见 [法]让·波德里亚《象征交换与死亡》,车槿山译,南京:译林出版社2012年版,第2页。
值得补充的是,AI在整个社会中的其他应用领域也都引发了争议,其中包括 ChatGPT这类与每个人生活紧密关联的产品等,让各行各业都面临生态冲击。至于 AI的伦理问题也是一样。譬如AI语音,初阶的AI语音产品——例如内嵌在剪映(与抖音配套的剪辑软件)里的文字转语音模块——是把输入的文字转变成朗读音频,且有多种不同的音色和方言可选。这些语音模型输出稳定、单一,通常不太会出现伦理问题。然而,像微软的VALL-E这样具备更复杂高级学习能力的 AI语音工具,则能仅根据几秒钟的音频素材(而不像市面上其他产品那样或许需要数个小时的素材)就以该种声音朗读任意文字,这就很容易引发伦理乃至法律问题——仿造某人的说话内容将变得不那么困难。对照片与视频的智能合成、AI换脸技术也存在类似的问题。上面这些例子在提醒我们,AI面临的伦理问题绝不限于 AI绘画这一个子领域。AI技术的发展需要全社会的共同探索。参考文献
刘书亮《它究竟在“画”还是在“偷”?:AI绘画所引发的行业争议》,《文艺报》2023年2月10日第 8版。
Hans Moravec, Mind Children: The Future of Robot and Human Intelligence, Harvard University Press, 1988, p.15.
Lvmin Zhang, Maneesh Agrawala, Adding Conditional Control to Text-to-Image Diffusion Models, arXiv: 2302. 05543.
刘书亮、黄慎泽《平台控制与算法迷局:流量池平台博主的困境》,《传媒》2022年第13期。
Dallas W. Smythe, Communications: Blindspot of Western Marxism, Canadian Journal of Political and Social Theory, 1977, 1(3), pp.1-27.
[加拿大]马歇尔·麦克卢汉《理解媒介:论人的延伸》,何道宽译,南京:译林出版社2011年版,第59-61页。
刘书亮、朱巧倩《论二次元文化的概念流变及其文化消费特征》,《现代传播》2020年第8期。
[法 ]让·博德里亚尔《完美的罪行》,王为民译,北京:商务印书馆2014年版,第6页。
Andrea Agostinelli, et al. MusicLM: Generating Music from Text. arXiv: 2301. 11325, 2023.
本文来自「动画学术趴」,未经授权请勿转载。