查看原文
其他

华政学报 | 梁志文 李忠诚 ​论算法创作

梁志文 李忠诚 华东政法大学学报 2022-05-11

论算法创作

作者简介

梁志文  广东外语外贸大学华南知识产权研究院、南京师范大学法学院教授、博士生导师

李忠诚  南京师范大学法学院博士研究生

目    次

一、算法创作疏离作者与作品之间的联系

二、算法创作需要合理使用制度的保障

三、算法创作再塑版权制度的基本取向

四、算法创作的负面效应及其规制

五、结论

摘    要

“数据驱动创作”现象,即算法广泛用于版权产品的定制与营销决策,它建立在精准发现消费需求的基础上,必将深刻影响版权制度的发展。当内容创作越来越依赖于投资,而非天才作者的灵感时,传统的浪漫主义理论就无法为作者与作品的保护提供有说服力的支持,这既将促成著作人格权与“创作”这一作品要件的制度变革,也使得投资保护将发挥更为重要的作用。算法创作的质量受数据偏见、算法偏见的影响,故应适度扩张适用合理使用制度;而算法精准发现消费需求,降低了版权产品的市场风险,也需要重新构建版权法的利益平衡机制。最后,算法创作具有一些负面的社会效应,对算法创作的适度监管和反垄断审查将保障版权产业的技术进步、服务于促进社会进步的目标。

关键词

算法 数据驱动创作 浪漫主义作者 著作财产权 合理使用

从技术层面来看,人工智能的技术基础体现为算法、算力和数据三个方面。机器学习的基本算法,以及影响人工智能产出(或应用)的输入层的大数据,是人工智能技术开发中涉及版权法律的技术。相比于现阶段尚处于弱人工智能技术条件下其生成物的法律定性,广为版权产业所使用的、被称之为“数据驱动的创作”(Data-Driven Creativity)或算法创作(Algorithm for Authorship)才是真正值得版权法律理论关注的重点问题。从更广义的角度来看,它是“数据驱动创新”(Data-driven innovation)在版权产业中的重要体现。即,数据在增加产品(服务)价值,或对方法、产品、营销的创新或改进方面具有基础资源或资本的地位。同样,数据在版权产品的创作、营销以及产品增值方面具有重要的价值。由数据驱动的算法创作成为版权产品的重要来源,它主要体现为三大情形:第一,算法通过对用户数据的分析来发现版权产品的消费需求,并以此来定制满足该需求的版权产品;第二,大量的数据构成机器学习的训练数据库,成为算法创作(如新闻写作、音乐制作)的主要原料与素材;第三,算法通过对用户数据的分析来实现版权产品的精准营销,引导并创造版权产品的消费需求。毋庸置疑,“数据驱动创作”这一现象将对整个版权制度产生根本性的冲击。为此,本文分析算法和数据如何影响版权产业的内容提供,并试图探析算法如何从数据中获得增值价值,并如何驱动创作。

一、算法创作疏离作者与作品之间的联系

在数字经济时代,数据不仅是经济发展的“石油”资源,还是经济主体最为重要的金融资本。数据的价值通过数据挖掘技术而得以实现。所谓数据挖掘,是指“通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别”等诸多方法,“从大量的数据中通过算法发现隐藏其中的信息的过程”。用户画像技术是一种常见的数据挖掘技术,它对用户等原始数据二次计算后重构新的数据,通过对用户的生活场景、使用场景、用户心智等进行分析,精准地抽象出用户性质与特征,其目的在于“勾画用户(包括用户背景、特征、性格标签、行为场景等),联系用户需求与产品设计”,进而将数据转化为商业价值。搜索引擎、视频网站、零售业、制造业乃至金融业都广泛使用用户画像技术,发现消费需求,并为消费者提供定制产品、提升用户体验等个性化服务。

在版权产业中,内容生产者也常常使用用户画像技术,通过收集、分析用户的数据,可以事先获取用户偏好,再进行内容的创作。这改变了原有的版权产品制作模式,提高了版权产品的制作效率,也使得内容生产者之间的竞争指向对数据资源的争夺。美国奈飞(Netflix)公司在电视剧《纸牌屋》的制作过程中,通过对其数据库内的三千多万用户、四百多万评论以及三百多万条主题搜索等数据进行分析,利用数据挖掘技术选择导演、演员阵容。不仅如此,奈飞公司还将大数据分析用于剧情设置,例如,为了获得中国粉丝的青睐,该剧多处涉及中日海军对峙、汇率、网络安全冲突等中国元素。该剧受到了观众的追捧,在市场上大获成功。在我国,内容生产者也开始尝试改变内容创作的方式。在系列电影《小时代》的创作过程中,制作方通过定期对粉丝数据做整理、对比,分析电影的百度指数、话题讨论、相关搜索量和点击排行等方式,找准观众的消费需求,并将其利用到电影创作的情节设置、角色选定等方面。 通过数据挖掘设定符合目标用户偏好的情节,《小时代》系列电影总票房超过10亿元,成为同时期票房最高的、现象级的系列电影。

上述例子典型地体现了内容生产者通过用户画像等大数据技术来发现版权产品的消费需求,并进而直接定制版权产品。这表明,“数据驱动创作”引导版权产业的内容创作方式从“供给导向”向“需求导向”转变。传统“供给导向”模式下,创作者没有获取用户需求的直接路径,内容的生产只能依靠创作者自身的创作意愿或预设的市场需求进行。以“用户需求”为导向的数据驱动创作形式实现了内容生产者与内容需求者的双向互动。这是因为观众在观看影视作品过程中产生了大量承载用户偏好的数据,内容生产者分析、挖掘观众对内容的需求数据,并将其融入到作品的创作中。

数据驱动创作模式提高了内容创作的效率以及版权产品的市场成功率。首先,在数据驱动创作模式下,内容生产者可以通过大数据分析用户偏好,确定版权产品的创意方向,与传统创作方式相比,降低了版权产品的创作成本。其次,它改变了传统的“先生产、后销售”的模式,版权产品始终以用户需求为导向,降低了市场失败的风险,提高了其市场成功率。电视剧试播集是传统确定版权市场消费需求的重要方法,它是在电视剧制作之前,制作公司判断电视剧是否具有市场价值的“样品集”。试播集的制作成本非常高,每30分钟平均时长的试播片需要花费200万美元,并且需要对观众进行广泛的调研。但奈飞公司在电视剧《纸牌屋》制作时突破了传统的版权产品制作模式,未发行任何试播片就投资近1亿美元,这种模式不仅节省了试播片的制作成本,也节省了创作的时间,它是奈飞公司在2016年能够比其他公司生产更多创造性内容的原因所在。

逐渐流行的“数据驱动创作”正在改变作品的创作方式,它疏离了作者与作品之间的联系,对著作人格权制度及其理论基础产生了极大的冲击。作品不再是天才的创作,而是“圆形监狱”技术的产物;或者说,它只是内容生产者根据用户画像技术精准发现消费需求并予以定制的产物。在“圆形监狱”模型中,版权产品的创造者不再是那些把不为人知的信息从天堂带到人间的“普罗米修斯式的天才”;相反,他们仅是“不睡觉的观察者”。质言之,在“数据驱动创作”模式下,创作者为了取得市场成功,通过不断收集用户的偏好数据,根据用户需求和偏好定制版权产品。在这一过程中,创作者的“天才”和“个性”遭到极大的削弱,作品的创作不再是浪漫主义作者的专属。

而在传统版权理论上,无论是大陆法系的作者权体系还是英美法系的版权体系,著作人格权制度的正当性在于强调作者与作品之间的某种联系。受个人理想主义、浪漫主义、天赋人权学说等理论的影响,作者被认为是“孤独的天才”,是作品的唯一来源;作品是作者个性的“镜子”,是作者人格的延伸和精神的体现;甚至,作者与作品的关系如同“父子”。建构在浪漫主义创作理论基础上的著作人格权制度,强调作品是作者人格的延伸和精神活动的体现。其在版权制度上最为重要的体现是,强调作品必须是人类作者的创作;后现代主义解构了传统文学理论上的作者观。其基本主张是:作品是存在于作者之外的生命,在作品创作完成的瞬间,作者与作品的关系即宣告结束;同时,提出“可写作文本”的概念,要求读者参与到作品意义的生产过程中。作品的解读权回归于读者手中,这打破了原有的、静态的结构观和系统观,象征着作者已死、读者重生。按照这一观点,读者对作品意义的生产也是创造性活动,这使得作者和读者的界限逐渐模糊,浪漫主义理论一直以来所坚持的“以作者为中心”的创作主体地位受到挑战,并向“以读者为中心”转变。

后现代主义的文学理论质疑浪漫主义的作者观;而“数据驱动创作”模式则必将加速文学创作理论的变革过程,并给传统的浪漫主义创作理论和“作者中心主义”创作理论带来致命一击。算法创作对创作理论变革的影响主要集中于作品文本的形成过程。在数据驱动创作模式下,为了获得市场竞争力,作品文本的创作始终围绕读者的需求展开,创作者的个人创作意愿通常要屈服于读者的集体需求。创作者通过采集用户的数据分析用户需求和偏好,并将这种用户偏好融入到作品的创作过程。此时,作品不再是康德口中的“作者对读者所说的话”,而是“圆形监狱”模式下信息的相互传递,是读者对读者所说的话;它也不是“创作者人格的延伸和精神的体现”,而是读者集体创作的结果;它更不是“天才作者激怒读者的方式”,而是作者取悦、迎合读者的产物。正如后现代主义所质疑的那样,所谓的创作者,更像是作品的“生产者”(producer)、“书写者”(scripter),而非“作者”(author)。

在这一背景下,淡化甚至取消“人类创作”作为作品受版权保护的要件,建立以人类读者为中心的作品可版权性要件,这是版权制度适时回应技术发展的必然需求,也是保护数据驱动创作之投资的现实需求。算法创作已成为现实,这改变了人类作者为作品的唯一创造者的传统观念。即便学者们仍将其视为人类进行创作的辅助工具,但无论人工智能的法律地位如何,事实上,人工智能已经深入参与到内容创作的过程中,成为作品产生的来源之一。当人们不再假设作品中所有的变化都来自于人类之手,“劳动财产学说”所主张的“作者通过劳动获得版权”的观点便将遭到质疑。在“数据驱动创作”模式中,付出“辛勤创造性劳动”的主体并非只有人类,还包括人工智能系统。甚至,随着人工智能技术的不断发展,在“数据驱动创作”过程中,人工智能已经可以起到关键作用或者独立进行版权产品的制作。按照“劳动财产学说”的逻辑,人工智能付出了创造性劳动,其理应取得著作人格权,但这显然与自然权利理论所主张的“作者是作品的唯一来源”的观点相悖。

二、算法创作需要合理使用制度的保障

被广为报道的新闻机器人撰写新闻等人工智能应用场景,是典型的算法创作,即通过算法演算数据所获得的输出结果或变量结果。例如,创立于2012年的音乐科技公司点乐台(Jukedeck)正式推出了基于人工智能合成技术的在线音乐创作应用。用户通过设定音乐类型(如摇滚、流行等)、心情(如愉悦、忧郁等)、乐器和节奏等参数,便可以在不到10分钟的时间内自动生成MP3格式的音乐,并根据用户类型和音乐用途的不同而提供不同的付费下载。算法创作是机器学习的产物。机器学习是指在完成任务的过程中改进其性能的计算机系统,主要是用于预测的技术,其完成的任务主要包括两类:分类定性与回归分析。前者是将输入的信息与预设的标签(label)进行关联,后者是指根据给定的影响变量的数据来持续预测变量结果。而这些变量结果(即机器学习的产物)涉及范围非常广泛,如语言翻译、癌变筛查、面部识别、自动驾驶、音乐创作、新闻报道等。数据的使用(学习)也主要有两类:监督学习和无监督学习,主要区别在于前者所输入的数据是有标签的。

从技术发展来看,机器学习在近期得到迅猛发展的重要原因是出现了能够处理大数据计算能力的硬件设备。面向应用的人工智能开发能否取得实质的进步,往往取决于相应数据的完整性。即使人工智能的算法非常先进,但如果用于机器学习的数据库(trained dataset)是不完整的,则其输出结果极有可能不正确,就会产生极大的误差,即“计算机科学家们常常直白地将其描述为:输入垃圾,输出的也是垃圾。”以监督学习为例,开发一款识别猫的人工智能就需要研究人员在数据库中建立猫的标签(即猫所具有的一系列具体特征),其学习过程就类似于父母教育小孩,将什么是猫告诉小孩,并确认或纠正其对猫的生物特征的理解。软件能否准确识别不同形态的猫,关键在于其能否从数据库中正确抽象出猫的个性特征及整体特征;而这又取决于训练数据是否足够多、足够全。例如,如果数据库只有玳瑁猫这一品种的图片,则暹罗猫、孟买猫等品种就有可能难以被系统识别出来。为了实现其功能,数据库就必须有大量的不同品种猫的素材。

算法偏见的现象常常为媒体所报道,如一位华裔学生在更新其澳大利亚护照时,因为眼睛较小而被系统判定照片是闭着眼的,要求其“重新上传照片,并确保自己的眼睛是睁开的”。这个错误实质上是人工智能数据库偏见(biases)所造成的,其产生的原因在于训练人工智能的大数据存在量和质的问题。即这些数据库通常在性别、种族以及地域等方面存在数据不全面的缺陷。当越来越多的人工智能被银行、民用交通工具、车站、法院乃至军队采用时,人工智能必须要克服数据导致的“偏见问题”。如果构成机器学习的大数据是不完整的或存在偏见,人工智能的产出将会放大其负面效应。

除了数据存在的固有偏见问题,训练数据库的标注过程也可能影响数据的质量。适合机器学习的良好训练数据库不仅要求数据的规模大,还要求对数据的标注准确。数据标注属于劳动密集型产业,成本高昂,通常需要大量数据标注员的参与,但目前数据标注从业人员的素质参差不齐。在数据标注过程中,数据标注员的偏见可能会影响数据的质量,进而影响产出内容的质量。例如,数据标注员与接受数据服务的人关于美好假期的看法可能存在很大差异,对于从事图像标注的东南亚工人而言,“海滩和大海意味着艰苦的捕鱼或者清理工作,而不是在太阳椅上放松”。

之所以发生数据偏见的问题,除了开发资金有限之外,还由于数据的收集、存储和使用过程中涉及重要的伦理困境和法律风险。例如,如果开发视觉识别类的人工智能,通过网络就可以找到足够多的数据,如关于人种、肤色和性别的人类照片和视频。然而,这些图片或视频通常受版权的保护,随意使用存在着侵权的风险。不只是视频、照片,各类作品都有可能被处理为人工智能开发的重要数据、作为机器学习的初始素材。例如,语言类人工智能(如口译机器人)需要使用大量的书面语言和口头语言作为素材,这需要将大量的书籍、视频、录音等处理为学习数据。

人工智能的开发者有可能利用其特有的市场地位获得一些版权材料的授权,如分享平台提供者通常会在服务协议中约定其可享有用户版权材料的使用权,有些甚至强制用户转让版权。但是,并不是所有的人工智能开发者都能够有这样的便利条件。有些人工智能开发者通过购买数据库的方式来获得作为机器学习数据的版权材料。例如,IBM公司开发的人工智能“沃森”(Watson)就是通过与纪念斯隆—凯特琳癌症中心的合作而获得了超过1200万页的医学文献,其中大部分文献都享有版权。尽管IBM公司并未公开其具体费用,但从其与麻省理工学院和哈佛大学的合作费用高达五千万美元来看,该种方式的数据获取成本非常高。即使如此,这样获取的数据样本仍然可能是不全面的,如YouTube的用户主要是白人,微信的主要用户是华人,极易导致“算法偏见”的产生。

版权法提高了数据获取的成本,这是造成“算法偏见”的原因之一。当训练数据的使用成本提高时,人工智能系统开发者更倾向于使用那些处于公有领域、不受版权法保护的版权材料,以降低开发成本,但这些版权材料往往充满偏见。例如,我国《著作权法》规定的作品保护期为作者终身加死后50年,假设作者35岁时发表作品而在75岁时去世,则作品的自由利用时间离发表时间就相差近百年之久。在漫长的时代变迁过程中,语义可能发生变化,有些词汇已成历史。如果人工智能系统的开发者把这些具有时代局限性、缺乏全面性和客观性的版权材料作为训练数据,那么生产的内容也将带有偏见。这不仅可能导致市场失败,还有可能固化那些已经逐渐消失的社会偏见。

“算法偏见”问题在现存版权法框架下难以得到解决。这主要体现在三个方面。第一,版权法禁止规避技术措施,限制了反向工程等减少偏见技术的实施和更优化的人工智能系统的开发。第二,版权法通过对作品的垄断,主要通过版权法默认的“选择加入”(opt-in)作品利用机制,记者、研究者以及竞争对手基于披露算法偏见目的使用作品的行为也被排除在外,限制了算法问责制的实施。第三,占据主导地位的人工智能开发者通常依靠其产品获取数据,产品所针对用户群体的单一性造成获取的数据具有一定偏见。而且,获取数据需要大量投资,新兴的市场竞争者几乎不太可能获得类似IBM协议的作品使用许可。

解决“数据驱动创作”版权困境的方案主要包括“选择退出”“有条件例外”“无条件例外”及“法定许可”模式。具体而言,“选择退出”(opt-out)模式是指在法律规定的特定情形下,未经事前授权的版权材料使用者只要支付了合理报酬,其行为并不违法;但如果权利人将不愿授权的意愿告知使用者,使用者即不能再予利用。“有条件例外”模式以英国《1988年版权、设计与专利法》(第29A条)为代表,作为版权侵权例外的数据挖掘限定在非商业性使用的范围内。以美国和日本为代表的“无条件例外”模式则允许基于商业目的之数据挖掘适用合理使用制度,但二者也因立法模式不同而存在一些区别。美国常常通过解释合理使用的一般条款,将基于数据挖掘目的使用他人作品的行为纳入其中。日本则采取“列举主义”的方式扩张了合理使用的范围,其《著作权法》(2018年)第47条之五将所有信息处理(“情報処理”)行为纳入侵权例外,不考虑是否具有商业目的,其条件是该使用行为属于轻微利用(“軽微利用”)且不得不合理地损害版权人利益(“著作権者の利益を不当に害”),这为数据挖掘、机器学习、反向工程等技术的应用扫清了制度障碍。欧盟《数字单一市场版权指令》也有类似规定,其第4条规定:“以文本和数据挖掘为目的,对合法获取的作品或其他内容进行复制与提取的行为”,属于著作权例外。最后,“法定许可模式”允许人工智能系统开发者无需事先获得作品权利人的许可而直接使用作品,但需向权利人支付合理报酬。

在上述模式中,合理使用制度的扩张是克服“算法偏见”的可行路径。虽然上述四种模式都简化了作品的许可成本,但相较于“选择退出”和“法定许可”模式,在“无条件例外”模式下,人工智能系统的开发者无须支付任何费用即可将受版权法保护的作品用作训练数据。这不仅可以增加训练数据的数量,也可以提高训练数据的质量。同时,相较于“有条件例外”模式,“无条件例外”模式则将合理使用的适用范围扩张到商业使用目的,更有利于推动算法创作的广泛使用,提高内容行业的生产力。

更重要的是,基于机器学习目的使用他人作品满足合理使用制度的构成要件,不会造成利益失衡。版权法不仅应坚持“人类读者”的可版权性条件,也应坚持“人类读者”的合理使用标准。算法创作并不一定利用原作的表达进行创作,而是将原作作为数据提供给机器使用或“阅读”。即,人工智能开发所利用的作品在性质上只是机器学习的数据;它完全不会像人类读者一样去欣赏、体验作品,或像人类作者一样去再创作。在机器学习过程中,“最畅销的小说仅仅是人类如何使用书面语言的数据,自拍照只是人脸特征的数据,电影中的对白也只是人类声音的数据罢了。”因此,版权法应该区分人类读者和机器读者。对于面向人类读者的作品使用行为,“必须要予以严格、详细地审查,以确保属于版权人的作品市场不被侵蚀,但属于机器读者的使用行为,则应属于合理使用”。

这体现了合理使用中转换性使用的重要转向。通常认为,合理使用制度意图克服“过宽的版权保护阻碍科学技术的进步”之弊端,以确保其作为“表达自由的引擎”,而不是相反。在新技术引发的合理使用纠纷案件中,美国法上发展出来的转换性使用常常被用作判断的主要标准。转换性使用为美国勒瓦尔法官所系统阐释,他认为“如果二次使用行为给原作品增加了新的价值,如将其作为原始素材(raw material)而引用,或在新信息的创作中进行了转换,或增加了新的审美、洞见和知识,这些行为就是合理使用制度意欲增进社会发展的使用类型”。在数字技术时代,这一阐释广泛用于功能转换性使用的情形,比如图片搜索、论文抄袭检测等。在这些类型的案件中,被告常常没有进行任何的创作行为。有的学者将功能转换性使用的合理使用称之为“非表达型”(non-expressive use)合理使用;也有的学者称之为 “技术型合理使用”,并将二次使用作品的行为分为创作型、操作型和输出型三种。

我国现行《著作权法》并未规定美国式因素主义的合理使用制度,但《著作权法实施条例》第21条的规定借鉴了《伯尔尼公约》的三步测试法,具有因素主义的特征。该条规定,在特定情形下可“不经著作权人许可使用已发表作品, (但)不得影响该作品的正常使用, 也不得不合理地损害著作权人的合法权益”。那么,机器读者的作品使用行为是否影响“作品的正常使用”?是否“不合理地损害著作权人的合法权益”?问题的回答取决于以下事实:用于机器学习的数据(作品)是否属于作品的传统市场、合理预期的许可市场以及极有可能开发出来的潜在市场?

很明显,机器学习需要获得大数据的支持,但单一作品对人工智能开发的价值和意义不大,它与作品本身的艺术价值或表达价值无关。事实上,作为数据的作品只是关于人物的基本特征、画作的一般元素、语言的共同属性等事实的载体。质言之,人工智能使用作品的目的是为了获取有关语言或图片等事物的抽象或原则概念。因此,这并不属于一般意义上版权人的作品市场。在计算机软件的版权保护中,法律早已承认有些复制行为受合理使用庇护,这就是反向工程中的“中间性复制”(intermediate copying)问题。作为获取版权软件中的设计思想和功能要素的手段,“中间性复制”为竞争者开发出与原作品功能相兼容的新软件所必须,故构成转换性使用。为机器学习复制作品的行为类似于软件开发时的“中间性复制”,即使是对作品的完整复制,它也只是机器学习时输入的一项数据,并非在作品表达意义上来阅读作品。功能性的转换性使用不属于面向传统人类读者的范围。因此,它不属于版权人控制的作品市场。

三、算法创作再塑版权制度的基本取向

数据不仅用于算法创作,也用于版权产品的分发、购买决策等各个阶段,它将间接影响版权产品的创作。本质上,这是关于内容偏好和消费数据的双向互动通道,越来越多的视频网站依据用户数据来作出版权产品的购买决策以及向用户推送内容。内容服务提供平台需要通过收集载有用户偏好的数据,例如,暂停、前进、后退等操作行为,浏览日期,观看时长,压缩编码来源,观看所使用设备,用户给出的评分等级,用户的搜索内容,用户的浏览和上下滚动操作等,并利用数据挖掘技术对这些数据进行处理、分析,从而做出更有针对性的决策,降低风险。内容的分发是版权产品生态的重要环节,大数据的应用提高了内容分发的效率。

内容推送是大数据在内容分发领域的重要应用之一。数据驱动型企业可以通过分析用户偏好,对消费者进行个性化推荐,极大地降低了内容分发成本。例如,著名流媒体音乐公司声田(Spotify)每周一都会向其超过一亿的用户推荐一个名为“Discover Weekly”的全新歌单,歌单中包含了30首用户从未听过但很可能会喜欢的歌曲。该歌单的创建,借助的就是大数据分析。声田公司的数据来自于隐式反馈。具体而言,流媒体服务会记录用户所听的歌曲,用户是否将歌曲保存在自己的歌单中以及是否在听完歌后访问了歌手的主页等信息。声田公司通过协同过滤模型、自然语言处理模型、原始音频模型实现了对相似音乐偏好的听众喜恶的了解,并据此进行精准推送。实际上,图书、新闻等行业,今日头条、一点资讯、凤凰新闻、网易新闻、亚马逊、当当网等都已意识到个性化推荐是未来行业发展的方向,并通过不同方式为用户量身定做内容。

数据在内容分发领域的另一重要应用是“信息流广告”。信息流广告是原生广告的一种,它是“将广告内容与大数据结合,在用户访问自己的社交账号时,针对极具个性和身份特征的人群进行推送的广告形式”。通过数据分析,广告分发逐渐走向个性化,在同一社交平台上,不同的用户会看到不同的广告。以微信为例,腾讯公司通过分析用户的性别、年龄、地域、职业类型、好友关系列表、公众账号关注列表等数据,对用户确定用户画像并进行精准广告投放,提高了广告营销的效率。

由于版权产品的内容分发与制作均建立在精准发现消费需求的基础上,算法创作既极大地降低了其制作成本,也降低了版权产品投资的市场风险。在此之前,当作品进入市场后,创作者的成本主要体现为两个方面:市场失败的风险和市场成功的风险。市场失败风险是指,作品不符合市场需求,没有读者愿意阅读、观看或者聆听作者创作的作品;市场成功的风险则是指,虽然作品在市场上广受读者欢迎,但受欢迎的作品同样会吸引盗版者的注意,带来盗版的风险。但是,在新技术条件下,内容生产者对市场需求的判断不再仅靠作者的直觉和经验,而是通过收集、分析用户数据,了解用户的偏好,并根据用户的偏好从事内容创作和内容分发。虽然不能保证这种创作模式下生产的内容绝对不会存在市场失败的风险,但显然这种模式下创作和分发的内容更符合市场的需求,极大地降低了市场失败的风险。同样,版权产业商业模式的变革降低了市场成功带来的盗版风险。如今,奈飞、亚马逊、声田和苹果音乐(Apple Music)等内容生产公司均已经引入基于订阅的流媒体服务,已有大量证据表明这一商业模式增加了市场上作品的数量,也使得“消费者可以比以往任何时候都支付更少的钱,却有更多的机会接触到丰富多彩的音乐。作品获取成本的降低使得盗版者难以获得丰厚的利润,降低了盗版者从事盗版行为的动机,作品取得市场成功所面临的风险也随之降低。

算法创作的上述情形反映了技术对社会的深刻影响,它足以改变版权产品的市场结构,并将影响版权法的具体发展,特别是影响到加强版权保护力度的正当性与投资保护在版权法中的地位。

一方面,算法创作影响加强版权保护力度的正当性。一般认为,版权产品属于公共物品,本不具有稀缺性。但为了使生产者收回最初在作品创作中的投资,版权法通过设定著作财产权的方式人为地制造稀缺性,使创作者可以获得高于边际成本的利润来弥补固定投入,从而激励创作者继续创作。而之所以需要维持高水平的版权保护,其重要原因在于版权产品的市场风险大,如投资巨大的影视作品“成功率只有一成”,“九成的影视剧都是没有拍完的,”即投资失败。因此,版权法需要保障市场成功的产品能够获得足够高的市场利润,这样才能在整体上实现激励创新的立法目标。

但是,算法创作不仅提高了版权产品的市场成功率,它还降低了创作的人力成本。随着人工智能技术的不断发展,如今的算法已经代替了人力从事内容的生产,其不仅可以作为人类作者创作的辅助工具,甚至还可以独立进行音乐创作、撰写新闻等。以新闻内容的生产为例,人工智能新闻机器人不仅可以简化传统新闻生产的采、写、编、排等生产流程,还通过生产的自动化一定程度上代替人工进行新闻写作,甚至“在新闻信息采集、数据分析、信息整合发布等几乎所有生产环节,都可以按照既定算法完成,最大限度地帮助或解放了新闻内容生产者”。

如果版权法的立法目标在于激励作品创作和传播,那么,当版权产品的制作成本和市场风险同步降低时,这意味着产业对于版权法的需求在降低而非增加。在这种情形下,“即使没有版权法的激励作用,人们依然会基于市场竞争以及本能进行版权产品的创作。”因此,如果假定版权法设定之初所进行的制度安排具有正当性,那么,由于“数据驱动创作”降低了版权创作的成本,也就降低了立法者人为设定的稀缺性所起到的激励效果,这必然对高水平版权保护制度的正当性产生一定冲击。因此,对于算法创作的版权产品,应当采纳更短的版权保护期和更狭窄的版权保护范围以维持与之前同等的激励水平,否则,将造成“无谓损失”(dead loss)。

另一方面,算法创作强化了投资或资本在版权产品制作中的地位,影响着版权法上权利及权利归属的制度构造。算法创作的广泛应用使得内容的生产不再依靠或者不仅仅依靠个人的创造性劳动,而是很大程度上需要依赖于投资者的资金保障和组织工作。像奈飞和今日头条之类的公司能够在内容产业中异军突起,正是依赖其数据挖掘能力以及对算法创作的重视。个人创作者受技术能力所限,不太可能实现海量数据的收集和挖掘;同时个人创作者也很难承担版权产品创作中所需要的巨额资金支持和投资的风险。实践中,数据驱动创作的主体也都是谷歌、亚马逊、苹果、奈飞等商业巨头。

因此,当内容的生产越来越依赖于投资时,学者们开始反思投资者在版权法中的地位。近年来,学者们对人工智能创作物或算法输出结果的可版权性及权利归属问题进行了充分的讨论。其中,赞成对人工智能创作物进行法律保护的学者,虽然对于权利主体以及权利主体所享有权利的性质存在分歧,但论证人工智能创作物保护的正当性和必要性,进而确定其权利归属的依据都是“投资理论”,这是因为“人工智能的设计是整个开发团队运用各种先进的设备和技术共同集体劳动的成果,这样精细的专业分工和高额的投入,不是普通的作品创作所能比拟的,也不是普通创作人所能承担的。如果不对投资者的利益进行保护,就不会有更多的资本投入。”其权利归属方面,或者认为“应当参照版权法中确定特殊职务作品归属的做法,给予编程者、使用者或者所有者相应的物质奖励或者补偿后,由投资者享有版权”;而不同投资者之间可依合同约定优先、以实际控制者为辅的方式来确立权利归属。或者认为应当“按照民法上的孳息归属的原则,版权应当归属于开发人工智能的程序员或者投资者”。支持对人工智能创作物进行邻接权保护的学者认为,邻接权的核心要义是保护投资,人工智能产业的发展需要大量的投入,如果不从法律上保护投资者,将不利于产业的发展;从引导人工智能领域投资的角度来看,应当重视投资人的利益,建立以“所有者”为核心的权利构造。

从版权法的发展历史来看,“保护作者和激励创作只是支撑版权制度正当性的符号性表达,版权法的真正目的是保护作品的投资者”。按照“投资理论”的观点,“与其说作者是作品的创作者,不如说作者是使作品成为可能的投资者”。内容的创作只是版权产品生态中的一环,内容的分发是将内容传递给公众并满足其需求的重要组成部分。数据驱动创作模式下,投资者参与了内容的创作、分发过程,其不仅为内容的分发投入资本、承担风险,还通过投资数据挖掘技术参与、组织内容的创作。允许投资者享有著作财产权可以弥补其从事内容生产的固定投入,激励投资者继续从事内容生产。

四、算法创作的负面效应及其规制

如前所述,算法创作技术下,数据影响版权产品的制作与营销,它精准发现消费需求,提升版权产品的创作效率与市场成功率,促进了版权产业的繁荣。但是,算法创作也具有一些负面效应。一方面,受算法技术、数据质量、数据库完备程度等因素的影响,在版权产品创作领域出现了“算法偏见”“信息茧房”“内容低俗化”甚至“虚假新闻”等内容质量问题。另一方面,数据垄断对内容市场的自由竞争带来了负面影响。这些问题严重影响了版权产业的健康发展,且难以通过市场方式予以化解,亟需法律予以适度干预。

第一,强化算法创作的质量控制。当数据、代码或算法取代了传统版权产业中专门把关内容质量的编辑,内容分发标准从“内容的质量”向“用户的点击量”转变,这种将“用户点击量”与“用户真实需求”等同的做法,造成“内容下降的螺旋”,增加了读者对于优质内容的获取成本。例如,某些内容服务提供者为了迎合、取悦读者,一方面通过低俗、媚俗的内容或者博取眼球的标题推荐读者阅读,另一方面,又通过算法连续为用户推送低俗、媚俗的内容,严重影响内容分发的质量。因此,在数据驱动创作的各个环节都应当进行人工干预。具体而言,在样本准备阶段,应当通过人工筛选的方式,对处于输入层的训练数据进行筛选,在训练数据库中剔除含有低俗、偏见等信息的数据。在样本处理阶段,通过对算法的人工干预,保证数据处理过程准确、客观。在信息的输出阶段,应加强对分发的内容审核与筛选,排除通过“标题党”“哗众取宠”方式博取关注的内容,保证所分发的内容符合用户的真实需求;算法“合成”的作品(如新闻、评论等)还应在显著位置明确其真实地位。

算法主导下的内容分发模式还可能带来“自我封闭”或“信息茧房”的危险。在智能分发平台上,如果用户只对自己感兴趣的某一类信息进行阅读,那么该平台对用户推荐的内容也将仅限于该特定领域。此后,当用户对其他领域的信息有需求时,需要通过主动检索才能获取相关信息。可见,算法基于用户数据的分发模式在降低用户获取某一特定领域信息的成本的同时,也增加了用户获取多元信息的成本,这一现象在用户对某一软件形成“用户依赖”之后将变得更为严重。

美国学者尼葛洛庞帝在《数字化生存》一书中所描述的数字化场景说明,承载个性化信息的“我的日报”(The Daily Me)和承载公共信息的“我们的日报”(The Daily Us)都是用户的客观需求,因为“到了星期天下午,我们希望以比较平和的心情了解一些我们从来不知道自己会感兴趣的事情……此时,你最不希望看到的,就是有个紧张兮兮的界面代理拼命想帮你去掉看似不相干的信息”。但是,由于缺乏监管,如今的算法更多的是通过个性化推荐进行内容分发,这不仅不能满足用户的真实需求,还使用户陷入“信息茧房”的困境。按照“法律软父爱主义”的观点,法律应当对“强制、虚假信息、兴奋或冲动、被遮蔽的判断,推理能力不成熟或者欠缺”的结果进行限制和干预。因此,为了避免“信息茧房”问题,内容的生产者在推动内容的个性化定制的同时,也应加强对优质公共信息的推荐,使内容的生产从“迎合用户需求”向“创造用户需求”转变。例如,ZAKER新闻客户端通过“算法推荐+自主订阅+编辑选荐”方式,代替纯粹的智能分发或者人工分发,“既避免了过度推送带来的信息骚扰,同时还能扩展用户视野,避免‘信息茧房’效应”。

提高算法的透明度,推动建立算法问责制,这些举措将确保版权产品的质量以实现版权法促进社会进步、文化繁荣的立法目标。“算法黑箱”的存在是造成输出内容偏见的重要原因之一。“算法黑箱”问题的本质在于算法开发者和受众之间的信息不公开和信息不对称。推动算法透明、建立算法问责制是规范算法权力、破解“算法黑箱”、提高版权作品质量的解决之道。在国际范围内,美国计算机协会下属的美国公共政策委员会发布的关于人工智能算法透明化和可责性的文件、欧盟议会通过的《机器人民事法律规则》、纽约市议会通过的《政府部门自动决策系统法案》、美国国会引入的《2019年算法问责法案》等都已将算法透明化和算法问责制纳入其中,为我国版权产业的监管提供了有益的借鉴。按照算法透明性原则和算法问责制,应当要求开发者对训练数据的来源和算法决策的过程进行必要说明;同时也要强化开发者未履行披露义务的责任,确保算法透明化的实现。

第二,维护数据市场的公平竞争。随着大数据对版权产品制作效率的影响,数据成为决定内容生产者的市场竞争力的重要因素。在“美国司法部诉美国电话电报公司垄断案”中,时代华纳公司称,由于其无法获得用户的需求、兴趣和偏好等数据,这使得时代华纳公司在内容制作与聚合、广告销售等方面与谷歌、Facebook等数字公司相比存在竞争劣势。传统的版权内容生产者正面临来自创新内容服务的竞争挑战,网络公司利用数据和互联网的力量直接向消费者提供内容,降低了生产成本。与此同时,“数据驱动创新”模式具有网络效应、规模经济、双边市场的特点,数据可能成为竞争者进入市场的壁垒,它影响版权产业的自由竞争。

随着网络产品用户数量的不断增长,企业可以收集更多用户数据,并以此方式提高内容的质量,吸引更多用户的加入,获取更多利益。当网络产品形成一定规模后,这种“数据驱动创作”模式形成良性循环,既可以通过获取消费者偏好的数据降低版权产品市场失败的风险,也可以通过降低盗版动机避免前述之市场成功风险,使经营者占据市场支配地位,形成“赢者通吃”的结果。此时的数据经营者可能利用其市场支配地位拒绝竞争对手获取数据资源、歧视性对待、排他条款、数据搭售等方式排除或者限制竞争效果,造成市场壁垒。现行反垄断法的申报门槛可能无法对数据驱动型企业的并购形成有力监管。为了获得竞争优势,拥有大量数据资源或者控制收集数据渠道的企业开始通过企业合并、控股或签订合同等方式垄断数据资源,可能对市场竞争和消费者利益造成负面影响。反垄断法通过经营者集中将这种行为纳入监管范围。但是,目前大多数国家均采取“营业额”或“资产额”标准,则部分数据驱动企业并购很可能因营业额不满足申报标准而无须进行申报。

为了化解数据垄断对版权产业自由竞争造成的潜在风险,应当重视反垄断法理论和制度的革新。首先,应当完善“相关市场”的界定标准。对此,日本公正交易委员会发布的《数据与竞争政策调研报告》(以下简称《报告》)的做法值得借鉴,该《报告》提出除了考察需求替代与供给替代,界定“相关市场”时,还应当考察“地理范围”“对研发活动的影响”“数据交易市场的界定”“对多边市场和免费市场的考量”等因素。

其次,为了将数据驱动企业并购纳入监管范围,应当推动经营者集中的申报标准从单一的营业额标准向交易额、数据集的控制等多元标准转向。在满足特定构成要件时,将数据界定为“必要设施”强制数据开放,打破因网络效应、规模经济、双边市场等因素形成的贸易壁垒,实现公平、自由的市场竞争环境。

最后,处理数据垄断问题也要重视政府监管与市场调节之间的关系。如果经营者滥用市场支配地位,损害消费者利益,无疑将再次造成市场成功的“盗版风险”。Napster、Grokster和类似公司的经营历史表明,当合法获取内容的手续过于繁琐或成本过于高昂时,盗版的内容将再次在市场上泛滥,经营者将再次陷入“打地鼠”般的维权漩涡。这种市场调节的方式同样有利于预防和制止垄断行为。

五、结论

数据之于信息社会就如燃料之于工业革命,是人们进行创新的力量源泉。数据驱动创作模式将数据与算法相结合,使版权产品的制作从“供给导向”向“需求导向”转变。版权产品制作者通过收集、分析用户数据,获取用户的偏好,并据此进行内容的创作与分发,极大地提高了版权产业的生产效率。算法可以独立或作为辅助工具参与版权产品制作,浪漫主义作者不再是作品的唯一来源,作为著作人格权理论基础的“浪漫主义创作理论”难以为继。

同时,算法创作模式还对著作财产权制度产生了影响。首先,它降低了版权产业的市场风险,版权产业的整体生产力水平得以大幅提高。为实现社会福利的最大化,版权法应当降低算法创作的版权保护力度。其次,在数据驱动创作的模式下,内容创作对投资的依赖程度越来越高,为了弥补投资者的固定投入,确定版权的归属时应当注重投资者利益的保护。最后,从现有模式来看,合理使用制度是解决数据挖掘技术的版权障碍、克服“算法偏见”的可行方案。

算法创作也给版权产业的发展带来“算法偏见”“内容低俗”“数据垄断”等负面影响。因此,应当及时采取措施维护版权市场的公平、自由竞争。具体而言,为了提高版权产品的质量,应当加强对版权产品制作过程中的算法监管,增强算法的透明度、建立问责制,适当引导内容生产向优质内容倾斜。另外,为了维护市场自由竞争环境,应当明晰政府监管与市场竞争之间的关系,通过完善“相关市场”界定标准、变革经营者集中的申报标准、将数据界定为“必要设施”等措施,预防和制止垄断行为。

(责任编辑:吴一鸣)

(推送编辑:冯    丹)

本文原载于《华东政法大学学报》2019年第6期。编辑部在线投稿系统已更新,欢迎学界同仁登录journal.ecupl.edu.cn惠赐大作!


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存