打破AI僵局

0
657
LinkedIn
Facebook
Twitter
Whatsapp
Telegram
Copy link

步入机器学习腾飞的时代,新兴技术发展的迫切需要的与久经考验的知识产权保护规则能否实现统一?网易集团知识产权及数据合规总监王思佳分享了她的观点

在吸收海量数据进行机器学习后,以ChatGPT为代表的生成式人工智能(generative AI)已具备了撰写文章、生成图像、总结摘要、美化图片等丰富功能,不仅大幅降低了专业创作的门槛,也颠覆了传统的内容行业创作逻辑,对全球文化产业带来有目共睹的巨大冲击。

当前,人工智能技术的发展面临哪些法律问题?人工智能企业如何兼顾技术发展与风险控制?面对《商法》的提问,网易集团知识产权及数据合规总监王思佳凭借其在科技、互联网和人工智能行业从事知识产权及合规工作超过12年的宝贵经验,分享了她的独特见解。

Wang Sijia CH

《商法》:人工智能技术发展过程当前面临哪些主要挑战?

王思佳:从法律合规的角度,人工智能技术发展面临的挑战非常多样,涉及知识产权、数据偏见与歧视、个人信息及隐私保护、数据安全、商业秘密等诸多领域。其中,知识产权相关的问题无疑是最核心的,且与技术发展紧密相关。

自2022年以来,全球各大法域陆续出现与人工智能生成内容(AIGC)相关的司法和行政处罚案例,其中美国案例数量最多、最为活跃,这与美国生成式AI技术的领先水平与广泛应用紧密相关;其次是中国、欧盟等地区;日本则数量极少。

观察美国与生成式AI相关的知名诉讼案例,我们可以发现三个特点:第一,绝大多数与知识产权相关。

第二,争议主要聚焦在两类问题:生成式AI在机器学习阶段使用版权作品是否构成侵权,以及AIGC是否属于受著作权法保护的作品,尤以前者为甚。比较有代表性的案例是2023年12月27日纽约时报起诉OpenAI和微软,并在诉状中明确要求销毁纽约时报享有版权的所有训练数据集。该请求直指生成式人工智能技术的“命门”,即机器学习必须依赖的数据集。

第三,集体诉讼比例较高。例如,2023年1月的Stability及Midjourney被诉案是由美国三名艺术家Sarah Andersen、Kelly McKernan、Karla Ortiz代表其他成员发起的集体诉讼。此外,2023年6月28日的OpenAI被诉案也是由两位美国作家Paul Tremblay 和Mona Awad 代表其他原告提起的集体诉讼。

熟悉美国诉讼判例就会了解,集体诉讼常由专业律师召集和发起,且收费采用风险代理模式的可能性较高,即胜诉后律师分成可高达判赔额的40%以上。人工智能企业面临着巨大的诉讼负累和声誉损失,往往最终只能以巨额和解费结束案件。

对人工智能企业来说,上述挑战和困难是客观存在的,而从实务角度,可以看出其均产自应用层面,是企业将已实现的技术投入产业应用后产生的治理、合规问题。但是,对大量仍处技术探索阶段、尚缺乏应用落地的人工智能企业来说,最迫切的挑战还不是如何“治理”,而是如何“发展”,开发出属于自己的大模型。

OpenAI已取得举世瞩目的成就,但他们所用的方法并不神奇——在海量数据投喂下,让机器学习大力出奇迹。

人工智能技术发展有三驾马车:算法、算力和数据,缺一不可。以前我们认为算力是个瓶颈,因为算力依赖芯片,而芯片是“卡脖子”技术。但现在,我们已经逐步清晰地看到,对中国企业而言,大模型技术要有所突破,最困难的不是算力,而是缺少机器学习所必须的大规模、高质量的中文语料库(training dataset) 。毕竟,算力的计算有快有慢,而语料库则是非有即无。

尽管中国有最古老的语言,有上下五千年的文化积累,但尚未能充分地汇聚起来。相比渠道广泛、规模庞大、开源可用的英文语料库,例如国外大模型普遍采用的Common Crawl(网页信息)、Project Gutenberg(书籍信息)、维基百科等,我们在“量”和“质”的层面都有相当大的差距。并且对于任何一家中国企业而言,都不可能独立完成庞大语料的收集汇聚。因此,目前的困境是既没有“鱼”,也没能力“渔”。

《商法》:机器学习主要涉及哪些知识产权问题?

王思佳:究其原理,机器学习可拆分为三个阶段:数据获取、数据存储和数据生成,每一阶段涉及的知识产权问题各不相同。

在数据获取阶段,应主要关注获取数据的行为是否破坏了著作权权利人设置的技术保护措施。中国《著作权法》第四十九条规定了“为保护著作权和与著作权有关的权利,权利人可以采取技术措施。未经权利人许可,任何组织或者个人不得故意避开或者破坏技术措施……”。因此,绕开技术措施、强制爬取或者伪装爬取等行为,都涉及著作权侵权。

至于数据存储阶段,现行法律体系毫无疑问将其纳入著作权“复制权”的规制范围。机器学习的所有数据都以“数字化”形式存储,所以存储和使用版权作品必然涉及复制权侵权。

在数据生成阶段,大模型基于训练数据的特征抓取、形成学习成果并予以反馈和输出。这一阶段涉及的知识产权问题主要是三方面:(1)生成物是否属于著作权法意义上的作品?(2)如果属于作品,应归属何方?是大模型的开发者,还是使用者,亦或他人?(3)生成物与其他受著作权保护的作品构成实质性相似时,是否构成侵权,以及谁来承担侵权责任?

You must be a subscribersubscribersubscribersubscriber to read this content, please subscribesubscribesubscribesubscribe today.

For group subscribers, please click here to access.
Interested in group subscription? Please contact us.

你需要登录去解锁本文内容。欢迎注册账号。如果想阅读月刊所有文章,欢迎成为我们的订阅会员成为我们的订阅会员

已有集团订阅,可点击此处继续浏览。
如对集团订阅感兴趣,请联络我们

LinkedIn
Facebook
Twitter
Whatsapp
Telegram
Copy link