×
图片

打开微信,扫一扫二维码
订阅我们的微信公众号

×

打开手机,扫一扫二维码
即可通过手机访问网站并分享给朋友

×
EN

金诺法谈 | 信息化服务场景下数据权属界定初探——实然、应然以及OpenAI条款的借鉴意义

2024-03-08316

随着我国“数据二十条”政策和“数字中国”战略提出以来,社会各界都在积极探讨打破数据孤岛、发挥数据要素价值、促进数据流通等一系列问题,并逐步推出了建立在数据安全合规基础之上的数据知识产权登记、数据产品交易、数据资产入表等探索性制度。伴随着对此类制度的实践,业内普遍认为,数据或数据资产的登记、交易和入表,均离不开数据确权。然而数据的天然特性,包括其动态多变性、可复制性、非排他性,决定了其不宜被纳入传统的物权法和知识产权法的保护体系,因此,不能简单借用基于物权的排他性理论,从占有、使用、收益、处分四项权能来对应分析主体对数据的权利,也无法强行将数据归入到作品、计算机软件、专利(即很多数据无法构成现有法律所规定的“知识产权”)。当然,从事实上,很多数据会是组织的商业秘密/技术秘密,但仅从商业秘密/技术秘密角度保护数据,只能从竞争法的维度去主张权利和进行维权,从正向的权属构建层面,我国依然还在探索阶段。

2022年12月,中共中央、国务院印发《关于构建数据基础制度更好发挥数据要素作用的意见》(“数据二十条”)明确提出“探索数据产权结构性分置制度……建立数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制”。

数据产权的构建有赖于顶层制度设计,制度设计又需要社会实践的不断探索和立法的创新。具体到每个企业、每个组织以及每个数据应用场景,数据流通的先进参与者,都有必要在制度设计尚在探索阶段的当下,积极拥抱新生事物,从事实本源出发,了解数据的权属划分原理,并熟悉以协议条款构建数据权属的方法。

本文聚焦信息化服务场景,通过典型场景案例分析信息化服务/产品供应商(“信息化供应商”或“供应商”)应当知晓的数据归属基本原理,并意图借鉴OpenAI协议条款,为人工智能模型供应商提出值得借鉴的有助于模型权属清晰化的实操方案。

场景一:SaaS服务场景

SaaS服务的典型场景包括供应商向用户提供网站链接、APP、公众号、小程序,用户通过账号密码即可登录使用,或者完成注册、身份认证、登录等一系列动作后,即可使用。SaaS服务的一个特点是用户即点即用,软件、系统和所实现的业务功能均来自供应商,其不依赖于用户本地服务器或自身任何系统。因此,相对于用户侧,用户操作软件、系统运行过程中所收集的数据和处理的结果在物理空间上均存储在供应商侧。

例如,SaaS版的人力资源管理系统Workday即为此类产品。从最朴素的实然和应然角度去理解,企业用户使用Workday系统来录入和管理本企业员工信息,原始数据和处理后的输出结果自然应当归属于企业,不应当因为企业使用了第三方的管理工具而抹杀了企业对于原始数据及其处理结果的天然应有权属。对应到《个人信息保护法》的主体身份,该场景下,企业用户,因其拥有对员工个人信息处理目的和处理方式的决定权,应构成“个人信息处理者”,Workday供应商所有对员工个人信息的处理动作,均为实现企业管理的目的,应属于“受托处理者” 。

Workday系统的服务条款,也印证了上述理解:

“Data Ownership:

3.4 Ownership of Customer Data. Customer owns all rights, title and interest in and to any Customer Data, and other Customer Confidential Information provided to Workday, including any and all Intellectual Property Rights therein and thereto. Subject to the limited rights expressly granted hereunder, Customer reserves all rights, title and interest in and to the Customer Data and Customer Confidential Information, including all related Intellectual Property Rights.”

场景二:第三方系统在用户本地部署场景

市面上很多SaaS软件供应商均可以根据企业需求为企业提供本地部署版本。从系统架构的角度来看,本地部署后,客户的数据和运行结果均从物理上保存在用户侧,而非供应商侧。用户可以根据实际需求要求供应商在本地部署软件的同时对系统进行定制化开发,同时企业可以自主决定数据在本地端的保护策略,诸如备份策略和保存期限等。

当然,由场景一推理可得,此时的客户数据和处理结果也当然归属于客户,客户也当然是有权决定数据处理目的和处理方式的“数据处理者”。然而,供应商此时不再作为数据的“受托处理者”,而是纯粹意义上的软件系统提供商、开发商、维护服务商。

当然,以上场景下的数据归属分析是建立在理想化假设基础之上的。在上述基础上,又可以衍生出更多的数据处理法律关系。例如,SaaS供应商在受托处理企业客户的员工个人信息之后,还可以通过协议约定等方式,从数据处理者手中进一步获得将数据进行匿名化分析,用于开展人力资源市场行情分析的目的。在这种衍生场景下,员工个人信息的用途将超出雇主的原始处理目的,因此需要获得员工的单独同意,企业用户和系统供应商之间虽然不存在数据的物理传输,但也会构成企业用户向第三方数据处理者提供数据的法律关系。再比如,私有化部署的软件,实际实施中并没有部署在客户本地机房和服务器,而是部署在客户采购的第三方云端,此时数据的物理位置可能会在云端所基于的底层数据中心,因此又会衍生出更长链条的数据受托处理者(即受托存储的基础设施供应商)。

探讨场景一和场景二中的数据归属权和主体之间的法律关系的意义在于,第一,在数字化时代,任何市场主体几乎都参与到数据流动过程中,复杂的数据流向与交互,多重的数据用途交织叠加,纷繁复杂,这往往会使企业在数据权归属上迷失方向。而厘清数据归属权,有利于明确数据权属,维护各方主体的自身利益,明晰自身角色所被赋予的对外法律责任,降低对外发生数据侵权的法律风险。第二,放眼未来,还可为企业数据资产入表、数据交易工作打下“数据合规确权”的坚实基础。

场景三:工业软件供应商为工厂部署本地化人工智能算法模型

工业生产领域,以某一环节工业流程为例,传统方式为人工判断应保持的角度、应使用工具和具体操作指标;工业软件的应用实现了该项作业流程的标准化和自动化,然而解决方案的设计可能依然需要人的计算。工业人工智能技术的应用,则可以借助算法、模型,利用车间自身的运行参数来进行模型训练,实现模型的自身优化,最终可以由模型来输出一套最优的作业解决方案。此类工业模型的供应商一般会向工厂提供本地化软件和模型的部署,且一般不交付模型源代码。场景三和场景一、二的相同点在于,工厂的原始输入数据和运算结果应当归属于工厂,在此不再赘述。区别在于,工厂的原始输入数据除了用于输出运算结果供工厂使用外,还同时训练了模型,导致模型发生了优化,此时的关键为题就在于:(1)用于训练的原始数据是否还属于工厂?(2)优化后的模型归属于哪一方?

这里我们首先借鉴一下OpenAI的ChatGPT的用户协议条款:

“Your Content. You may provide input to the Services (“Input”), and receive output from the Services based on the Input (“Output”). Input and Output are collectively “Content.” You are responsible for Content, including ensuring that it does not violate any applicable law or these Terms. You represent and warrant that you have all rights, licenses, and permissions needed to provide Input to our Services.

Ownership of Content. As between you and OpenAI, and to the extent permitted by applicable law, you (a) retain your ownership rights in Input and (b) own the Output. We hereby assign to you all our right, title, and interest, if any, in and to Output.

Similarity of Content. Due to the nature of our Services and artificial intelligence generally, output may not be unique and other users may receive similar output from our Services. Our assignment above does not extend to other users’ output or any Third Party Output.

Our Use of Content. We may use Content to provide, maintain, develop, and improve our Services, comply with applicable law, enforce our terms and policies, and keep our Services safe. “

不考虑细节性的条件限制,以上条款可以归纳为几大原则:(1)用户的输入内容和生成结果均归属于用户;(2)用户知晓并同意,模型向其他用户提供的生成内容可能类似于向该用户提供的生成结果;(3)尽管输入内容和输出结果归属于用户,但用户同时也许可模型进一步将输入内容和输出结果用于模型训练。

ChatGPT的应用是SaaS版服务方式。以上用户反向许可输入内容用于模型训练仅适用于个人版的用户协议(尽管系统也提供了个人可拒绝将输入数据用于模型训练的选项),对于企业用户,协议则一概约定,企业用户输入和生成的所有数据均不会用于模型训练:

“When you use our services for individuals such as ChatGPT or DALL?E, we may use your content to train our models.

You can opt out of training through our privacy portal by clicking on “do not train on my content,” or to turn off training for your ChatGPT conversations, follow the instructions in our Data Controls FAQ. Once you opt out, new conversations will not be used to train our models.

Services for businesses, such as ChatGPT Team, ChatGPT Enterprise, and our API Platform.

We don’t use content from our business offerings such as ChatGPT Team, ChatGPT Enterprise, and our API Platform to train our models. Please see our Enterprise Privacy page for information on how we handle business data.”

笔者理解,这种差异化的设计,是出于对企业商业秘密、知识产权进行充分尊重和保护的考虑。

由此回到前文场景三提出的两个问题:

(1)用于训练模型的原始数据是否还属于工厂?答案应该是肯定的。即便用于训练模型,其原始权属也应当归属于工厂。

(2)优化后的模型归属于哪一方?从软件部署角度来看,带有模型的工业软件,由供应商为企业进行了本地化私有部署,但是未交付源代码。工厂本地的模型在使用过程中不断优化,演变成为更智能化的模型。此时,我们理解,可以使用知识产权许可的传统原理和逻辑来约定新的场景:即供应商许可工厂使用其所提供的初始模型,模型使用过程中衍生的新模型可以通过约定来解决归属问题,既可以约定归属于用户,也可以约定归属于供应商。

实践中,很多供应商的标准条款仅做出笼统约定,例如,“乙方所提供的软件的知识产权,以及使用过程中衍生出的新的知识产权,全部归属于乙方”。笔者理解,这种约定虽然从实际效果角度实现了供应商利益的最大化,但其终究还是建立在“不知其所以然”的基础上做出的泛泛约定。

基于我们在实践中的观察,从更细维度去考虑,站在工厂的角度,尽管在人工智能领域并不一定专业,工厂也依然希望新的模型能够归属于工厂而非供应商。那么在这种客户需求下,供应商的利益是否有更好的保护策略呢?个人理解,是有的,即不妨将条款设计为:初始模型的所有权和知识产权归属于乙方,乙方将初始模型许可给用户使用,用户在其本地使用模型过程中输入的数据和生成的结果,归属于用户。用户每次输入的数据均可用于进一步训练模型,基于训练而形成的新模型的知识产权归属于用户。当用户将新模型再次投入到新的业务场景或者应用于相同的第二条生产线时,乙方有权就其新模型中所含的初始模型再次收取许可使用费。

笔者理解,这种方式既可以维护工厂拥有新模型、保护自身商业秘密、维护自身数据安全的诉求,同时也有助于在客户复用新模型时,保证供应商后期获取持续收益,对于供应商的持续创新能够产生正向的激励作用。

综上,笔者认为,讨论数据确权问题,不能空泛而谈。以具体场景为例探讨数据与模型权属问题是一种特别有实际意义和直观效果的方法。国内企业在实际业务过程中,也可以多借鉴国际先进企业的做法和条款,知其然也知其所以然,将数据权属更为清晰地进行约定,这不仅有助于自身权利保护,便于后期开展数据确权入表、数据交易工作,站在国际视角,也是提升我国企业数据保护意识、商业水准和国际竞争力的必经之路。

感谢我的同事,金诺知识产权业务合伙人孙旺律师以及IT工程师李晓川在本文撰写过程中的大力支持!


津ICP备05001301号
2024 © Winners Law Firm 金诺律师事务所