大模型時代的版權邊界在哪裡

發布時間:2024-02-02 來源:未知

  AI大模型時代開啟,應如何看待内容版權保護和人工智能技術之間的關系?中國科學院虛拟經濟與數據科學研究中心研究組成員、中科數字大腦研究院院長劉鋒認為,著作權制度的根本價值在于維護個人利益與公共利益之間的平衡。随着生成式AI等技術的發展,數據要素已成為最具時代特征的生産要素,數據對提高人工智能和數字化技術能力的作用正不斷凸顯。但人工智能發展背後,數據的利用和分配涉及到多方面複雜問題,需要綜合考慮技術、法律、倫理等多個維度來找到合理使用的平衡點。總體來說,生成式AI模型與知識産權之間呈現出一種博弈的過程。

  ——————————

  近期,美國《紐約時報》在紐約南區法院向OpenAI及其投資人微軟公司提起侵犯版權訴訟,指控二者未經許可使用其數百萬篇文章以訓練人工智能模型,而這些聊天機器人現在與該新聞機構形成競争,成為可靠的信息來源。

  訴訟未明确提出具體的賠償金額要求,但稱被告應對與“非法複制和使用《紐約時報》獨特有價值的作品”相關的“數十億美元的法定和實際損害”負責,還要求被告銷毀使用《紐約時報》版權材料的所有AI模型和訓練數據。

  在投訴中《紐約時報》表示曾于2023年4月與微軟和OpenAI進行了接觸,提出了對其知識産權使用的擔憂,并探讨“友好解決”的可能性,但談判未産生解決方案。當地時間1月8日,OpenAI首次針對《紐約時報》提起的訴訟進行了正式回應,稱《紐約時報》并未講述完整的故事,其訴訟毫無根據。盡管如此,公司仍然希望與其建立建設性的合作夥伴關系,并尊重其悠久的曆史。

  1月18日,OpenAI的創始人山姆·奧爾特曼(Sam Altman)在瑞士達沃斯世界經濟論壇上也對外表示,雙方在起訴消息曝光前曾進行了“富有成效的談判”,對《紐約時報》的起訴感到驚訝。他指出,OpenAI希望以“大量資金”向該内容出版社支付費用,以在ChatGPT中展示他們的内容,但實際上并不需要在他們的數據上進行人工智能訓練。“我認為人們不太理解這一點。任何一個特定的訓練源對我們的影響并不是那麼大。”

  《紐約時報》是全球首家起訴兩家公司侵犯其文字作品版權的美國大型媒體機構。此次訴訟拉開了未經授權使用已發布作品訓練人工智能技術的“法律戰役”新篇章,或将成為影響AIGC(生成式人工智能)領域走向的重大事件。

業内争議不斷 版權訴訟頻發

  這場訴訟引起了業内關于内容創作者與人工智能開發者之間權益平衡的讨論。支持者和反對者各執一詞,有人認為知識産權至上,OpenAI侵犯了《紐約時報》的勞動成果,甚至可能威脅到新聞業的獨立性;也有人認為,大模型可以像人一樣免費學習,侵權的關鍵在于作品的輸出内容,而非輸入内容。

  美國數字廣告局(Digital Content Next)首席執行官傑森·金特(Jason Kint)在社交媒體X(原推特)上指出《紐約時報》理由充分,其中包括《紐約時報》的内容是OpenAI用來訓練大模型的關鍵來源,以及《紐約時報》提供的100多個GPT-4輸出内容和《紐約時報》報道文章高度相似的例子。

  美國作家、科技評論家丹尼爾·傑弗裡斯(Daniel Jeffries)則提出相反觀點,認為要求每個人為訓練數據支付授權費是不切實際的,這也不是美國版權法所談論的關鍵,“版權法的宗旨是防止人們完全複制或近似複制内容,并為了商業利益将其發布。”

  他還聲稱,GPT精确複制《紐約時報》内容是人為操縱的結果。“沒有人能用他們所謂的提示重現那個逐字的輸出……可能是程序員通過API特意指令它尋找某篇特定的文章,并讓它輸出文章的一部分……如果我讓它去找一篇《紐約時報》的文章并輸出,那麼責任在我,而不是這個模型。況且這個功能完全不需要機器學習技術,十幾年前的編程庫就能做到。”

  對于席卷而來的AI大模型浪潮,不同的内容創作者和媒體機構也有着截然不同的态度。

  部分新聞機構選擇與科技企業合作。去年7月,美聯社與OpenAI達成協議,授權OpenAI使用美聯社部分新聞存檔,以探索生成式AI在新聞領域的應用。12月,德國大型媒體公司阿克塞爾·施普林格(Axel Springer)與OpenAI建立全球合作夥伴關系,根據協議,ChatGPT用戶有權限閱讀該出版社旗下媒體所創作的精選内容,同時其内容将被用于推進大語言模型的訓練。《華爾街日報》新聞集團則正在考慮向AI開發人員收取使用其中内容的費用。

  當地時間1月4日,OpenAI的知識産權和内容首席湯姆·魯賓(Tom Rubin)在接受采訪時表示,公司近期與數十家出版商展開了有關許可協議的談判,“我們正處于多場談判中,正在與多家出版商進行讨論。他們十分活躍積極,這些談判進展良好。”

  與此相對應,多家媒體在其網站上阻止OpenAI掃描平台内容。根據《衛報》報道,自《紐約時報》後,CNN、路透社、《芝加哥論壇報》(The Chicago Tribune)、《堪培拉時報》(The Canberra Times)、《紐卡斯爾先驅報》(The Newcastle Herald)等媒體紛紛宣布阻止該行為。其中,法國廣播電台(Radio France)表示,阻止OpenAI機器人是為了避免“内容未經授權就被掠奪”。

事實上,生成式AI面臨着大量侵犯版權的指控。

  2023年7月10日,美國喜劇演員和作家薩拉·希爾弗曼(Sarah Silverman)以及另外兩名作家起訴Meta和OpenAI,指控其侵犯版權。9月19日,美國作家協會以及包括《權力的遊戲》原著作者喬治·R·R·馬丁(George R.R. Martin)在内的17位美國著名作家對OpenAI發起集體訴訟,稱OpenAI在未經授權的情況下使用原告作家的版權作品訓練其大語言模型。12月,多名普利策獎得主起訴OpenAI和微軟濫用自己作品訓練大模型,指出這樣的行為無疑是在“刮取”作家們的作品和其他受版權保護的材料。他們希望獲得經濟賠償,并要求這些公司停止侵犯作家們的版權。

  據不完全統計,自2022年11月至2023年10月,僅美國加州北區法院便已經受理了10起版權人起訴StabilityAI、OpenAI、Meta、Alphabet等AIGC研發企業未經授權,利用版權作品進行模型訓練的案件。

傳統法律框架下的難題

  這場由《紐約時報》對OpenAI的訴訟引發的知識産權之争,不僅僅在美國引起了激烈的讨論,更是揭示了全球範圍内AI與内容創作者之間權益邊界的普遍性問題。在我國,法律層面尚未就生成式AI對版權作品的使用作出明确規定,大模型在知識産權的使用和保護方面引發的讨論也愈演愈烈。

  作為自然語言處理系統,大型語言模型(LLM)通過大量文本語料庫進行訓練,然後根據它所學到的内容來回答問題或生成文本,其學習的能力很大程度上依賴于海量數據。當下關于生成式AI領域的版權糾紛,有許多有關使用未經授權的版權作品進行大模型訓練的行為,且有迹象顯示傳統的版權模式在大模型時代可能會失靈。

  “按照我國法律來判斷,大模型在訓練階段對于數據的使用是否屬于版權侵權,依舊存在争議,很難給出确定性的結論。”中國政法大學知識産權研究中心特約研究員、北京嘉濰律師事務所律師趙占領指出,一般而言大模型訓練階段包含三種行為:獲取、存儲、處理。“獲取行為類似于線上浏覽網頁和線下閱讀書籍,如果隻是接觸不存在後續的傳播利用,是不構成侵權的。”同時他強調,在獲取階段需要關注獲取合法性問題,“比如對方實施技術保護措施,但你通過規避這些措施去抓取服務器裡的内容,是可能構成侵權的。”

  趙占領指出,按照著作權法,大模型訓練的存儲階段主要會涉及是否侵犯權利人的複制權。“但大模型訓練不是公開的外部使用,從傳統的角度來講不好發現,也很難判定到底造成了什麼損失,國内也沒有明确的立法和相關的司法判例,很難給出明确的結論。因為侵犯複制權一般都是複制的同時進行傳播和利用。”

  對于處理階段,騰訊研究院高級研究員朱開鑫曾表示,模型内部的内容分析處理行為對應著作權法上的何種權利存在疑問,且理論界和實務界目前尚未有明确結論。

  朱開鑫指出,有觀點認為“作品處理”行為落入著作權法中“改編權”的規制範疇,但所謂的改編權是指改編既有作品形成新作品的行為,如果是對作品數據進行分析處理,并生成包含一定模式、趨勢以及相關性的參數,這一過程不涉及新作品的形成,明顯難以契合“改編權”的要求。還有觀點認為,上述行為不屬于版權規制的權利範疇。著作權法遵循“思想表達二分法”的基本邏輯,強調“不保護自然人的思想,隻保護自然人對于思想的外在表達”。GPT模型通過不斷學習海量作品中不同文字之間排列組合的概率和規律,然後内化為自身的模型參數,對于作品僅僅是進行統計學意義上文字組合概率的學習,不是為了使用和展示作品中的表達性内容,因此不屬于著作權法意義上的作品利用行為。

  “目前我國在法律層面上,在生成式AI使用版權作品等方面沒有具體規定,但存在部門規章層面的規定。”北京大成律師事務所知識産權與科技創新組聯合負責人肖飒指出,我國對生成式AI使用作品的規範主要集中在《生成式人工智能服務管理暫行辦法》,其中第七條規定,生成式人工智能服務提供者應當依法開展預訓練、優化訓練等訓練數據處理活動;涉及知識産權的,不得侵害他人依法享有的知識産權。其特點在于對AI訓練使用版權作品較為開放,隻要不侵害版權作品複制權、信息網絡傳播權等著作權法上規定的權利即可。

  值得一提的是,我國著作權法第二十四條規定了“合理使用條款”,在特定的條件下,法律允許他人自由使用有著作權的作品,而不必征得權利人許可,不向其支付報酬的合法行為。而判定是否屬于“特定的條件”,其中一個重要标準是,是否用于營利目的。

  大模型訓練是否能适用“特定的條件”,被歸入“合理使用範疇”?肖飒認為,生成式AI抓取内容顯然屬于商業營利目的,故無法構成合理使用。合理使用制度之所以限制著作權,是因為著作權本身即是法律賦予作者特殊的壟斷權利,但不能因其而阻礙人們學習與社會發展。根據目前法律來看,生成式AI抓取雖不構成合理使用,但在未來随着其重要性逐漸攀升,相應法規可能會有所變化。

  肖飒觀察到國内目前雖然還未爆發大型矛盾,但不難看出在小的内容創作者與AI服務提供者之間已存在不少摩擦。“生成式AI本身運行機制較為複雜,想要證明其侵權确實存在很大的困難,這在一定程度上加大了被侵權者的維權成本。”她認為,目前内容生産方所依賴的法律保護依舊是著作權法,然而著作權法還未随AI發展而更新,因此内容生産方若想保護自己的作品不被AI使用,最好的辦法還是依據著作權法第四十九條,對其發布在公共平台的作品采取一定的技術手段進行保護,同時在相關文本中明确表示其内容不得被用于AI訓練。

尋找版權和技術的新平衡

  AI大模型時代開啟,應如何看待内容版權保護和人工智能技術之間的關系?

  在肖飒看來,目前版權與生成式AI發展是相互制約的。“版權制度實際上就是通過賦予作者特殊壟斷地位,維護與鼓勵其智慧創造。為促進生成式AI發展,版權制度可能需要适當讓步,在大數據時代中尋找一個新的平衡。而從法律層面上來看,平衡的方式可能是出台相關領域的專門立法,從而确立獨特的标準。”

  中國科學院虛拟經濟與數據科學研究中心研究組成員、中科數字大腦研究院院長劉鋒認為,著作權制度的根本價值在于維護個人利益與公共利益之間的平衡。随着生成式AI等技術的發展,數據要素已成為最具時代特征的生産要素,數據對提高人工智能和數字化技術能力的作用正不斷凸顯。但人工智能發展背後,數據的利用和分配涉及到多方面複雜問題,需要綜合考慮技術、法律、倫理等多個維度來找到合理使用的平衡點。總體來說,生成式AI模型與知識産權之間呈現出一種博弈的過程。

  北京師範大學新聞傳播學院學術委員會主任、教授,北京師範大學傳播創新與未來媒體實驗平台主任喻國明進一步解釋道,生成式AI的技術原理是結合大量語料數據,構建大語言模型,以ChatGPT為例,通過這種方式可使其具備高于人類平均水準的互動聊天能力,這些語料數據以千億級為單位,當前從事生成式AI的創業公司顯然不具備完全購買語料數據的能力,因此很容易産生知識産權糾紛。

  為此,他在幾年前便提出了微版權的概念。微版權是指,在技術發展過程中衡量語料數據的價值。比如,對于學術論文而言,不同論文的數據(下載量、引用量等)不同,應當具備不同的價值,而非采用統一、靜态的價值權重進行衡量。“版權價值并非恒定不變,應當根據版權主體生态位的态勢構建動态浮動的價值權重”。

  喻國明指出,微版權将結合語料價值,對版權價值進行細分,平衡了版權所有方和版權使用方之間的關系,賦予版權資源更大的自由度和靈活性。更重要的是,能減輕生成式AI公司的支付成本與侵權風險。

  針對此類問題,北京師範大學新聞傳播學院、計算傳播學研究中心副教授,杭州市濱江區浙工大網絡空間安全創新研究院特聘研究員闵勇認為,《紐約時報》起訴OpenAI的案件一定程度上喚醒了國内AI企業關于大模型訓練數據的版權意識。生成式AI的技術發展是一個不斷自我進化的過程,随着技術的發展,AIGC研發主體與版權方最終應找到一種互惠互利的合作方式。

  與此同時,多位業内人士對記者表示,确立版權保護原則是版權生态持續、有序、動态、平衡發展的前提。加強知識産權保護可以提升企業創新能力和企業研發投入,也對版權生态下的創作者、科研人員等諸多處于不同領域的從業人員具有激勵創新和提升活力的作用。

  事實上,監管與發展,并不是一個二元對立的選擇。在很長一段時間内,我國在知識版權和AI技術的關系問題上,也呈現出一種摸着石頭過河的狀态。闵勇建議,為避免版權方與AIGC研發主體之間的知識産權摩擦,我國政府應進一步關注開源數據集的開發,鼓勵受财政支持的科研單位、文化單位開放訓練數據,加強與社會力量的協同。

  在任何一個領域,監督都是有必要的,在人工智能這個領域也是如此。不過,針對處于起步階段的新興技術産業,闵勇表示,法律監管應當在積極鼓勵發展創新的基礎上,劃定發展紅線,盡可能為生成式AI提供相對開放的發展空間。“版權保護并不是限制産業發展,而是引導和保障相關産業的良性發展”。


來源:中國青年報

記者: 李若一 

見習記者:李悅

魯ICP備15025590号-11

Copyright © 2022 山東文化傳媒有限公司

Baidu
sogou