【大紀元記者周鳳臨綜合報導】4月1日發布的一份新的研究報告,指責OpenAI公司,正越來越多地利用非公開的付費圖書,來訓練其更高級人工智能,而且並未申請相應的許可。相比之前一些對該公司利用版權內容進行訓練的指控,這份長達33頁的研究報告,顯得更加嚴肅。
人工智能模型,本質上可以視為一種可進行複雜預測的引擎,在利用海量數據,包括圖書、電影、電視等內容的訓練之下,這些模型可以養成學習模式,從而能在接收到簡單指令之下,執行相應的多種新穎方式的探索性工作。比如讓它撰寫關於希臘悲劇的論文,或者畫出吉卜立風格的圖片,這些工作都是人工智能,在利用其吸收的海量知識進行模擬,而並非有真正意義上的創新,或者說創造。
普遍來說,人工智能模型,包括OpenAI開發的模型,當來自真實世界、主要是公共互聯網上的海量數據源被用盡之後,面臨著尷尬處境,即有一天,不得不輸入人工智能自己生成的內容,來進行訓練,對於一些領先的模型來說,已經遇到了這些問題。
而利用人工智能自己合成的數據來進行訓練,很可能面臨模型表現變差的危險。
這份報告出自2024年成立的非營利組織「人工智能揭秘項目」,該組織由出版業重量級人物、奧萊利公司首席執行官蒂姆・奧萊利,與經濟學家依蘭・斯特勞斯合夥創辦。報告揭示,OpenAI很可能利用了奧萊利公司出版的專業圖書,來訓練其GPT-4o模型。
而目前OpenAI最著名的產品ChatGPT所使用的默認模型,正是GPT-4o,而奧萊利公司並未與OpenAI簽訂相關協議,報告稱。
該報告稱,OpenAI公司近期發布的更強的模型GPT-4o,展示出很強的與奧萊利付費圖書的關聯……與OpenAI之前的GPT-3.5增強版相比。該研究稱,相比之下,GPT-3.5增強版與奧萊利公共圖書的關聯性更密切。
研究採用了一種2024年在學術界引入的DE-COP算法,這是一種專門設計用來偵測大語言模型訓練所使用的版權內容的算法。該算法也被稱為「會員內容推斷攻擊」,這種測試,是通過一個模型能否辨認出,人類寫作的文本與相應的人工智能生成文本的區別,來反推其先前訓練所基於的內容。如果能夠識別出來,那麼意味著,該模型使用了這些內容來進行訓練。
報告作者,包括奧萊利、斯特勞斯,和人工智能專家斯魯利·羅森布拉特(Sruly Rosenblat)表示,他們分別檢查了GPT-4o和GPT-3.5增強版,以及OpenAI公司開發的其它模型,考察這些模型在訓練結束前後,相較奧萊利出版圖書的內容的相關度。研究人員用13,962段出自34本奧萊利出版書籍的內容,來檢測這些模型是否使用了這些段落進行訓練。
論文得出結論,GPT-4o遠比其它模型更能辨認出這些段落,尤其是與GPT-3.5增強版做對比。作者們稱,這一結論還是在排除了潛在的其它因素下作出的,比如考慮新模型更能識別出哪些是人類寫的內容的情況下。
作者們寫道,GPT-4o更能夠識別出,在訓練截止日之前出版的非公開的奧萊利圖書內容,因此顯示有模型有先驗知識。
但這項研究並非證據確鑿,作者們謹慎地表示,因為他們所採用的試驗方法並非無懈可擊,而且也不能排除在模型訓練過程中,有用戶拷貝粘貼了這些版權書籍的內容摘要,從而使得這些文本進入到ChatGPT系統中。
而且,作者們並未測試OpenAI最新發布的模型GPT-4.5,以及諸如o3-mini和o1之類的「推理」模型。很可能這些模型並沒有使用奧萊利的圖書進行訓練,或者比GPT-4o用得更少。
TechCrunch稱,OpenAI公司在開發其模型的過程中,尤其是在尋求高質量訓練數據方面,隨意使用版權數據,已經持續了一段時間,並非業界祕密,該公司甚至僱用記者,來幫助微調其模型的輸出。
在人工智能界,公司僱用各個方面的專家,包括科學家和物理學家,將他們的專業知識輸入到人工智能系統中,已經稱為一種業界趨勢。
已知的現實狀況是,OpenAI至少對部分其用於訓練的數據付費,該公司與一些新聞出版機構、網絡社交平臺、媒體庫等,簽訂了數據使用許可協議;OpanAI還提供了一種要求豁免機制,允許版權內容擁有者,將這些數據標記為不願意這些人工智能公司用於訓練。◇























