近日,一場由作家發起的集體訴訟迎來關鍵進展,美國法官作出裁定,要求人工智能公司OpenAI披露其刪除兩個盜版書籍數據集的內部溝通記錄,這一決定或使案件走向發生重大改變。
該訴訟的核心爭議在于,OpenAI被指控在訓練其聊天機器人ChatGPT時非法使用了盜版書籍。案件的關鍵點聚焦于2022年ChatGPT發布前,OpenAI刪除的兩個名為“Books1”和“Books2”的重要數據集。
對于刪除數據集的原因,OpenAI最初稱是因這些數據集“未被使用”,但隨后又試圖將所有解釋歸為受“律師-客戶特權”保護的機密內容。這種前后不一致的說法引發了原告方的強烈不滿與質疑。
美國治安法官Ona Wang對OpenAI的這一做法予以嚴厲批評。她裁定,OpenAI不能先給出公開理由,如“未使用”,之后在受到質詢時又聲稱該理由屬于特權信息。法官認為,OpenAI的這種行為“令人難以置信”,并責令其在12月8日前,公開所有與刪除數據集相關的內部通信,包括與內部律師的討論內容,以及提及盜版書庫LibGen的所有信息。OpenAI的內部律師也需在12月19日前接受質詢。
若法院最終判定OpenAI存在“惡意侵權”行為,該公司可能面臨巨額賠償。依據美國版權法,對于惡意侵權的情況,每部被侵權作品的法定賠償金額最高可達15萬美元,按當前匯率約合106.2萬元人民幣。
法官Wang強調,OpenAI一方面聲稱自己“善意”行事,另一方面卻試圖隱瞞決策過程,這兩種做法存在根本性矛盾。陪審團有權了解OpenAI所宣稱的“善意”究竟基于哪些事實,而這些被隱藏的內部信息,正是判斷其是否構成惡意侵權的關鍵依據。
法官Wang還特別指出,OpenAI在辯護過程中,對另一起針對AI公司Anthropic的判決進行了曲解,錯誤地聲稱“為訓練大語言模型而下載盜版書籍是合法的”。











