斯坦福大學研究團隊在Cell Press旗下《Patterns》期刊發表最新研究,通過對Newswire、PRWeb和PRNewswire等主流平臺的英語文本進行系統分析,發現人工智能生成內容已深度滲透正式書面交流場景。該研究采用名為"分布式語言模型量化框架"的統計模型,通過語言特征分布分析特定時間段內AI生成文本的占比,但目前該方法僅適用于英語語料。
研究團隊對2023年海量文本數據進行抽樣分析,包括68.7萬份消費者投訴、53.7萬篇企業新聞稿、3.04億條招聘信息以及1.6萬篇聯合國官方文稿。結果顯示,約24%的企業新聞稿、18%的消費者投訴、14%的聯合國新聞稿以及近10%的招聘信息存在顯著AI生成特征。這些文本或直接由大模型生成,或經過深度編輯修改。
數據對比顯示,教育水平較低地區的投訴文本中AI使用率達19.9%,高于教育水平較高地區的17.4%。在招聘領域,中小企業和初創公司表現尤為突出,約10%-15%的招聘公告帶有明顯AI生成痕跡。研究人員指出,這種差異可能與資源獲取能力和寫作效率需求有關。
該統計模型通過分析詞匯選擇、句式結構、語義連貫性等語言特征,建立AI生成文本的識別標準。但研究團隊特別說明,檢測結果僅反映文本中AI參與的程度,不能等同于全文由AI獨立完成。目前的技術手段仍無法精確區分人類修改與AI原創的界限。
隨著生成式AI技術的持續進化,其文本生成能力與人類寫作風格的界限日益模糊。研究人員提醒,未來識別文本中AI參與度的難度將不斷增加,這對內容真實性核查和學術誠信管理提出了新挑戰。當前研究僅覆蓋英語文本,其他語種的AI滲透情況仍有待進一步探索。











