這位學者特別批評了現有Tokenizer系統的缺陷。他舉例說明,不同編碼方式可能導致視覺上相同的字符在模型內部被表示為完全不同的標記,就連表情符號也會被簡化為抽象標記而非視覺實體。這種處理方式不僅割裂了視覺信息,還繼承了大量歷史編碼的冗余設計。
科技企業家Elon Musk的加入將討論推向更高維度。他斷言未來AI模型的輸入輸出將有超過99%采用光子形式,并從宇宙學角度給出解釋:可觀測宇宙中光子密度達每立方厘米410個,僅宇宙微波背景輻射貢獻的光子數量就高達1.5×10??個。這種數量級的絕對優勢,使其成為最具擴展潛力的信息載體。
Musk進一步指出,恒星輻射等其他光源貢獻的光子數量相比CMB完全可以忽略不計。這種物理層面的數量級差異,構成了他認為光子將主導AI未來發展的核心依據。這場跨越計算機視覺、自然語言處理和宇宙學的跨界討論,正在重塑人們對AI信息處理范式的認知邊界。











