量子位MEET2026智能未來大會近日在北京拉開帷幕,本次大會以“共生無界 智啟未來”為核心主題,搭建了一個跨行業、高密度的交流平臺。來自科技、產業及學術領域的近三十位領軍人物齊聚一堂,圍繞人工智能+、AI Infra、智能終端、智能駕駛、低空經濟、能源電力等前沿話題展開深度對話,分享前瞻觀點。
高通公司AI產品技術中國區負責人萬衛星在大會上發表了以“混合AI:從云端到邊緣智能”為主題的演講。他指出,AI技術正經歷從生成式AI向智能體AI的演進,生態系統也從單體模型向復合模型轉變,這將成為邁向智能體AI的重要基礎。萬衛星特別提到,未來的AI體驗將朝著混合AI方向發展,高通已通過量化壓縮、并行解碼、NPU及異構計算架構等技術,推動端側AI向更主動、更高效的服務形態升級,構建端云協同體系,為用戶提供更個性化的智能服務。
萬衛星詳細闡述了AI應用的演進路徑。第一階段為“感知AI”,涵蓋自然語言處理、語音降噪、圖片識別等傳統技術,這些技術已實現商業化落地。第二階段是“生成式AI”,依托大規模數據預訓練,在人類監督下完成文生圖、聊天機器人等任務。第三階段為“智能體AI”,其特點是能夠在幾乎無人類干預的情況下自主行動、預測意圖并編排任務。第四階段是“物理AI”,AI將理解真實物理世界并做出反饋,目前尚處于研究初期。
在終端側生成式AI的發展趨勢中,模型尺寸持續擴大。手機已支持近100億參數的大模型部署,PC可支持約200億參數,車載場景則支持200億至600億參數的模型。模型質量也不斷提升,支持思維鏈和推理能力的模型已實現端側部署,上下文處理能力從兩年前的1K-2K增長至今年的8K-16K,甚至在特定場景下可支持128K文本的端側部署。終端側AI正從單一文字模態向文本、圖片、視頻、音頻、語音等多模態演進。
端側運行AI具有顯著優勢,如個性化服務、隱私保護、無需網絡連接且成本低廉。然而,也面臨內存和帶寬限制等挑戰。內存限制制約了模型參數量,進而影響模型能力上限;帶寬限制則影響推理速度和用戶體驗。高集成度終端運行大語言模型對能效控制提出極高要求,功耗過高可能觸發設備溫控機制。
為應對這些挑戰,高通在技術儲備和預研方面取得多項突破。通過量化壓縮技術,將模型精度從8 bit、4 bit提升至2 bit,顯著減少內存占用;采用并行解碼技術,在端側運行較小草稿模型一次性推理多個token,再由原始大模型校驗,提高解碼速度;利用先進的NPU和異構計算系統,推動端側AI從被動式服務向主動式、個性化服務轉變。
以智能體AI的具體用例為例,用戶可通過自然語言與智能體交互發布微博。智能體理解用戶意圖后,打開微博APP,搜索照片并添加濾鏡,最終完成發布。用戶還可監測回復并點贊或回復評論。這一用例在今年9月的驍龍峰會上展示,全程在端側運行。
高通的產品覆蓋智能眼鏡、PC、汽車、智能手表、IoT等豐富品類,支持所有驍龍設備間的智能互聯。算力較小的設備如智能眼鏡、智能手表,可通過Wi-Fi或藍牙與手機、汽車連接,共享本地數據,將大模型推理任務轉移至算力更大的設備,實現分布式個性化推理。
高通公司認為,AI體驗未來將向混合AI方向發展。終端側運行垂類高效模型,提供更安全、個性化的AI服務;云端運行更大尺寸模型,提供更通用、更強大的AI服務。高通將憑借低時延、高速且安全的連接技術,確保混合AI場景下的端云協同與連接。











