麻省理工學院與Empirical Health的研究團隊近日宣布,他們利用Apple Watch收集的300萬“人-天”健康數據,開發出一種新型基礎模型,在預測多種疾病方面展現出顯著優勢。這項研究通過創新的數據處理方式,成功解決了可穿戴設備數據不規則、不完整的難題,為健康監測領域開辟了新路徑。
研究的核心突破在于將聯合嵌入預測架構(JEPA)應用于醫療健康領域。這一架構由meta前首席AI科學家Yann LeCun提出,其獨特之處在于讓模型學習推斷缺失數據的語義表征,而非簡單重建原始數值。例如,當處理被遮蔽的圖像區域時,模型會通過可見部分推斷不可見區域的特征,而非還原具體像素。這種思路為處理可穿戴設備數據提供了新思路——設備記錄的心率、睡眠等指標常存在時間上的不連續性,傳統模型難以有效利用這類數據。
研究團隊構建的縱向數據集包含16,522名參與者的長期記錄,總計約300萬“人-天”數據。每位參與者每日記錄63項指標,涵蓋心血管健康、呼吸功能、睡眠質量、身體活動及基礎統計五大領域。值得注意的是,僅15%的參與者有完整的醫療標注史,這意味著85%的數據在傳統監督學習框架下會被視為無效。研究團隊通過自監督預訓練策略,先讓模型在整個數據集上學習數據特征,再在有標簽的子集上進行微調,成功克服了這一挑戰。
具體實現中,研究人員將每條觀測數據轉化為“三元組”(日期、數值、指標類型),每個觀測值對應一個“token”。這些token經過掩碼處理后輸入編碼器,模型需預測被掩碼片段的嵌入表示。這種設計使模型能夠捕捉數據中的潛在模式,即使某些指標僅在極少數時間點被記錄,或不同指標的記錄頻率差異巨大,模型仍能有效學習。
在疾病預測性能方面,新模型(JETS)與多個基線模型對比中表現突出。測試結果顯示,其對高血壓的預測AUROC達86.8%,房撲為70.5%,慢性疲勞綜合征為81%,病態竇房結綜合征同樣達到86.8%。AUROC和AUPRC指標衡量的是模型區分病例的能力,而非簡單準確率,這表明模型能更精準地識別潛在患者,為早期干預提供依據。
這項研究的意義不僅在于模型性能的提升,更在于它證明了日常可穿戴設備數據的巨大潛力。盡管Apple Watch等設備并非全天候佩戴,且不同用戶的佩戴習慣差異顯著,但通過創新的模型架構與訓練策略,仍能從海量數據中提取有價值的信息。這種能力為疾病早期預警和個性化健康管理提供了新工具,未來可能改變人們監測健康的方式。










