data becomes a strategic asset in the AI era

數據資料成為AI時代的戰略資產,內容生產者對此應該有更深刻的體會

  

李世達

在全球人工智能競賽火熱推進的當下,人們逐漸體認到,大模型進入推理階段後,數據並不就此失去價值,反而因為動態知識需求而更顯關鍵。「最後一哩」的語料質量與多樣性,往往決定了一個大模型的優劣。

這或許是臉書母公司Meta(META.US)斥資143億美元,戰略性投資AI數據公司Scale AI的主要考量。

Scale AI是一家數據標註與數據清洗的公司,專為AI模型訓練提供高品質語料。數據標註指為圖片、文本或語音資料加上標籤,例如標示出圖片中的行人或文章的傾向等;數據清洗則是刪除錯誤、重複、無效或不相關資料,提升資料準確性與一致性。Scale AI以海量人力與自動化流程,為OpenAI、Meta、Google等科技巨頭提供高質量、結構清晰的數據資料。

優質數據的價值還有另一個例子。美國媒體《紐約時報》宣布,已與科技巨頭亞馬遜(AMZN.US)簽署新聞內容授權協議,將其經過編輯和事實查證的新聞內容投入大模型訓練。而此前還有美聯社對OpenAI的授權也是如此。

雖然表面上是「新聞內容的授權」,但實際上也體現了「內容即資料、資料即服務」的邏輯,不僅反映了媒體對自身內容價值的再認識,也揭示了AI團隊對高質量語料的迫切需求。

相比之下,中文世界面臨公開可用資源佔比極低、專業標註與文化典籍難以大規模數字化等挑戰,更凸顯了中文語料在本土化AI發展中的關鍵地位。

中文語料相對稀缺

據阿里研究院發布的《大模型訓練數據白皮書》指出,全球可爬取網路文本中,英文佔比高達59.8%,中文僅1.3%,一旦放大至需要大規模預訓練的場景,中文語料顯得尤為稀缺。同時,維基百科作為常用開放語料,英文維基擁有超過700萬篇條目,而中文維基則約為150萬篇,二者相差超過三倍。

在這種明顯不均的環境中,中文大模型若缺乏足量的公開預訓練語料,其基礎語言理解與生成能力就會明顯落後於英文對應系統,使得中文AI在理解表達及文化傳承方面可能「喝洋墨水」過多、出現「水土不服」現象。

當然,中國官方機構早已認識到此一問題,紛紛採取行動。人民網、新華社等官方平台積極構建「價值觀對齊」的語料庫,向AI開發方提供經過審核的新聞、評論與政策解讀等高質量文本,為模型價值觀安全層面的訓練奠定基礎。

中國官方亦透過如「網信研究大模型」等項目,聚焦政策法規與官媒語料建設,強化價值觀對齊。

可以想像,對齊中國價值觀是中國AI大語言模型的「基本功」。在中文世界,雖尚未有類似Scale AI規模如此大的公司,但已有多家企業與機構投入數據產業鏈建設,例如北京愛數智慧、雲測數據、科大訊飛(002230.SZ)與海天瑞聲(688787.SH)等公司提供大規模標註與清洗服務。

市調機構IDC的數據顯示,中國AI訓練數據集市場規模在2023年約2.6 億美元,預計到2032年將增至約23.2億美元,複合年增長率約27.4%。

AI模型的進步,最終取決於它「吃進什麼樣的內容」。當新聞、評論、學術論文與文化資產被結構化使用時,其價值從即時資訊轉化為可商用的數據資產。內容生產者不只是「提供素材」的角色,而是數據服務供應鏈的一環,包括新聞媒體在內的內容生產者,或許都應該認真思考自身的附加價值。

李世達,詠竹坊編輯。他的聯絡方式:shihtalee@thebambooworks.com

欲訂閱咏竹坊每周免費通訊,請點擊這裏

新聞

JD Logistics does logistics

新聞概要:京東物流發力擴展,收入與利潤齊增

2025年上半年,京東物流的一體化供應鏈解決方案業務實現強勁增長,持續效率優化也提升了其盈利能力 余特莉 京東物流股份有限公司(2618.HK)周四報告稱,得益於穩定的市場擴展勢頭,2025年上半年,其營收按年增長14.1%至985億元(137億美元)。且其一體化供應鏈(ISC)解決方案業務的客戶群規模與單客戶支出均實現穩健增長。 據周四發布的半年報顯示,京東物流的一體化供應鏈解決方案收入在六個月內達到501億元,佔總收入超過一半,按年增長19.9%。在為母公司京東集團(JD.US;9618.HK)提供服務之外,其外部ISC客戶群擴大至73,713家客戶,增長14.5%,持續業務多元化。來自外部ISC客戶的單客戶平均收入約為239,000元。 來自其他客戶的收入(包括快遞與貨運服務)也按年增長8.7%,達484億元。期間,京東物流有限公司進一步強化了荔枝、櫻桃等生鮮產品的端到端解決方案,並在港、澳市場實現快速增長。第二季度,公司已啟動招募及管理全職騎手參與京東外賣配送服務,旨在與最後一公里快運服務形成更高的協同效應與效率提升。 京東物流在上半年錄得非國際財務報告準則(non-IFRS)利潤33億元,按年增長7.1%,此源於資源利用效率的改善。 CEO胡偉表示:「隨著我國經濟回升向好,市場需求逐漸釋放,京東物流持續提升供應鏈服務能力,成為企業高質量發展的重要動力。」 京東物流在第二季營收達516億元,佔京東集團總收入約15%,按年增長16.6%。非國際財務報告準則利潤為26億元,按年增長5.4%。 公司正積極拓展全球市場。6月,其在沙特推出自營B2C快遞服務JoyExpress,提供最後一公里配送服務,最快可當日或翌日達,並全程由內部配送團隊完成履約,還包含暫存退貨等增值功能。 京東物流還在上半年擴展自營倉庫,覆蓋美國、英國、沙特、韓國及越南等地,使其全球物流服務擴至數百個國家與地區。 作為全球拓展的一環,京東物流在波蘭華沙啟動了第三個倉庫,並於香港開設運營中心,進一步提升一體化物流解決方案能力。 公司強調,科技仍是提升其服務效率的關鍵。其「貨到人」自動化倉儲解決方案——「智狼」已開始在倉庫部署,以實現高量級訂單履約及供應鏈大部無人化操作。 京東物流是競爭白熱化的中國物流行業的頭部企業,以成本效益與快速投遞著稱,脫胎於母公司京東集團,並於2021年在港獨立上市。 咏竹坊专注于在美国和香港上市的中国公司的报道,包括赞助内容。欲了解更多信息,包括对个别文章的疑问,请点击这里联系我们 欲订阅咏竹坊每周免费通讯,请点击这里

簡訊:雲工場料上半年多賺最多三成

IDC解決方案服務商雲工場科技股份有限公司(2512.HK)周五公布,預計6月止六個月淨利介乎1,400萬元至1,600萬元,較去年同期的約1,230萬元增長約14%至30%。 公司表示,溢利增長主要受惠於上市開支減少,以及持續推進的營運成本控制措施。 雲工場主要提供網絡數據中心(IDC)解決方案服務、邊緣運算服務以及資訊通信技術(ICT)相關服務等。8月12日,公司宣布與香農芯創(300475.SZ)成立合資公司,開拓智能算力服務市場。 公司股價周五低開,至中午休市報4.22港元,升0.5%。 李世達 欲訂閱咏竹坊每周免費通訊,請點擊這裏

簡訊:現代牙科發盈喜 料中期盈利增逾三成

現代牙科集團有限公司(3600.HK)周四發盈喜,料今年上半年的收入將介乎17.75億元至18.5億元,同比上升4.3%至8.7%;純利介乎2.79億元至2.95億元,同比上升30.1%至37.6%。 公司表示,增長主要因增加使用數碼解決方案,令集團營運效率持續提升,以及受惠於歐元及澳元兌人民幣與港元的升值。同時,因今年初完成收購泰國最大牙科實驗室Hexa Ceram,因而帶動收入與盈利增長。 現代牙科開市升近10%報5.08元,公司年初至今股價升逾兩成。 劉智恒 欲訂閱咏竹坊每周免費通訊,請點擊這裏

簡訊:網易二季度盈收雙升

網易股份有限公司(NTES.US)周四宣布,2025年第二季度營收同比增長9.4%至279億元,上年同期為255億元。業績增長得益於核心網絡遊戲業務及教育板塊有道的營收增長,抵消在線音樂業務的業績下滑。 公司遊戲及相關增值服務營收同比上升13.7%至228億元,有道營收增長7.2%達14億元。但在線音樂業務營收同比下降3.5%至20億元。該季度公司利潤從上年同期的68億元增至86億元,增幅達26%。 財報發布後,網易股價周四下跌3.9%。該股年初至今累計漲幅達45%。 陽歌 欲訂閱咏竹坊每周免費通訊,請點擊這裏