data becomes a strategic asset in the AI era

數據資料成為AI時代的戰略資產,內容生產者對此應該有更深刻的體會

  

李世達

在全球人工智能競賽火熱推進的當下,人們逐漸體認到,大模型進入推理階段後,數據並不就此失去價值,反而因為動態知識需求而更顯關鍵。「最後一哩」的語料質量與多樣性,往往決定了一個大模型的優劣。

這或許是臉書母公司Meta(META.US)斥資143億美元,戰略性投資AI數據公司Scale AI的主要考量。

Scale AI是一家數據標註與數據清洗的公司,專為AI模型訓練提供高品質語料。數據標註指為圖片、文本或語音資料加上標籤,例如標示出圖片中的行人或文章的傾向等;數據清洗則是刪除錯誤、重複、無效或不相關資料,提升資料準確性與一致性。Scale AI以海量人力與自動化流程,為OpenAI、Meta、Google等科技巨頭提供高質量、結構清晰的數據資料。

優質數據的價值還有另一個例子。美國媒體《紐約時報》宣布,已與科技巨頭亞馬遜(AMZN.US)簽署新聞內容授權協議,將其經過編輯和事實查證的新聞內容投入大模型訓練。而此前還有美聯社對OpenAI的授權也是如此。

雖然表面上是「新聞內容的授權」,但實際上也體現了「內容即資料、資料即服務」的邏輯,不僅反映了媒體對自身內容價值的再認識,也揭示了AI團隊對高質量語料的迫切需求。

相比之下,中文世界面臨公開可用資源佔比極低、專業標註與文化典籍難以大規模數字化等挑戰,更凸顯了中文語料在本土化AI發展中的關鍵地位。

中文語料相對稀缺

據阿里研究院發布的《大模型訓練數據白皮書》指出,全球可爬取網路文本中,英文佔比高達59.8%,中文僅1.3%,一旦放大至需要大規模預訓練的場景,中文語料顯得尤為稀缺。同時,維基百科作為常用開放語料,英文維基擁有超過700萬篇條目,而中文維基則約為150萬篇,二者相差超過三倍。

在這種明顯不均的環境中,中文大模型若缺乏足量的公開預訓練語料,其基礎語言理解與生成能力就會明顯落後於英文對應系統,使得中文AI在理解表達及文化傳承方面可能「喝洋墨水」過多、出現「水土不服」現象。

當然,中國官方機構早已認識到此一問題,紛紛採取行動。人民網、新華社等官方平台積極構建「價值觀對齊」的語料庫,向AI開發方提供經過審核的新聞、評論與政策解讀等高質量文本,為模型價值觀安全層面的訓練奠定基礎。

中國官方亦透過如「網信研究大模型」等項目,聚焦政策法規與官媒語料建設,強化價值觀對齊。

可以想像,對齊中國價值觀是中國AI大語言模型的「基本功」。在中文世界,雖尚未有類似Scale AI規模如此大的公司,但已有多家企業與機構投入數據產業鏈建設,例如北京愛數智慧、雲測數據、科大訊飛(002230.SZ)與海天瑞聲(688787.SH)等公司提供大規模標註與清洗服務。

市調機構IDC的數據顯示,中國AI訓練數據集市場規模在2023年約2.6 億美元,預計到2032年將增至約23.2億美元,複合年增長率約27.4%。

AI模型的進步,最終取決於它「吃進什麼樣的內容」。當新聞、評論、學術論文與文化資產被結構化使用時,其價值從即時資訊轉化為可商用的數據資產。內容生產者不只是「提供素材」的角色,而是數據服務供應鏈的一環,包括新聞媒體在內的內容生產者,或許都應該認真思考自身的附加價值。

李世達,詠竹坊編輯。他的聯絡方式:shihtalee@thebambooworks.com

欲訂閱咏竹坊每周免費通訊,請點擊這裏

新聞

簡訊:雙登集團招股 集資最多8.5億港元

儲能電池廠商雙登集團股份有限公司(6960.HK)周一起至周四公開招股,計劃發行5855.7萬股H股,每股定價14.5港元,集資最多約8.5億港元。公司預期將於8月26日掛牌,由中金公司、華泰國際及建銀國際擔任聯席保薦人。 雙登集團是大數據及通信領域的能源存儲解決方案供應商,專注設計、研發及製造儲能電池與系統,客戶涵蓋全球前十大通信運營商及設備商中的五家,以及中國五大通信運營商。根據弗若斯特沙利文數據,2024年雙登在全球通信及數據中心儲能電池供應商中出貨量排名第一,市佔率達11.1%,並在全球新增裝機容量中排名第十二。 財務方面,公司去年收入約45億元(6,300萬美元),按年增長5.6%,惟淨利潤跌8.3%至3.5億元。雙登已引入三水創投作基石投資者,投資額2.2億元。公司計劃將集資淨額40%用於東南亞新建鋰電池產能,35%投入研發中心建設,其餘則用於海外銷售拓展及營運資金。 李世達 欲訂閱咏竹坊每周免費通訊,請點擊這裏

簡訊:唯品會預計第三季度或將重返營收增長軌道

折扣電商唯品會控股有限公司(VIPS.US)上周四發布財報顯示,公司已連續五個季度營收下滑。為穩定投資者信心,公司宣稱經營形勢趨於穩定,近期有望恢復營收增長。 財報顯示,公司第二季收入258億元,較上年同期的269億元下降4%。淨利潤亦從去年同期的19億元降至15億元,同比縮水21%。季度活躍用戶數與總訂單量均出現同比下降,但商品交易總額(GMV)逆勢增長1.7%。 伴隨經營企穩,該公司預計第三季度將重返營收增長通道。其預測第三季度收入將達207億元至217億元區間,相當於實現0%至5%的增長。 最新財報發布後,唯品會上周四股價應聲上漲5.9%,但周五回吐部分漲幅。該股年初至今累計漲幅約28%。 陽歌 欲訂閱咏竹坊每周免費通訊,請點擊這裏
Secret to Tingyi's interim profit: price hikes

康師傅中期盈利贏在兩個字:加價

主打方便麵及飲品的康師傅,受惠於價格調升,中期收入微降但盈利卻有理想增長 重點: 公司中期盈利同比上升逾兩成 期內毛利率提升近兩個百分點   劉智恒 康師傅一年多前兵行險著,先在23年11月將飲品零售價格上調17至25%,又在去年5月調升方便麵價8%。基於當時中國內地經濟疲態畢現,人們消費意欲低迷,對價格出奇地敏感,市場認為康師傅的決定十分冒進,隨時因加得減。 消費者更頻頻吐糟,批評之聲此起彼落:「漲唄,以後不喝了」、「沒想到有一天,統一竟然成了康師傅的平替」,消費者被刺痛之餘,有人就用腳投票,不再買康師傅的麵,不飲康師傅的茶。 在一片痛罵聲下,康師傅控股有限公司(0322.HK)今年中期卻派出一份頗為亮眼的成績表,並向市場證明,加價的決定是正確,公司下了一著好棋。 截至6月底,康師傅的收入接近401億元,同比下跌2.7%。收入雖微跌,盈利卻出奇地升近21%至22.71億元。撇除一次性出售附屬公司收益,核心盈利升12%至21.1億元,要知道康師傅這類傳統行業及已成熟的企業,有雙位數的增長,實在也殊不簡單。 對於盈利上升,康師傅歸因於成本結構的優化及運營效率提升,令整體毛利率增加1.9個百分點至34.5%。而毛利率得以拉升,與近年加價不無關係。雖然調升價格後令產品銷售輕微下跌,但毛利率的增加,能提升整體利潤。 收入跌盈利升 公司兩大核心業務上,就方便麵而言,上半年收入134.65億元,同比下跌2.5%,但因產品升級調價,毛利率同比升0.7個百分點至27.8%,最終讓方便麵上半年的股東應佔溢利上升11.9%至9.51億元。 飲品方面,上半年收入按年亦下跌2.6%,但因2023年底的加價,以及管理效能提升,毛利率上升2.5個百分點至37.7%,推動飲品的股東應佔溢利大升19.7%至13.35億元。 公司財務穩健,截至6月底的銀行存款及現金(包含長期定存)達194.91億元,較去年底增加近35億。扣除有息借貸150.2億元,淨現金達44.74億元。 雖然康師傅在上半年表現理想,但別對公司前景有較大寄望,畢竟這類成熟的企業,在中國內地發展多年,市場佔有率幾已大定,蹭中國經濟增長紅利時代亦已過去,盈利每年能有輕微增長,已屬有所交待。 康師傅亦深明此道,今天要吸引投資者,主要是派高息,此之所以公司近年將全部盈利派予股東,除了是回饋股東支持外,實也反映公司發展成熟,未能找到新的發展,不用保留大量資金,倒不如將現金悉數派發。 短期難再加價 在市佔率已不易進一步拓展下,最能推升公司業績的方法就是提升產品價格。然而康師傅主打的是基層消費者,對價格敏感度十分高,除非迫不得意,公司等閒不容易調升價格。而之前調升飲品及方便麵售價時,消費市場的罵聲不絕於耳,產品銷量因而下調,只不過跌幅並非太大,加價後亦能抵銷到銷量下跌的影響。 事實上集團在近一年多時間,先後將飲品及麵食價格調升,未來兩年甚至三年時間內,並不容易再提價,否則隨時得不償失,被消費者離棄,進而影響銷量,到時加了的價格,也未能彌補銷售下跌帶來的損失。 另外,康師傅是次盈利能增長除提價外,原料價格的下跌也應記一功。然而原料價格的波動,並非公司可掌控。財報顯示,白砂糖、麵粉及聚酯粒的價格均有所下跌,但最主要的原料棕櫚油價則持續上升,今年上半年同比升幅達24%。若然棕櫚油價續向上,勢將加重康師傅成本。 投資者不買賬 確實,市場也未看好康師傅的長線投資價值,公布中期業績後,股價翌日一度下跌6.2%,收市收窄至跌1.75%,報11.2港元。 康師傅的預期市盈率近15倍,死敵統一(0220.HK)的預期市盈率為17倍,旺旺(0151.HK)則是14.5倍。康師傅在行業估值只屬市場水平,吸引力有限。業績後里昂證劵表示扣除公司一次性收益後的盈利,較他們預測低2%,並認為市場競爭格局和飲料復蘇存在不確定性。花旗亦指康師傅持續疲弱的收入,迭加市場份額不斷流失,讓投資者感到憂慮。 欲訂閱咏竹坊每周免費通訊,請點擊這裏
JD Logistics does logistics

新聞概要:京東物流發力擴展,收入與利潤齊增

2025年上半年,京東物流的一體化供應鏈解決方案業務實現強勁增長,持續效率優化也提升了其盈利能力 余特莉 京東物流股份有限公司(2618.HK)周四報告稱,得益於穩定的市場擴展勢頭,2025年上半年,其營收按年增長14.1%至985億元(137億美元)。且其一體化供應鏈(ISC)解決方案業務的客戶群規模與單客戶支出均實現穩健增長。 據周四發布的半年報顯示,京東物流的一體化供應鏈解決方案收入在六個月內達到501億元,佔總收入超過一半,按年增長19.9%。在為母公司京東集團(JD.US;9618.HK)提供服務之外,其外部ISC客戶群擴大至73,713家客戶,增長14.5%,持續業務多元化。來自外部ISC客戶的單客戶平均收入約為239,000元。 來自其他客戶的收入(包括快遞與貨運服務)也按年增長8.7%,達484億元。期間,京東物流有限公司進一步強化了荔枝、櫻桃等生鮮產品的端到端解決方案,並在港、澳市場實現快速增長。第二季度,公司已啟動招募及管理全職騎手參與京東外賣配送服務,旨在與最後一公里快運服務形成更高的協同效應與效率提升。 京東物流在上半年錄得非國際財務報告準則(non-IFRS)利潤33億元,按年增長7.1%,此源於資源利用效率的改善。 CEO胡偉表示:「隨著我國經濟回升向好,市場需求逐漸釋放,京東物流持續提升供應鏈服務能力,成為企業高質量發展的重要動力。」 京東物流在第二季營收達516億元,佔京東集團總收入約15%,按年增長16.6%。非國際財務報告準則利潤為26億元,按年增長5.4%。 公司正積極拓展全球市場。6月,其在沙特推出自營B2C快遞服務JoyExpress,提供最後一公里配送服務,最快可當日或翌日達,並全程由內部配送團隊完成履約,還包含暫存退貨等增值功能。 京東物流還在上半年擴展自營倉庫,覆蓋美國、英國、沙特、韓國及越南等地,使其全球物流服務擴至數百個國家與地區。 作為全球拓展的一環,京東物流在波蘭華沙啟動了第三個倉庫,並於香港開設運營中心,進一步提升一體化物流解決方案能力。 公司強調,科技仍是提升其服務效率的關鍵。其「貨到人」自動化倉儲解決方案——「智狼」已開始在倉庫部署,以實現高量級訂單履約及供應鏈大部無人化操作。 京東物流是競爭白熱化的中國物流行業的頭部企業,以成本效益與快速投遞著稱,脫胎於母公司京東集團,並於2021年在港獨立上市。 咏竹坊专注于在美国和香港上市的中国公司的报道,包括赞助内容。欲了解更多信息,包括对个别文章的疑问,请点击这里联系我们 欲订阅咏竹坊每周免费通讯,请点击这里