data becomes a strategic asset in the AI era

數據資料成為AI時代的戰略資產,內容生產者對此應該有更深刻的體會

  

李世達

在全球人工智能競賽火熱推進的當下,人們逐漸體認到,大模型進入推理階段後,數據並不就此失去價值,反而因為動態知識需求而更顯關鍵。「最後一哩」的語料質量與多樣性,往往決定了一個大模型的優劣。

這或許是臉書母公司Meta(META.US)斥資143億美元,戰略性投資AI數據公司Scale AI的主要考量。

Scale AI是一家數據標註與數據清洗的公司,專為AI模型訓練提供高品質語料。數據標註指為圖片、文本或語音資料加上標籤,例如標示出圖片中的行人或文章的傾向等;數據清洗則是刪除錯誤、重複、無效或不相關資料,提升資料準確性與一致性。Scale AI以海量人力與自動化流程,為OpenAI、Meta、Google等科技巨頭提供高質量、結構清晰的數據資料。

優質數據的價值還有另一個例子。美國媒體《紐約時報》宣布,已與科技巨頭亞馬遜(AMZN.US)簽署新聞內容授權協議,將其經過編輯和事實查證的新聞內容投入大模型訓練。而此前還有美聯社對OpenAI的授權也是如此。

雖然表面上是「新聞內容的授權」,但實際上也體現了「內容即資料、資料即服務」的邏輯,不僅反映了媒體對自身內容價值的再認識,也揭示了AI團隊對高質量語料的迫切需求。

相比之下,中文世界面臨公開可用資源佔比極低、專業標註與文化典籍難以大規模數字化等挑戰,更凸顯了中文語料在本土化AI發展中的關鍵地位。

中文語料相對稀缺

據阿里研究院發布的《大模型訓練數據白皮書》指出,全球可爬取網路文本中,英文佔比高達59.8%,中文僅1.3%,一旦放大至需要大規模預訓練的場景,中文語料顯得尤為稀缺。同時,維基百科作為常用開放語料,英文維基擁有超過700萬篇條目,而中文維基則約為150萬篇,二者相差超過三倍。

在這種明顯不均的環境中,中文大模型若缺乏足量的公開預訓練語料,其基礎語言理解與生成能力就會明顯落後於英文對應系統,使得中文AI在理解表達及文化傳承方面可能「喝洋墨水」過多、出現「水土不服」現象。

當然,中國官方機構早已認識到此一問題,紛紛採取行動。人民網、新華社等官方平台積極構建「價值觀對齊」的語料庫,向AI開發方提供經過審核的新聞、評論與政策解讀等高質量文本,為模型價值觀安全層面的訓練奠定基礎。

中國官方亦透過如「網信研究大模型」等項目,聚焦政策法規與官媒語料建設,強化價值觀對齊。

可以想像,對齊中國價值觀是中國AI大語言模型的「基本功」。在中文世界,雖尚未有類似Scale AI規模如此大的公司,但已有多家企業與機構投入數據產業鏈建設,例如北京愛數智慧、雲測數據、科大訊飛(002230.SZ)與海天瑞聲(688787.SH)等公司提供大規模標註與清洗服務。

市調機構IDC的數據顯示,中國AI訓練數據集市場規模在2023年約2.6 億美元,預計到2032年將增至約23.2億美元,複合年增長率約27.4%。

AI模型的進步,最終取決於它「吃進什麼樣的內容」。當新聞、評論、學術論文與文化資產被結構化使用時,其價值從即時資訊轉化為可商用的數據資產。內容生產者不只是「提供素材」的角色,而是數據服務供應鏈的一環,包括新聞媒體在內的內容生產者,或許都應該認真思考自身的附加價值。

李世達,詠竹坊編輯。他的聯絡方式:shihtalee@thebambooworks.com

欲訂閱咏竹坊每周免費通訊,請點擊這裏

新聞

簡訊:賽力斯申港上市獲中證監備案

根據中國證監會官網周四公告,新能源汽車製造商賽力斯集團股份有限公司(601127.SH)已獲中證監批准赴港上市。該上市計劃完成備案登記,為後續推進掃除了關鍵障礙。 賽力斯擬通過本次IPO發行約3.31億股,此舉將與其上海上市形成互補,公司已於4月向港交所提交初步招股說明書。 上市文件顯示,賽力斯旗下「問界」品牌(Aito)新能源汽車2024年實現營收1,450億元,較上年同期的358億元增長三倍;毛利率由7.2%升至23.8%。公司2024年實現59億元盈利,成為全球第四家達成盈利里程碑的新能源汽車製造商。 周五賽力斯股價在上交所上漲5.8%,今年以來累計漲幅約18%。 陽歌 欲訂閱咏竹坊每周免費通訊,請點擊這裏

簡訊:吉宏股份預告首三季盈利翻倍

跨境社交電商企業廈門吉宏科技股份有限公司(2603.HK; 002603.SZ)周四公布,預計2025年首三季錄得淨利潤2.57億元(3,600萬美元)至2.7億元,按年大增約95.1%至105.3%。 公司表示,受惠於跨境社交電商業務持續高速增長,及紙製快消品包裝業務盈利能力顯著提升,整體營收與盈利能力顯著提升。根據公告,扣除非經常性損益後的淨利潤亦達2億元至2.1億元,同比升幅在55%至65%之間。 吉宏股份成立於2003 年,總部位於廈門,2016年在深交所上市。公司本業原是紙制包裝,初期以產品設計和營銷為基礎,在識別消費者需求方面累積相當經驗,隨後開始拓展跨境社交電商業務,採取「信息找人」的推廣方式,實現「貨找人」的跨境社交電商模式。 今年5月,吉宏股份在港交所掛牌,上市至今股價累升63.2%。盈喜發布後,公司股價周五高開,至中午休市報18.34 港元,升2.17%。 李世達 欲訂閱咏竹坊每周免費通訊,請點擊這裏
Jingdong Industrials does industrial e-commerce

京東工業獲中證監備案 距港上市一步之遙

這家中國領先的工業品採購B2B交易平台,上市申請已獲中國證券監管機構備案 重點: 京東工業的港股IPO已獲中國證監會備案,為上市鋪平道路 按40億至70億美元估值區間測算,公司此次募資規模可能超10億美元   陽歌 歷經三年等待,電商巨頭京東集團(JD.US; 9618.HK)旗下最新業務單元終臨近上市。我們作此項研判的依據在於,中國證監會官網最新發布的備案通知書顯示,京東集團旗下B2B平台京東工業股份有限公司(JINGDONG Industrials, Inc.)此前擱置的香港公開募股,已獲境外發行上市備案,此類備案是中資企業赴海外(主要面向美國及中國香港)上市必須跨越的關鍵監管門檻。 中國證監會公告顯示,京東工業計劃發售2.53億股普通股。公司2023年首次申報赴港上市,去年二度提交申請,今年3月又進行新一輪申報,但申請本月底即將失效,意味年底前公司很可能重新提交申請。 與聚焦消費者市場的國內電商企業不同,專注企業級產品服務的京東工業將為投資者提供差異化。相較於面向消費者的B2C模式,企業採購單筆交易規模通常更大。然而,大宗訂單往往伴隨更薄的利潤空間。 京東工業正是典型例證,公司2024年毛利率僅16.2%,顯著低於阿里巴巴(BABA.US; 9988.HK)同期的41%和拼多多(PDD.US)截至六月的全年58%的水平。這種差異也有助解釋,為何阿里巴巴將其2007年上市的B2B業務「阿里巴巴網絡有限公司」最終退市,此前該業務上市五年間股價長期低迷。 儘管如此,憑借龐大業務體量及中國市場規模優勢,京東工業仍具相對吸引力。公司在MRO(指非生產原料性質的工業用品)工業品服務(涵蓋辦公清潔耗材及生產維保工具等)領域穩居行業龍頭地位。據3月呈交的上市文件中第三方數據顯示,其立足的中國工業品供應鏈市場規模,2024年達11.4萬億元人民幣(約合1.6萬億美元)。 京東工業指出,2024年龐大市場的數字化滲透率僅6.2%,但預計2029年將升至8.2%。伴隨數字化進程加速,公司深耕的中國工業供應鏈科技與服務市場規模,有望實現近10%的年均復合增長,從2024年的7,000億元增至2029年的1.1萬億元。 雖未在3月的申報文件中披露具體募資目標,但本次IPO獲得諸多重量級機構加持,美銀、高盛及海通擔任承銷商,中信證券與瑞銀出任財務顧問。據悉,2023年申報時擬募資10億美元,考慮到當前香港IPO市場熱況,若該公司提高募資額度也在意料之中。 重量級機構背書 2017年,京東工業自京東集團拆分,若成功上市將成為繼京東集團、京東健康(6618.HK)、京東物流(2618.HK)及德邦股份(603056.SH)後第五家上市公司。京東曾於2020年推動旗下京東科技申報科創板,去年也為旗下房地產業務提交類似方案,兩項計劃均未能成行。 估值方面,京東工業2023年通過3億美元融資實現67億美元估值,投資方包括紅杉中國及阿布扎比政府主權基金Mubadala。 若此前成功上市,其估值大概率難以維持。然而,當前港股反彈疊加近年最活躍IPO市場窗口期,局面已明顯改觀。參照全球MRO龍頭應用工業技術(AIT.US)與固安捷(GWW.US)當前約25倍市盈率及2.5倍市銷率的交易水平,若京東工業適用相同估值倍數,依其2024年銷售額及調整後利潤測算,公司估值介於40億至70億美元之間。 相較於當前多數企業增長乏力甚至營收萎縮的整體環境,京東工業的財務狀況相對穩健。其核心優勢在於輕資產運營模式,主要採用客戶需求歸集後向供應商下單的機制,顯著降低存貨風險。這與京東集團主站B2C模式形成鮮明對比,後者需先行採購商品儲備庫存,再根據訂單向消費者分批發貨。 公司在申請文件中稱,「該模式下,大量訂單實現了供應端直發需求端。我們以輕資產的運營模式,打造了一個可擴展的業務,使我們能夠以高效的方式快速擴大規模。」 京東工業的持續經營業務收入從2023年的173億元增至2024年的204億元,同比增長18%。雖然增速尚屬穩健,但需指出,該增幅已較上一年度23%的水平顯著放緩。 公司約94%的營收(去年佔比)來自產品銷售,其餘為服務貢獻。但服務對毛利潤的貢獻率明顯更高,去年約佔總量三分之一,反映出其毛利率遠高於產品銷售業務。不利因素是,過去三年服務收入停滯,所有營收增長均依賴產品銷售提升,最終拉低整體毛利率。 儘管如此,公司盈利表現仍具相當吸引力,2024年淨利潤7.62億元,調整後淨利潤達11億元。對投資者而言,京東工業憑借其主導的市場地位,整體上看起來相對有吸引力。這些優勢疊加當前港股IPO市場熱潮,應可轉化為強勁的市場認購需求,但投資者無疑將密切關注其最終定價策略。 欲訂閱咏竹坊每周免費通訊,請點擊這裏

簡訊:長風藥業招股集資6億港元

藥物生產商長風藥業股份有限公司(2652.HK)周五發售4,119.8萬股,一成作公開發售,每股售價14.75港元,集資總額約6.01億港元。招股於10月2日截止,並於10月8日掛牌。 集資所得的40%用於吸入製劑候選產品的持續研發,及為臨床開發提供資金;約20%用於為多個管線計劃及技術的臨床前研發提供資金;30%用於設備採購及生產管理系統的擴張與升級。 長風藥業去年收入升9%至近6.1億元人民幣,錄得2,109萬元盈利,按年下跌33.5%。今年首季度的收入1.36億元,按年跌2.7%;期內錄得1,281.5萬元盈利,按年升逾倍。 劉智恒 欲訂閱咏竹坊每周免費通訊,請點擊這裏