data becomes a strategic asset in the AI era

數據資料成為AI時代的戰略資產,內容生產者對此應該有更深刻的體會

  

李世達

在全球人工智能競賽火熱推進的當下,人們逐漸體認到,大模型進入推理階段後,數據並不就此失去價值,反而因為動態知識需求而更顯關鍵。「最後一哩」的語料質量與多樣性,往往決定了一個大模型的優劣。

這或許是臉書母公司Meta(META.US)斥資143億美元,戰略性投資AI數據公司Scale AI的主要考量。

Scale AI是一家數據標註與數據清洗的公司,專為AI模型訓練提供高品質語料。數據標註指為圖片、文本或語音資料加上標籤,例如標示出圖片中的行人或文章的傾向等;數據清洗則是刪除錯誤、重複、無效或不相關資料,提升資料準確性與一致性。Scale AI以海量人力與自動化流程,為OpenAI、Meta、Google等科技巨頭提供高質量、結構清晰的數據資料。

優質數據的價值還有另一個例子。美國媒體《紐約時報》宣布,已與科技巨頭亞馬遜(AMZN.US)簽署新聞內容授權協議,將其經過編輯和事實查證的新聞內容投入大模型訓練。而此前還有美聯社對OpenAI的授權也是如此。

雖然表面上是「新聞內容的授權」,但實際上也體現了「內容即資料、資料即服務」的邏輯,不僅反映了媒體對自身內容價值的再認識,也揭示了AI團隊對高質量語料的迫切需求。

相比之下,中文世界面臨公開可用資源佔比極低、專業標註與文化典籍難以大規模數字化等挑戰,更凸顯了中文語料在本土化AI發展中的關鍵地位。

中文語料相對稀缺

據阿里研究院發布的《大模型訓練數據白皮書》指出,全球可爬取網路文本中,英文佔比高達59.8%,中文僅1.3%,一旦放大至需要大規模預訓練的場景,中文語料顯得尤為稀缺。同時,維基百科作為常用開放語料,英文維基擁有超過700萬篇條目,而中文維基則約為150萬篇,二者相差超過三倍。

在這種明顯不均的環境中,中文大模型若缺乏足量的公開預訓練語料,其基礎語言理解與生成能力就會明顯落後於英文對應系統,使得中文AI在理解表達及文化傳承方面可能「喝洋墨水」過多、出現「水土不服」現象。

當然,中國官方機構早已認識到此一問題,紛紛採取行動。人民網、新華社等官方平台積極構建「價值觀對齊」的語料庫,向AI開發方提供經過審核的新聞、評論與政策解讀等高質量文本,為模型價值觀安全層面的訓練奠定基礎。

中國官方亦透過如「網信研究大模型」等項目,聚焦政策法規與官媒語料建設,強化價值觀對齊。

可以想像,對齊中國價值觀是中國AI大語言模型的「基本功」。在中文世界,雖尚未有類似Scale AI規模如此大的公司,但已有多家企業與機構投入數據產業鏈建設,例如北京愛數智慧、雲測數據、科大訊飛(002230.SZ)與海天瑞聲(688787.SH)等公司提供大規模標註與清洗服務。

市調機構IDC的數據顯示,中國AI訓練數據集市場規模在2023年約2.6 億美元,預計到2032年將增至約23.2億美元,複合年增長率約27.4%。

AI模型的進步,最終取決於它「吃進什麼樣的內容」。當新聞、評論、學術論文與文化資產被結構化使用時,其價值從即時資訊轉化為可商用的數據資產。內容生產者不只是「提供素材」的角色,而是數據服務供應鏈的一環,包括新聞媒體在內的內容生產者,或許都應該認真思考自身的附加價值。

李世達,詠竹坊編輯。他的聯絡方式:shihtalee@thebambooworks.com

欲訂閱咏竹坊每周免費通訊,請點擊這裏

新聞

首程入股兩隻地產投資信託基金

基礎設施投資商首程控股有限公司(0697.HK)周四表示,已投資兩隻房地產投資信託基金(REIT),公司表示,此舉將有助於推動中國經濟高質量發展。 其中一項投資為國泰海通砂之船商業REIT,其底層資產為西安的砂之船(西安)奧特萊斯項目。另一項投資為中信建投首農商業REIT,底層資產為北京市昌平區的龍德廣場。首程控股未披露這兩筆REIT投資的具體規模。 此次投資正值中國鼓勵更多企業將房地產剝離至REITs,從而在開發項目中回收資金,同時為投資者提供一種新的金融產品。 首程控股周四在公告發布後下跌2.3%,該股今年迄今已下跌約19% 陽歌 欲訂閱咏竹坊每周免費通訊,請點擊這裏

味精龍頭阜豐預計上半年錄得虧損

中國味精龍頭阜豐集團有限公司(0546.HK)周三發布盈利警告,預計截至6月30日止六個月將錄得虧損,或稅後利潤大幅減少,遠遜於去年同期錄得的17.9億元盈利。 公司表示,截至今年5月底止五個月,已錄得稅後虧損約5,300萬元(784萬美元),主要由於美元兌人民幣貶值,導致持有的美元資產產生約5.4億元人民幣匯兌損失;同時味精、黃原膠、蘇氨酸及賴氨酸等主要產品售價自去年以來持續疲弱,拖累盈利表現。 根據公司官網所述,阜豐集團為全球最大的穀氨酸和味精製造商之一,其產品暢銷全球逾100個國家與地區。全集團每年銷項物流超過500萬噸,其中出口貿易量約達90萬噸,氨基酸與黃原膠為其出口主力。 阜豐集團股價周四低開,至中午休市報4.52港元,跌16.76%。 李世達 欲訂閱咏竹坊每周免費通訊,請點擊這裏
Miduoduo does e-commerce with TikTok

連年虧損的米多多 搭上TikTok 冀一洗頽風

中國第五大跨境電商服務供應商米多多,正透過加碼社交媒體平台合作及發展自營銷售業務,尋求新的增長動能 重點: 米多多在申請香港IPO前已連續三年錄得虧損,但公司表示,虧損主要源於近年業務轉型所產生的相關成本 這家跨境電商營銷服務供應商表示,去年收入大幅增長,反映其與TikTok深化合作,以及聚焦東南亞市場的策略開始見效   譚英 對於帶著虧損紀錄闖關資本市場的新創企業而言,這樣的故事並不陌生。跨境電商企業米多多集團股份有限公司上周遞交香港上市申請,便是最新一例。 公司2023年、2024年及2025年分別錄得虧損1,640萬美元、16.3萬美元及2,450萬美元;同期收入則分別為7,090萬美元、7,110萬美元及1.38億美元。若按照香港交易所2018年修訂上市規則前的標準,米多多的上市申請很可能因未能滿足IPO前連續兩年盈利的要求而遭拒絕。 若剔除部分非現金項目影響,公司盈利表現則較為理想。經調整後,米多多2023年錄得淨利潤5.9萬美元,2024年虧損8.7萬美元,2025年則轉為盈利230萬美元。 儘管盈利表現起伏不定,米多多仍有不少值得投資者關注之處。首先,公司最新一輪投資者包括主權背景基金中央匯金投資,該機構去年參與增資後,米多多估值達50億港元。 這家公司正試圖將自己塑造成一家炙手可熱的科技新創企業,而非一家成立14年、身處成熟廣告服務產業的老牌業者。其押注的正是近年快速崛起的跨境電商市場,協助中國商家將商品銷售給海外消費者。 公司希望投資者不僅將其視為營銷服務供應商,更將其視為一家經營自有跨境電商平台、聚焦東南亞市場的電商運營商。公司表示,IPO募集資金將用於推動本地化布局,以及在東南亞四個重點市場泰國、印尼、越南及馬來西亞建設電商倉儲設施。近期與短影音平台TikTok的合作,也是公司成長故事的重要組成部分。TikTok同時營運電商平台TikTok Shop。米多多將近年的高速增長部分歸功於與TikTok合作關係持續深化。在2024年收入幾乎持平後,公司2025年收入接近翻倍成長。 轉型之路 米多多從一家專注中國市場的廣告服務商,迅速轉型為跨境電商綜合服務供應商,在某種程度上反映出中國龐大電商產業中一個正在快速崛起的新領域。 2024年中國網路零售銷售額達15.52萬億元(2.3萬億美元),約佔全球網路零售市場的一半。根據申請文件,中國跨境電商市場2024年規模達4,617億美元,預計至2029年期間年均增長率為15.1%。這也為跨境電商服務市場提供廣闊成長空間。該市場規模預計將由2024年的363億美元增至2029年的737億美元,增長超過一倍。 目前跨境電商營銷服務市場前五大業者合計佔有36.5%的市場份額。其中米多多規模最小,2024年排名第五,市場份額僅0.5%。廣東省廣告集團股份有限公司(002400.SZ)以17.2%的市佔率居首;未上市的鈦動科技、東信時代及星谷雲分列其後,合計佔有18.8%的市場份額。 近來,中國跨境電商產業在美國市場面臨壓力。美國去年堵住了一項長期存在的制度漏洞,取消價值低於800美元包裹免關稅入境的待遇,而美國正是中國跨境電商賣家的主要市場之一。類似情況也正在歐洲發生。歐盟計劃自下月起取消價值150歐元(173美元)以下包裹的免稅優惠。 面對上述及其他挑戰,米多多的應對方式堪稱企業靈活調整與把握機遇的典型案例。 公司前身為滙源信息,是一家位於中國福建省的跨境貿易中介服務商,最初與Google合作,協助其拓展中國客戶的廣告業務。2021年,公司聯合創辦人、董事長阮衛星與行政總裁鄧海開始推動業務轉型,由原本提供海外企業進入中國市場的營銷服務,轉向為中國廣告代理商提供出海營銷服務。 自營電商業務 2023年之後,公司除了原有服務廣告代理商的業務外,也開始直接拓展品牌客戶。到了2025年5月,公司進一步與TikTok Shop合作,正式開展自有海外電商運營業務。 自2021年以來,米多多的核心業務一直是海外營銷服務,該業務去年仍佔公司總收入的93.1%。相比之下,公司自營海外電商運營業務在開展首年僅貢獻3.1%的收入。米多多得以突破傳統營銷服務業務、開啟新一輪擴張,關鍵在於其與TikTok自2024年建立的合作關係。如今,這項合作已從單純的廣告代理業務,逐步發展成支撐公司自營電商及電商廣告服務的重要平台。 隨著合作深化,TikTok貢獻的收入佔比由2023年的0.2%大幅提升至2025年的30.3%;其餘大部分收入則仍來自Google。在營銷服務模式下,米多多向Google及TikTok等平台採購廣告資源,再轉售給廣告代理商客戶,並透過平台返點獲取部分收益。然而,自這家美國搜尋巨頭於2023年調整返點政策後,Google提供的返點金額已由2023年的149萬美元降至2025年的83.8萬美元。相比之下,TikTok在雙方合作後的首個完整年度便帶來438萬美元返點收入。 米多多將毛利由2023年的290萬美元增至2025年的1,180萬美元,幾乎完全歸功於與TikTok的合作,儘管公司與Google的合作關係仍持續存在。透過TikTok提供服務所產生的收入,由2024年的970萬美元增至2025年的3,890萬美元;同期活躍客戶數亦由706家增至1,209家。公司的毛利率仍然偏低,反映其作為營銷服務中介商的商業模式特性。不過,隨著TikTok業務規模擴大,以及毛利率較高的自營電商業務逐步成長,公司毛利率已由2023年的4.1%提升至去年的8.6%。 除了廣告服務業務外,公司依託TikTok Shop經營的自營電商業務去年實現420萬美元收入,毛利率更高達72.1%。該業務去年主要向美國、馬來西亞、泰國及越南消費者銷售商品,但目前似乎仍僅與單一品牌合作夥伴合作。不過,公司表示,2026年前四個月已有另外三家品牌合作夥伴加入,顯示這項業務未來具備相當可觀的成長潛力。 現在或許仍言之過早,尚難判斷米多多與TikTok的新合作關係,是否能在更長時間內持續帶來強勁的收入增長及利潤改善。不過,在中國與西方關係日趨緊張,以及Google因AI侵蝕其核心搜尋業務而收緊資源分配的背景下,米多多轉向跨境電商模式,並將重心放在東南亞市場,看來是一項相當明智的策略布局。 欲訂閱咏竹坊每周免費通訊,請點擊這裏

美暫緩制裁 DeepSeek免被納入黑名單

路透報道,因特朗普避免與中國緊張關係升級,美國將暫緩把人工智能與大型語言模型公司DeepSeek列入貿易黑名單。 據報道,除了DeepSeek以外,長鑫存儲及百多家被列為國家安全風險的中國企業,也暫緩納入黑名單中。 美國商務部工業與安全局(BIS)沒有直接作出回應,只表示時刻都會使用包括實體清單在內的政策和執法工具,以打擊不良行為者。 DeepSeek近期剛完成首輪融資,投資者除創辦人梁文鋒外,騰訊、寧德時代分別投資100億及50億元人民幣,京東、網易及IDG亦分別投資30億元,目前DeepSeek估值已超過500億美元。 劉智恒 欲訂閱咏竹坊每周免費通訊,請點擊這裏