data becomes a strategic asset in the AI era

數據資料成為AI時代的戰略資產,內容生產者對此應該有更深刻的體會

  

李世達

在全球人工智能競賽火熱推進的當下,人們逐漸體認到,大模型進入推理階段後,數據並不就此失去價值,反而因為動態知識需求而更顯關鍵。「最後一哩」的語料質量與多樣性,往往決定了一個大模型的優劣。

這或許是臉書母公司Meta(META.US)斥資143億美元,戰略性投資AI數據公司Scale AI的主要考量。

Scale AI是一家數據標註與數據清洗的公司,專為AI模型訓練提供高品質語料。數據標註指為圖片、文本或語音資料加上標籤,例如標示出圖片中的行人或文章的傾向等;數據清洗則是刪除錯誤、重複、無效或不相關資料,提升資料準確性與一致性。Scale AI以海量人力與自動化流程,為OpenAI、Meta、Google等科技巨頭提供高質量、結構清晰的數據資料。

優質數據的價值還有另一個例子。美國媒體《紐約時報》宣布,已與科技巨頭亞馬遜(AMZN.US)簽署新聞內容授權協議,將其經過編輯和事實查證的新聞內容投入大模型訓練。而此前還有美聯社對OpenAI的授權也是如此。

雖然表面上是「新聞內容的授權」,但實際上也體現了「內容即資料、資料即服務」的邏輯,不僅反映了媒體對自身內容價值的再認識,也揭示了AI團隊對高質量語料的迫切需求。

相比之下,中文世界面臨公開可用資源佔比極低、專業標註與文化典籍難以大規模數字化等挑戰,更凸顯了中文語料在本土化AI發展中的關鍵地位。

中文語料相對稀缺

據阿里研究院發布的《大模型訓練數據白皮書》指出,全球可爬取網路文本中,英文佔比高達59.8%,中文僅1.3%,一旦放大至需要大規模預訓練的場景,中文語料顯得尤為稀缺。同時,維基百科作為常用開放語料,英文維基擁有超過700萬篇條目,而中文維基則約為150萬篇,二者相差超過三倍。

在這種明顯不均的環境中,中文大模型若缺乏足量的公開預訓練語料,其基礎語言理解與生成能力就會明顯落後於英文對應系統,使得中文AI在理解表達及文化傳承方面可能「喝洋墨水」過多、出現「水土不服」現象。

當然,中國官方機構早已認識到此一問題,紛紛採取行動。人民網、新華社等官方平台積極構建「價值觀對齊」的語料庫,向AI開發方提供經過審核的新聞、評論與政策解讀等高質量文本,為模型價值觀安全層面的訓練奠定基礎。

中國官方亦透過如「網信研究大模型」等項目,聚焦政策法規與官媒語料建設,強化價值觀對齊。

可以想像,對齊中國價值觀是中國AI大語言模型的「基本功」。在中文世界,雖尚未有類似Scale AI規模如此大的公司,但已有多家企業與機構投入數據產業鏈建設,例如北京愛數智慧、雲測數據、科大訊飛(002230.SZ)與海天瑞聲(688787.SH)等公司提供大規模標註與清洗服務。

市調機構IDC的數據顯示,中國AI訓練數據集市場規模在2023年約2.6 億美元,預計到2032年將增至約23.2億美元,複合年增長率約27.4%。

AI模型的進步,最終取決於它「吃進什麼樣的內容」。當新聞、評論、學術論文與文化資產被結構化使用時,其價值從即時資訊轉化為可商用的數據資產。內容生產者不只是「提供素材」的角色,而是數據服務供應鏈的一環,包括新聞媒體在內的內容生產者,或許都應該認真思考自身的附加價值。

李世達,詠竹坊編輯。他的聯絡方式:shihtalee@thebambooworks.com

欲訂閱咏竹坊每周免費通訊,請點擊這裏

新聞

簡訊:寧德時代續領風騒 第三季盈利勁升四成

電池生產商寧德時代新能源科技股份有限公司(3750.HK, 300750.SZ)周一公布第三季度業績,截至9月底止收入按年增長12.9%至1,041.9億元人民幣(下同),盈利按年升41%至185.5億元。 公司首三季度累計收入達2,830.7億元,按年增長9.3%,盈利按年升36%至490億元。 期間公司的總資產達到8,961億元,較去年底增長13.9%;經營活動產生的現金流量淨額,按年增長19.6%至806.6億元,手上貨幣資金達3,242億元,按年升近7%。 寧德時代周二開市報543港元,升2.8%。公司自今年5月上市以來,股價累計上升一倍 劉智恒 欲訂閱咏竹坊每周免費通訊,請點擊這裏
Gold bull market endures, Zhaojin's stellar earnings poised to continue

黃金牛市未完 招金季績佳未來續看俏

受惠美元貶值,金價第三季升近17%,推動招金上季業績增長標青 重點: 受惠金價持續創新高,招金首三季盈利增140% 引入紫金具協同效益,海域金礦將投產利好業績增長   白芯蕊 恒生指數今年一度飆升逾三成,表現雖亮麗,但仍跑輸於同期金價(累計飆升50%),當中金礦股表現突出,其中招金礦業股份有限公司(1818.HK)股價今年更大升200%,公司最近公布季績,首三季純利多賺逾一倍,料有望續跑贏大市。 招金於2004年4月成立,總部位於中國金都山東省招遠,2004至2012年獲招金集團注入資產和對外收購,令業務快速擴張,目前業務包括勘探、開採、選礦及冶煉,當中2008年後黃金佔收入比率維持在85%,現時大股東是山東招金集團,持有34.19%的股份,2022年則引入紫金礦業(2899.HK;601899.SH)入股,成為公司第二大股東,持有18.2%的股權。 金價持續創新高,單是第三季由3,303.2美元升至3,859.03美元,升幅達16.8%,帶挈招金業績造好,當中上季收入達50.79億元,按年升59%,純利更大增106.7%至6.78億元,推動招金首三季純利大升140.4%,達21.17億元。 回顧招金的歷史,自2006年在港交所上市後持續收購,最初重點併購新疆和甘肅金礦資源,2010年起重點開發新疆、甘肅、山東三大基地,2017年開始出海收購厄瓜多爾一間礦業公司60%股權,2021年入股澳洲鐵拓礦業成為重要股東,更於2024年完成收購,變相擁有西非科特迪瓦金礦項目。 中國第三大金礦商 截至2024年底止,招金擁有黃金礦產資源量1,446噸,僅次紫金的3,973噸和山東黃金(1787.HK; 600547.SH)的2,635噸,成為中國第三大金礦商。招金旗下主力礦山包括位於中國的夏甸金礦、蠶莊金礦、大尹格莊金礦等七大礦山,便佔招金黃金資源儲量77.72%。 值得留意是招金金礦開採成本不高,參照2025年中期業績企業綜合克金成本約為每克216.2元,折合每盎司約942.7美元,至於全球第二季黃金平均價為3,280.35美元,反映招金有巨大利潤。 更何況紫金在2022年從復星買入招金兩成股權,成為招金第二大股東,對招金是百利無一害,畢竟紫金是全球領先的綜合性礦業公司,在黃金、銅、鋅等金屬資源開採方面擁有豐富經驗,入股後雙方已展開深度協同合作,為招金帶來巨大協同效益。 夥紫金開發內地第二大金礦 尤其是內地第二大金礦海域金礦,將由招金與紫金共同開發,股權佔比分別70%和30%,據報該礦有望在短期內投產,預計投產後黃金年產量達到15至20噸。中郵證券估計,海域金礦開採成本為每克170元,折算每盎司約741.17美元,按目前金價突破4,000美元計算,將有望成為招金未來盈利增長動力。 再者,金價強勢大有機會未完,尤其是美國經濟開始轉弱,失業率已升穿4%重要心理關口,加上企業引入人工智能後大幅裁員,最終將令失業率惡化。與此同時美國通脹黏性仍高,特別是美國向全球多國實施關稅,最終會承受惡果,奈何當地就業情況轉差,聯儲局選擇減息應對,最終美國大有機會出現1970年代的滯脹情況,按過往滯脹歷史,對金價卻是最有利。 高盛調高金價預測 另一方面,美國債務高企,總負債規模逼近38萬億美元,一方面美國財赤卻未有改善,同時白官選擇以美元貶值應對,全球央行為分散風險,齊齊減持美元及拋售美債等資產,同時增持黃金等貴金屬,形成黃金獲得巨大購買力。投行高盛便估計,新興市場央行會繼續推動外匯儲備多元化,將增加黃金配置,估計央行2025年平均每月買金達80噸,明年仍達70噸,因此上調明年底金價預測,由之前的4,300美元上調至4,900美元。 整體來講,金價牛市有望持續,配合紫金入股招金後有協同效益,加上海域金礦投產在即,因此對招金業績前景樂觀,估計今年核心盈利有望大升182%,2026年將再升25%,參照目前招金預期明年市盈率23.5倍,估值合理,在金價持續攀升沖喜下,拉動金礦股股價向上,因此招金礦業有望成為黃金牛市最大贏家之一。 欲訂閱咏竹坊每周免費通訊,請點擊這裏

簡訊:阿里伙螞蚊斥72億元 購銅鑼灣壹號13層樓面

電商巨頭阿里巴巴集團控股有限公司(BABA.US; 9988.HK)及旗下的螞蟻科技集團股份有限公司宣布,以72億港元收購香港銅鑼灣壹號中心13層樓面,涉及面積30萬方呎。公司在周五的公告中表示,交易創下香港自2021年以來,最大宗商廈成交金額紀錄。 阿里巴巴與螞蟻集團表示,此次從文華東方國際集團購入的甲級商廈,將用作兩家企業的香港總部。據媒體報道,壹號中心共有24層樓面,是次收購屬大廈的高層。 阿里巴巴港股周一上升近5%,該股年內累計漲幅已接近倍翻。 陽歌 欲訂閱咏竹坊每周免費通訊,請點擊這裏

簡訊:滴普科技招股集資最多7.1億港元

中國企業級大模型人工智能應用提供商滴普科技股份有限公司Deepexi Technology Co. Ltd.(1384.HK)周一起在港交所主板招股,計劃發行2,663.2萬股,每股招股價26.66港元,集資最多7.1億港元,預計10月28日掛牌買賣。 公司表示,所得款項將用於未來5年提升研發能力;擴大在中國的銷售網絡及客戶群,從而加強商業化能力;海外業務擴張;以及用於潛在投資、併購機會,並用於營運資金及一般公司用途。 滴普科技主要為企業提供人工智能解決方案,助力企業高效整合企業數據、決策運營及生產製造等,主要向中國消費零售、製造、醫療及交通等領域的客戶銷售解決方案。 2022年至2024年,公司收入從1.00億元增至2.43億元,三年複合增長率達55.5%。2025年上半年收入達1.32億元,同比增長118.4%,同期虧損收窄至3.1億元,去年同期為虧損6.2億元。 李世達 欲訂閱咏竹坊每周免費通訊,請點擊這裏