data becomes a strategic asset in the AI era

數據資料成為AI時代的戰略資產,內容生產者對此應該有更深刻的體會

  

李世達

在全球人工智能競賽火熱推進的當下,人們逐漸體認到,大模型進入推理階段後,數據並不就此失去價值,反而因為動態知識需求而更顯關鍵。「最後一哩」的語料質量與多樣性,往往決定了一個大模型的優劣。

這或許是臉書母公司Meta(META.US)斥資143億美元,戰略性投資AI數據公司Scale AI的主要考量。

Scale AI是一家數據標註與數據清洗的公司,專為AI模型訓練提供高品質語料。數據標註指為圖片、文本或語音資料加上標籤,例如標示出圖片中的行人或文章的傾向等;數據清洗則是刪除錯誤、重複、無效或不相關資料,提升資料準確性與一致性。Scale AI以海量人力與自動化流程,為OpenAI、Meta、Google等科技巨頭提供高質量、結構清晰的數據資料。

優質數據的價值還有另一個例子。美國媒體《紐約時報》宣布,已與科技巨頭亞馬遜(AMZN.US)簽署新聞內容授權協議,將其經過編輯和事實查證的新聞內容投入大模型訓練。而此前還有美聯社對OpenAI的授權也是如此。

雖然表面上是「新聞內容的授權」,但實際上也體現了「內容即資料、資料即服務」的邏輯,不僅反映了媒體對自身內容價值的再認識,也揭示了AI團隊對高質量語料的迫切需求。

相比之下,中文世界面臨公開可用資源佔比極低、專業標註與文化典籍難以大規模數字化等挑戰,更凸顯了中文語料在本土化AI發展中的關鍵地位。

中文語料相對稀缺

據阿里研究院發布的《大模型訓練數據白皮書》指出,全球可爬取網路文本中,英文佔比高達59.8%,中文僅1.3%,一旦放大至需要大規模預訓練的場景,中文語料顯得尤為稀缺。同時,維基百科作為常用開放語料,英文維基擁有超過700萬篇條目,而中文維基則約為150萬篇,二者相差超過三倍。

在這種明顯不均的環境中,中文大模型若缺乏足量的公開預訓練語料,其基礎語言理解與生成能力就會明顯落後於英文對應系統,使得中文AI在理解表達及文化傳承方面可能「喝洋墨水」過多、出現「水土不服」現象。

當然,中國官方機構早已認識到此一問題,紛紛採取行動。人民網、新華社等官方平台積極構建「價值觀對齊」的語料庫,向AI開發方提供經過審核的新聞、評論與政策解讀等高質量文本,為模型價值觀安全層面的訓練奠定基礎。

中國官方亦透過如「網信研究大模型」等項目,聚焦政策法規與官媒語料建設,強化價值觀對齊。

可以想像,對齊中國價值觀是中國AI大語言模型的「基本功」。在中文世界,雖尚未有類似Scale AI規模如此大的公司,但已有多家企業與機構投入數據產業鏈建設,例如北京愛數智慧、雲測數據、科大訊飛(002230.SZ)與海天瑞聲(688787.SH)等公司提供大規模標註與清洗服務。

市調機構IDC的數據顯示,中國AI訓練數據集市場規模在2023年約2.6 億美元,預計到2032年將增至約23.2億美元,複合年增長率約27.4%。

AI模型的進步,最終取決於它「吃進什麼樣的內容」。當新聞、評論、學術論文與文化資產被結構化使用時,其價值從即時資訊轉化為可商用的數據資產。內容生產者不只是「提供素材」的角色,而是數據服務供應鏈的一環,包括新聞媒體在內的內容生產者,或許都應該認真思考自身的附加價值。

李世達,詠竹坊編輯。他的聯絡方式:shihtalee@thebambooworks.com

欲訂閱咏竹坊每周免費通訊,請點擊這裏

新聞

簡訊:六福集團首季零售止跌回升

珠寶零售商六福集團(國際)有限公司(0590.HK)周四公布,截至6月底止三個月的第一季度,整體零售值及零售收入扭轉跌勢至雙位數增長,分別按年升13%及14%。整體同店銷售亦止跌回升5%。 港澳及海外市場零售值按年升9%,零售收入升8%,同店銷售升3%,全部都止跌回升。其中,香港同店銷售升1%,澳門跌1%,海外市場升20%。至於內地市場零售值、零售收入、同店銷售,分別升14%、31%、19%。 公司稱,雖然季內國際平均金價升約四成,按重量計價的黃金產品同店銷售仍大幅改善至持平。定價首飾產品的同店銷售本季進一步提升19%。截至6月底,集團全球有3162間店舖,上季淨減少125間,主要是內地品牌店減少。公司對內地中長線業務前景審慎樂觀,計劃今年度在海外淨增加約20間店舖。 六福集團周五股價高開0.7%,至中午休市報22港元,升3.04%。 李世達 欲訂閱咏竹坊每周免費通訊,請點擊這裏

簡訊:受惠新遊戲上線 創夢天地扭虧為盈

網游企業創夢天地科技控股有限公司(1119.HK)周四披露,受惠於新產品上線推動,預計2025年上半年業績將同比扭虧為盈。 公司預計今年前六個月將實現淨利潤2,000萬元至5,000萬元,較2024年同期1.09億元的虧損顯著改善。報告期內經營活動現金流達3,000萬元至6,000萬元,上年同期則為3,400萬元。 公告明確指出:「淨利潤扭虧為盈主要得益於集團自研產品和新產品的上線,帶來集團利潤率的提升。」 2024年公司營收同比下滑21%至15.1億元,淨虧損則從2023年的4.53億元同比擴大至5.29億元。 創夢天地股價周五開盤上漲9.6%至0.91港元,隨後持續上漲,早盤上漲20%。週四收盤時,該股年內已下跌68%。 劉智恒 欲訂閱咏竹坊每周免費通訊,請點擊這裏
Klook prepares to list in US

Klook上市棄港選美 擬籌5億美元勢成集資王

據媒體報道,這家聚焦年輕消費群體的中國香港在線旅行社,正計劃短期提交紐約上市申請,擬籌資最多5億美元 重點: Klook正籌備首次公開募股(IPO),有望成為自霸王茶姬融資4.75億美元以來,今年中資企業在美最大規模的IPO 此次上市可能使這家立足中國香港、專注年輕客群的在線旅行社估值突破30億美元   陽歌 誰說中資企業不再謀求赴美上市? 彭博社周四報道,香港在線旅行社Klook Travel(客路旅行)正籌備申請赴美上市,募資規模或達5億美元。若順利成行,該交易將打破高端茶飲連鎖霸王茶姬4月募資約4.75億美元的紀錄,成為今年中國企業在華爾街最大規模IPO。 公司名稱源於「keep looking」的客路,雖未就融資計劃置評,但其健談的聯合創始人曾透露,考慮在香港或紐約上市,且隨時可推進。包括彭博最新報道在內的多方信源顯示,公司擬募資3億至5億美元。 據彭博報道,公司正與財務顧問推進合作,可能很快向美國證券交易委員會以保密方式提交上市申請。在中資企業日益棄美赴港的背景下,Klook此番赴美IPO堪稱逆勢之舉。 Klook完全具備操盤大規模募資的資質,公司三位聯合創始人中兩位擁有投行履歷,其投資方涵蓋多家全球頂級機構。更重要的是,創始人身為千禧一代,深諳Z世代等核心客群的消費心理。 這使得Klook有望成為年輕旅行者的時尚新選擇,其服務體驗超越Booking(BKNG.US)、Expedia(EXPE.US)等傳統巨擘及攜程(TCOM.US; 9961.HK)、同程旅行(0780.HK)等國內頭部平台的固有模式。 Klook此前披露的財務信息有限,僅確認2023年營收突破30億美元,且在疫情三年困局後,借「報復性旅遊」浪潮實現盈利。公司業務覆蓋美國、中國大陸、中國香港及歐洲、東南亞主要國家、以及印度等全球22個不同市場。 儘管尚未公佈區域營收細分數據,但過往報道顯示其主營亞洲旅遊業務。 雖擬首次公開募股,Klook實為2014年創立的行業老兵。作為公司的聯合創始人王志豪曾在摩根士丹利效力,後與熊小康及曾在花旗銀行任職的林照圍共同創立Klook。 高盛、軟銀、紅杉中國等頂級機構共同參與投資。公司迄今完成八輪融資,募資逾10億美元,最近一次是今年2月獲得維恩資本(Vitruvian Partners)1億美元注資。據此前報道,公司2018年疫情前估值已突破10億美元。 合理估值30億美元? 最新融資後雖未披露估值,但參照其IPO募資目標,及主要國際對手市銷率普遍高於1的現實,30億美元估值具合理性。對標業務形態相近、市銷率1.8的Expedia,Klook以2023年30億美元營收計,估值可達50億美元以上。 我們認為,Klook深耕年輕旅行群體的差異化定位,構成獨特投資價值,該群體更注重旅途體驗而非具體目的地。 儘管年輕客群收入較低,但願意為情感滿足型體驗付費,這特質在中國市場尤為突出。作為Klook核心市場之一,本土消費者在角色扮演、限量潮玩等「穀子經濟」領域投入不菲。 Klook深度佈局社媒獲客,針對歐美用戶主攻TikTok、Instagram,中國市場發力抖音和小紅書。核心策略是啓用關鍵意見領袖(KOL),公司此前稱合作逾20,000名達人,後者通過傭金及贊助旅行獲益,其與TikTok的合作更支持用戶直接在平台完成預訂。 2023年,Klook各平台的全球月均訪問量約7,000萬人次中,約70%為千禧一代及Z世代。 規模方面,Klook在提及的全球在線旅行社中已居前列。按2023年營收計,約為深耕國內客群且高度依賴騰訊的同程旅行的一倍,相當於龍頭攜程的半壁江山。但與熱衷談論國際化卻鮮少披露海外業績的攜程不同,Klook展現更強的全球多元化特徵。 相較全球佈局的主要競品Expedia及Booking(兩者2023年營收分別為Klook的逾3倍和6倍),公司規模仍存差距。 本質而言,Klook實為在線旅遊領域充滿新意的潛力股。總部位於香港賦予其開拓中國市場的獨特通道,同時規避了境外消費者對中資背景的顧慮。其年輕化定位與社媒打法構成差異化優勢,伴隨核心客群年齡增長及消費力提升,未來增長可期。 欲訂閱咏竹坊每周免費通訊,請點擊這裏

簡訊:微創機器人中期收入按年大增80%

機器人企業上海微創醫療機器人集團股份有限公司(2252.HK)周四發公布,截至今年6月底止的中期收入,較去年同期的9,924萬元人民幣,上升70至80%。 收入大升原因是核心產品「圖邁腔鏡手術機器人」於期內銷售強勁增長,上半年新簽訂單18台。另外「鴻鵠骨科手術機器人」在核心區域的快速覆蓋與滲透,銷售穩步增長。「R-ONE血管介入手術機器人」獲批上市後,需求亦漸上升。 由於收入快速增長,加上集團全方位降本增效提升經營效率,期內經調整淨虧損按年收窄40%至1.25億元人民幣。 公司周五開市升1.3%報18.6港元,年初至今股價已升82%。 劉智恒 欲訂閱咏竹坊每周免費通訊,請點擊這裏