data becomes a strategic asset in the AI era

數據資料成為AI時代的戰略資產,內容生產者對此應該有更深刻的體會

  

李世達

在全球人工智能競賽火熱推進的當下,人們逐漸體認到,大模型進入推理階段後,數據並不就此失去價值,反而因為動態知識需求而更顯關鍵。「最後一哩」的語料質量與多樣性,往往決定了一個大模型的優劣。

這或許是臉書母公司Meta(META.US)斥資143億美元,戰略性投資AI數據公司Scale AI的主要考量。

Scale AI是一家數據標註與數據清洗的公司,專為AI模型訓練提供高品質語料。數據標註指為圖片、文本或語音資料加上標籤,例如標示出圖片中的行人或文章的傾向等;數據清洗則是刪除錯誤、重複、無效或不相關資料,提升資料準確性與一致性。Scale AI以海量人力與自動化流程,為OpenAI、Meta、Google等科技巨頭提供高質量、結構清晰的數據資料。

優質數據的價值還有另一個例子。美國媒體《紐約時報》宣布,已與科技巨頭亞馬遜(AMZN.US)簽署新聞內容授權協議,將其經過編輯和事實查證的新聞內容投入大模型訓練。而此前還有美聯社對OpenAI的授權也是如此。

雖然表面上是「新聞內容的授權」,但實際上也體現了「內容即資料、資料即服務」的邏輯,不僅反映了媒體對自身內容價值的再認識,也揭示了AI團隊對高質量語料的迫切需求。

相比之下,中文世界面臨公開可用資源佔比極低、專業標註與文化典籍難以大規模數字化等挑戰,更凸顯了中文語料在本土化AI發展中的關鍵地位。

中文語料相對稀缺

據阿里研究院發布的《大模型訓練數據白皮書》指出,全球可爬取網路文本中,英文佔比高達59.8%,中文僅1.3%,一旦放大至需要大規模預訓練的場景,中文語料顯得尤為稀缺。同時,維基百科作為常用開放語料,英文維基擁有超過700萬篇條目,而中文維基則約為150萬篇,二者相差超過三倍。

在這種明顯不均的環境中,中文大模型若缺乏足量的公開預訓練語料,其基礎語言理解與生成能力就會明顯落後於英文對應系統,使得中文AI在理解表達及文化傳承方面可能「喝洋墨水」過多、出現「水土不服」現象。

當然,中國官方機構早已認識到此一問題,紛紛採取行動。人民網、新華社等官方平台積極構建「價值觀對齊」的語料庫,向AI開發方提供經過審核的新聞、評論與政策解讀等高質量文本,為模型價值觀安全層面的訓練奠定基礎。

中國官方亦透過如「網信研究大模型」等項目,聚焦政策法規與官媒語料建設,強化價值觀對齊。

可以想像,對齊中國價值觀是中國AI大語言模型的「基本功」。在中文世界,雖尚未有類似Scale AI規模如此大的公司,但已有多家企業與機構投入數據產業鏈建設,例如北京愛數智慧、雲測數據、科大訊飛(002230.SZ)與海天瑞聲(688787.SH)等公司提供大規模標註與清洗服務。

市調機構IDC的數據顯示,中國AI訓練數據集市場規模在2023年約2.6 億美元,預計到2032年將增至約23.2億美元,複合年增長率約27.4%。

AI模型的進步,最終取決於它「吃進什麼樣的內容」。當新聞、評論、學術論文與文化資產被結構化使用時,其價值從即時資訊轉化為可商用的數據資產。內容生產者不只是「提供素材」的角色,而是數據服務供應鏈的一環,包括新聞媒體在內的內容生產者,或許都應該認真思考自身的附加價值。

李世達,詠竹坊編輯。他的聯絡方式:shihtalee@thebambooworks.com

欲訂閱咏竹坊每周免費通訊,請點擊這裏

新聞

Tuya operates a PaaS

塗鴉智能加速AI戰略  裝載AI功能品類出貨量佔總出貨量超93%

該全球AI 雲平台服務提供商正採取廣泛措施,將AI技術融入開發者工具及其賦能的硬件設備和應用程序 重點: 塗鴉智能表示,截至六月底,在其開發者平台上部署的產品中約93%已配備AI功能 公司制定了雙管齊下的戰略:運用AI賦能開發者,並優化接入其平台的AI產品   陽歌 隨著全世界大踏步進入AI時代,全球AI 雲平台服務提供商塗鴉智能(TUYA.US; 2391.HK)也融入其中,確認AI將在未來尖端聯網設備中扮演核心角色。公司在最新財報中著重強調其對新興的人工智能物聯網(AIoT)的深耕佈局,凸顯其如何運用AI技術賦能開發者生態。 塗鴉智能在闡述財務穩健態勢持續向好的同時,發佈了AI戰略宣言。財報顯示,公司上半年營收同比增長14.7%至1.55億美元,上年同期為1.35億美元。 佔總收入約三分之二的核心PaaS(平台即服務)業務營收同比增長12%,從上年同期的約1億美元增至1.12億美元。截至六月的十二個月內,貢獻 PaaS營收近90%的優質客戶數量增至285家,較此前十二個月週期的280家有所增加。 今年上半年經營利潤率幾近盈虧平衡,同比改善顯著,表明其即將實現GAAP(通用會計准則)營業利潤。按non-GAAP(非通用會計准則)口徑,剔除股權激勵等支出後,該公司已實現盈利且利潤率相對穩健。 公司上半年實現2,360萬美元淨利,逆轉了上年同期40萬美元虧損態勢。鑒於去年首度盈利,2025年全年利潤有望創歷史新高。公司同時警示美國關稅政策給部分客戶帶來不確定性,但預計隨著形勢趨穩,四季度相關壓力將緩解。 塗鴉智能核心業務圍繞其PaaS平台展開,該平台承載各類應用程序來連接家電、玩具、家居安防系統乃至餵鳥器等實體設備。此類設備通過實時網絡連接以及越來越多的AI支持,實現多樣化功能:比如讓玩具與兒童實時互動;讓家居安防系統識別住宅內外的活動並在發現可疑情況時發出告警。隨著更多接入平台的應用程序和設備利用AI實現高階功能,公司正日益聚焦AIoT領域。 AI滲透率持續提升 Global Market Insights報告顯示,全球AI硬件市場規模2034年預計將達約2,963億美元,2025至2034年復合年增長率達18%。隨著硬件領域AI融合度的持續提升驅動強勁增長,該趨勢有望進一步提速。 塗鴉智能同期披露,截至六月底,平台上裝載AI能力的品類出貨量佔總出貨量約93%。此外,其開發者平台提供的AI智能體服務,日均支持全球1.5億次AI交互,覆蓋翻譯、醫療健康、能源管理、寵物護理、玩具及AI機器人等領域。 塗鴉智能聯合創始人、COO兼CFO楊懿表示,公司在AI領域有兩大重心:第一是降低海量開發者使用塗鴉平台的門檻,正通過AI Agent開發平台等推進該目標;同樣重要是,塗鴉也助力開發者將更多AI功能融入硬件與應用,以提升性能並加速商業化。例如開放集成ChatGPT、DeepSeek、通義千問和Gemini等主流模型,並將文本生成、圖像生成等功能一站式賦能給開發者。 「塗鴉始終站在AI硬件和應用落地的最前沿,我們正在全力推進AIoT生態建設」, 楊懿在財報電話會議中強調,「目標是不斷降低AI硬件產品的開發門檻,並推動其在更大範圍內的AI創新和普及。」 強化AI生態佈局 截至六月,塗鴉註冊開發者覆蓋200個國家和地區,總數超151萬,較2024年末的132萬增長約15%。 為拓展開發者生態,塗鴉通過AI開發者平台降低使用門檻。該計劃包括開源框架TuyaOpen,支持主流開源軟硬件生態,幫助開發者將項目移植部署至芯片或開發板。 除內部舉措外,塗鴉還聯結外部開發者社群,舉辦線上線下「黑客松」加速AI技術滲透。2025年上半年此類活動催生數百個具商業潛力的AI硬件原型。其中,Otto機器人項目表現亮眼,該項目運用智能體開展營銷推廣並採用了塗鴉T5開發板。公司還與DFRobot社區合作,將AI硬件開發引入高校及嵌入式系統課程,為學生提供AI應用實踐機會。 公司正加強AI聯合開發力度,積極尋求高潛力AI硬件投資項目,推動前景良好的方案市場化。 「管理層重申將持續推進AI驅動的產品與生態擴張」,股票分析社區SeekingAlpha在研報中概括塗鴉最新財報基調,「當前戰略重心仍是深化客戶關係、加速AI硬件商業化、保持強勁經營槓桿,使塗鴉既能抵御短期波動,又可深耕智能設備領域長期增長。」 咏竹坊專注於在美國和香港上市的中國公司的報道,包括贊助內容。欲瞭解更多信息,包括對個別文章的疑問,請點擊這裏聯繫我們 欲訂閱咏竹坊每周免費通訊,請點擊這裏

簡訊:多想雲折讓22%1供6 籌2.74億港元發展AI

營銷解決方案服務提供商多想雲科技控股(6696.HK)周四公布,擬以每持1股供6股方式集資最多約2.74億港元(3,500萬美元),每股認購價47.53港元,較最後交易日收市價折讓約22%。 發行最多5.76億股股份,佔擴大後股本約85.7%。公司表示,供股將按非包銷基準進行,僅供合資格股東認購。控股股東合共持股約16.9%,已承諾全數接納約9,754萬股供股股份的配額。 公司擬將所得款項約92.3%用於開發AI模型,包括用於獲取AI專用計算硬件,構建一個高效且具擴展能力的內部計算能力平台,而約7.7%用於購買媒體資源特別是快手、視頻號和小紅書的在線流量,以便客戶在這些網絡媒體平台上投放廣告。 此外,公司近期與抖音、快手等平台達成一級代理合作,需繳付大額預付款,導致現金需求增加。董事會表示,供股所得將有助應對與大型媒體平台合作所需的高額現金流壓力,同時補充營運資金。 多想雲股價周五早盤低開,其後一度漲逾9%,至中午休市報0.64港元,升4.92%。 李世達 欲訂閱咏竹坊每周免費通訊,請點擊這裏
Lanvin is a fashion company

Lanvin光環漸退拖累 復朗中期虧損續擴大

受累於核心品牌Lanvin 銷售同比大跌42%,復星國際旗下的復朗集團披露,今年上半年營收下滑22% 重點: 復朗集團今年上半年營收下滑22%,毛利率收縮四個百分點,虧損進一步擴大 在實施關店策略並迎來新總裁後,復星國際預計下半年奢侈品業務將企穩回升   陽歌 復星國際(0656.HK)旗下奢侈品業務復朗集團(LANV.US),是否需要考慮更名? 復朗集團(Lanvin Group)以法國標誌性奢侈品牌Lanvin命名,後者不僅是其最具認知度的資產,更曾長期穩居業績支柱地位,但這一局面在今年被打破。一周前發布的最新財報顯示,在整體遇冷的全球奢侈品市場中,Lanvin品牌光環正加速消退。該品牌上半年銷售額同比大跌42%至2,790萬歐元(約合3,250萬美元),營收貢獻排名從榜首跌落至第三位。 本季度業績「亮點」是美國品牌St. John Knits母公司St. John,營收僅微降0.8%至3,970萬歐元,躍居復朗集團第一大營收來源。Wolford部門上半年營收下滑23%至3,300萬歐元,同樣超越Lanvin躋身次席。 儘管我們認為復朗集團尚未會因品牌貢獻度變遷而更名,但其轉型進程顯然遠未完成。該業務前身為復星時尚集團,復星國際2010年代後期通過系列收購整合而成。2021年10月,復星國際將之更名復朗集團後, 2022年末通過特殊目的收購公司(SPAC)實現在美上市。 上市後,復朗集團經營持續承壓,高管層與創意團隊頻現人事動蕩。今年初,原St. John品牌首席執行官Andy Lew擢升集團執行總裁。此前,復朗集團開始推展節流措施,除關店及削減行政支出外,市場推測進一步將會裁員。今年上半年,降本行動仍在持續,據首席財務官 David Chan在財報電話會議上披露,集團共「精簡」29家門店。 當前,只有一位分析師覆蓋復朗集團的股票,且僅給出「持有」評級,這絕非積極信號。更令人憂慮的是,據電話會議記錄,因無分析師參加,本次財報會異常簡短,全程僅由Lew和Chan宣讀既定文稿。 客觀而言,行業系統性困境難辭其咎。現實是全球奢侈品市場自去年起遭遇疫情後首度萎縮,今年頹勢更顯加速。頭部企業路威酩軒(LVMH, MC.PA)上半年營收下滑4%,古馳(Gucci)母公司開雲集團(Kering, KER.PA)跌幅更達16%。 營收領跌者 復朗集團以22%的同比跌幅領跌同業,上半年營收報1.33億歐元。公司將業績不振歸咎於「全球奢侈品行業普遍疲軟」及自身「戰略調整」。Lanvin銷售大跌42%構成最大拖累,其他品牌同樣全線下跌:前述St. John微降0.8%,Wolford下滑23%,Sergio Rossi大跌25%,Caruso亦回落11%。 經營困局中,復朗集團今年上半年毛利率從58%收窄至54%,同比收縮4個百分點;經調整EBITDA虧損由4,200萬歐元擴大至5,200萬歐元。 按區域劃分,歐洲及大中華區表現尤為疲弱。北美市場相對堅挺,這解釋了以美國為主戰場的St. John為何表現優於其他品牌。 復星曾冀望借力中國渠道優勢,將旗下奢侈品業務打造成全球巨頭,彼時中國經濟高速增長,催生全球最蓬勃的奢侈品市場。2021年,貝恩-意大利奢侈品行業協會(Bain-Altagamma)曾預測,2025年中國將佔據全球個人奢侈品市場25%至27%的份額。而其今年最新分析顯示,中國佔比僅12%,不足原來預期的一半。…

簡訊:融創上月銷售54億 按年下跌27%

房地產開發商融創中國控股有限公司(1918.HK)周四公布八月的銷售數據,上月實現合同銷售金額53.9億元人民幣,較去年同期下跌27%。 八月的合同銷售面積約13萬平米,每平方米銷售均價41,460元,較去年同期下跌7.8%及20%。 今年首八個月,融創中國累計銷售金額為304.7億元,同比下跌13%,每平方米均價33,050,同比上升57%。 融創中國周五開市報1.55港元,升0.65%,股份年初至今已下跌逾三成。 劉智恒 欲訂閱咏竹坊每周免費通訊,請點擊這裏