data becomes a strategic asset in the AI era

數據資料成為AI時代的戰略資產,內容生產者對此應該有更深刻的體會

  

李世達

在全球人工智能競賽火熱推進的當下,人們逐漸體認到,大模型進入推理階段後,數據並不就此失去價值,反而因為動態知識需求而更顯關鍵。「最後一哩」的語料質量與多樣性,往往決定了一個大模型的優劣。

這或許是臉書母公司Meta(META.US)斥資143億美元,戰略性投資AI數據公司Scale AI的主要考量。

Scale AI是一家數據標註與數據清洗的公司,專為AI模型訓練提供高品質語料。數據標註指為圖片、文本或語音資料加上標籤,例如標示出圖片中的行人或文章的傾向等;數據清洗則是刪除錯誤、重複、無效或不相關資料,提升資料準確性與一致性。Scale AI以海量人力與自動化流程,為OpenAI、Meta、Google等科技巨頭提供高質量、結構清晰的數據資料。

優質數據的價值還有另一個例子。美國媒體《紐約時報》宣布,已與科技巨頭亞馬遜(AMZN.US)簽署新聞內容授權協議,將其經過編輯和事實查證的新聞內容投入大模型訓練。而此前還有美聯社對OpenAI的授權也是如此。

雖然表面上是「新聞內容的授權」,但實際上也體現了「內容即資料、資料即服務」的邏輯,不僅反映了媒體對自身內容價值的再認識,也揭示了AI團隊對高質量語料的迫切需求。

相比之下,中文世界面臨公開可用資源佔比極低、專業標註與文化典籍難以大規模數字化等挑戰,更凸顯了中文語料在本土化AI發展中的關鍵地位。

中文語料相對稀缺

據阿里研究院發布的《大模型訓練數據白皮書》指出,全球可爬取網路文本中,英文佔比高達59.8%,中文僅1.3%,一旦放大至需要大規模預訓練的場景,中文語料顯得尤為稀缺。同時,維基百科作為常用開放語料,英文維基擁有超過700萬篇條目,而中文維基則約為150萬篇,二者相差超過三倍。

在這種明顯不均的環境中,中文大模型若缺乏足量的公開預訓練語料,其基礎語言理解與生成能力就會明顯落後於英文對應系統,使得中文AI在理解表達及文化傳承方面可能「喝洋墨水」過多、出現「水土不服」現象。

當然,中國官方機構早已認識到此一問題,紛紛採取行動。人民網、新華社等官方平台積極構建「價值觀對齊」的語料庫,向AI開發方提供經過審核的新聞、評論與政策解讀等高質量文本,為模型價值觀安全層面的訓練奠定基礎。

中國官方亦透過如「網信研究大模型」等項目,聚焦政策法規與官媒語料建設,強化價值觀對齊。

可以想像,對齊中國價值觀是中國AI大語言模型的「基本功」。在中文世界,雖尚未有類似Scale AI規模如此大的公司,但已有多家企業與機構投入數據產業鏈建設,例如北京愛數智慧、雲測數據、科大訊飛(002230.SZ)與海天瑞聲(688787.SH)等公司提供大規模標註與清洗服務。

市調機構IDC的數據顯示,中國AI訓練數據集市場規模在2023年約2.6 億美元,預計到2032年將增至約23.2億美元,複合年增長率約27.4%。

AI模型的進步,最終取決於它「吃進什麼樣的內容」。當新聞、評論、學術論文與文化資產被結構化使用時,其價值從即時資訊轉化為可商用的數據資產。內容生產者不只是「提供素材」的角色,而是數據服務供應鏈的一環,包括新聞媒體在內的內容生產者,或許都應該認真思考自身的附加價值。

李世達,詠竹坊編輯。他的聯絡方式:shihtalee@thebambooworks.com

欲訂閱咏竹坊每周免費通訊,請點擊這裏

新聞

簡訊:瀾滄古茶折讓16%配股籌5,904萬港元

茶商普洱瀾滄古茶股份有限公司(6911.HK)周日公告,擬配售合共2,400萬股H股,佔擴大後已發行股份總額16%,每股認購價2.46港元,較上周五收市價2.95元折讓16.61%,集資5,904萬元(752萬美元)。 公司表示,因應集團的資本需求和業務發展所需,是次配股可為集團補充營運資金,鞏固集團的財務狀況,預期款項淨額約5,804萬元,將用於一般營運資金。 瀾滄古茶2023年底上市後風波不斷,去年中期盈利大幅倒退,年底更換核數師,不再任用羅兵咸永道。今年初因經營理念不合被免職撤換原總經理兼執行董事王娟,又因未能如期刊發去年度業績,從4月1日停牌至7月2日。 根據公司6月底公布的去年度業績,公司去年錄得虧損3.08億元,上年度同期為純利8,008萬元。 瀾滄古茶周一高開,至中午休市報3.13港元,升6.10%。 李世達 欲訂閱咏竹坊每周免費通訊,請點擊這裏

簡訊:周杰倫抖音開帳號 巨星傳奇即高位汲水

天皇巨星周杰倫母親控股的巨星傳奇集團有限公司(6683.HK)上周五公布,將配售3,752.45萬股新股,佔擴大已發行股份的4.18%,每股作價9.13元,較上周五收市11.4元,折讓近20%。 集資共3.4億元,約1.24億元用於擴展零售渠道網絡、約4,020萬元用於開發IP實體店,約6,000萬元作IP投流費、2,200萬元用於投資文娛體育設施,4,560萬元用於IP展覽,餘下作一般營運資金。 是次配股有一定步署,本月初周杰倫在抖音開設「周同學」的官方帳號,巨星傳奇股價即日暴升近倍,升破10元報至12.44元,市值破百億元。當股價在高位時乘勢配股,雖大幅折讓近兩成,但配售前股價實際較月初股價已升逾倍。 周一巨星傳奇開市跌3.4%至11元,隨後止跌回穩上升。 劉智恒 欲訂閱咏竹坊每周免費通訊,請點擊這裏

簡訊:品牌影響力提升 推動老鋪黃金利潤猛增

珠寶零售商老鋪黃金股份有限公司(6181.HK)周日發公告表示,隨著品牌認知度持續提升,上半年收入與利潤均增長逾兩倍。 公告顯示,公司預計當期收入達120億元至125億元,同比增幅達241%至255%;純利22.3億元至22.8億元,同比增長279%至288%。 公司將強勁增長歸因於品牌影響力提升,包括專注於工藝與珠寶設計的產品策略,相較注重黃金原料價值的傳統金店形成差異化優勢。公司補充說明,近期門店與渠道拓展雖非上半年增長主因,但預計將在下半年產生增量貢獻。 周一早盤老鋪黃金股價上漲後即回調,早盤跌3.6%報737港元,年內累計漲幅已逾兩倍。 陽歌 欲訂閱咏竹坊每周免費通訊,請點擊這裏
Pony AI and WeRide do robotaxis

商業化快好世界 小馬智行暫領跑

上周,上海宣布大幅擴大自動駕駛出租車項目之際,小馬智行及文遠知行雙雙取得重要新進展 重點: 小馬智行、文遠知行、百度等獲得上海自動駕駛出租車項目大規模擴容的運營牌照 自去年11月赴美上市以來,小馬智行股價累計上漲16%,而早一個月登陸納斯達克的文遠知行,市值則縮水約三分之一 陽歌 在中國自動駕駛出租車主導權爭奪戰中,小馬智行股份有限公司(PONY.US)相較競爭對手廣州文遠知行科技有限公司(WRD.US),贏得更多投資者青睞。點燃投資者熱情的關鍵因素似乎是,兩家獨立運營商在耗盡資金前,競相探索盈利路徑之際,小馬智行更快速地推進核心業務商業化。 優步(UBER.US)及其前任CEO特拉維斯·卡蘭尼克(Travis Kalanick) ,同樣押注該賽道。最新報道顯示,優步或雙向投資兩家企業,卡蘭尼克則押注小馬智行,具體細節後文將展開分析。 近期舉行的2025世界人工智能大會上,兩家企業各自發布公告(小馬智行公告;文遠知行公告),宣布挺進上海,成為上周六的頭條新聞。包括小馬智行、文遠知行及百度Apollo Go在內的八家機構,獲准在浦東新區金橋、花木核心區域開展自動駕駛出租車服務。 此次擴容意義重大。此前,上海僅允許在相對偏遠的嘉定區,測試及運營自動駕駛出租車。向花木核心區域的延伸,將使服務半徑覆蓋距陸家嘴金融城3公里範圍,該區域坐落著多棟全球最高摩天大樓。金橋核心區域則聚集大量外資企業與白領人群,此類客群更可能使用自動駕駛出租車服務。 上海業務擴張後,小馬智行、文遠知行與百度Apollo Go在北上廣深四大城市的佈局更趨完善。官宣此舉的前一日,小馬智行剛剛宣布在廣深啓動全時段運營,將每日服務時長從15小時延長至全天候,其快速成熟的夜間自動駕駛技術成為關鍵。 除技術研發外,三家企業也深諳持續釋放業務進展的披露策略,以期在漫長的商業化道路上維繫投資者信心。文遠知行今年已發布27則公告(約每周一則),小馬智行則為17則(約每12天一則)。公告事無巨細,皆成宣傳素材。 儘管當前主要業務仍集中在中國,兩家企業均已在中東、歐美等全球市場展開初步佈局。 儘管業務模式相似,去年10月登陸美股的文遠知行與隔月上市的小馬智行,股價走勢截然分化。小馬智行股價雖未出現飆升,但仍較發行價上漲約16%,而文遠知行自上市以來市值縮水約三分之一,兩者表現形成強烈反差。 小馬智行的漲勢使其市值升至約54億美元,文遠知行則跌至29億美元(約為前者一半)。小馬智行的市銷率(P/S)達72倍,優於文遠知行的58倍。但需指出,由於兩家企業當前營收規模仍有限,兩項估值指標均存在明顯溢價。 商業化進程提速 兩者分化的核心或在於,小馬智行核心業務商業化進程更快。今年一季度,該公司營收達1,400萬美元,較上年同期的1,250萬美元增長12%;文遠知行同期營收7,240萬元(約1,010萬美元),同比增速僅1.6%(上年同期為7,120萬元),遠遜前者。 儘管兩家公司營收絕對值均不高,且非自動駕駛出租車業務仍佔主體,但自動駕駛出租車業務增速迅猛,有望在不久後躍升為最主要收入來源。 小馬智行財報顯示,一季度自動駕駛出租車服務收入,從上年同期的57.6萬美元增至173萬美元,增長兩倍,其中乘車收入激增8倍。反觀文遠知行,自動駕駛出租車業務收入1,610萬元(約225萬美元),雖高於小馬智行,但同比僅實現翻一番。基數效應下,文遠知行需展現更強勁增速,方能贏得投資者信心。 自動駕駛出租車隊上,兩家企業運營規模相近:小馬智行預計年末車輛將達1,000輛,而文遠知行今年3月底已運營1,200輛。 投資者多押注小馬智行之際,網約車巨頭優步卻採取雙向策略(目前稍傾向文遠知行)。小馬智行與文遠知行均宣布將接入優步海外平台,但現階段合作多具象徵意義。值得注意的是,優步還與多家頭部自動駕駛出租車企業達成類似合作,體現其對未來主流應用的戰略卡位。 今年5月,優步宣布向文遠知行投資1億美元,按其當前市值計持股3.4%。據《紐約時報》上月報道,優步正協助聯合創始人卡蘭尼克洽購小馬智行美國子公司,談判處於初級階段。此舉耐人尋味,儘管小馬智行逾九成業務在中國,卻仍以加州弗里蒙特為其法定總部。 優步雙向押注恰恰說明,現階段斷言哪家企業更可能成功為時尚早。這家美國網約車巨頭真正的興趣點或在於,通過投資中企獲取中國市場份額。在全球市場,小馬智行與文遠知行尚無顯著優勢,未來還需直面特斯拉(TSLA.US)、谷歌旗下Waymo等資金雄厚的競爭對手。 現階段,兩家企業均處虧損狀態,儘管尚在可控區間。小馬智行一季度淨虧損3,740萬美元,但賬上現金及高流動性投資達7.39億美元,按當前虧損率可支撐二十年運營;文遠知行季度虧損3.85億元,截至3月底持有43.3億元現金儲備,可覆蓋逾十一年虧損額。 欲訂閱咏竹坊每周免費通訊,請點擊這裏