data becomes a strategic asset in the AI era

數據為王:內容生產者正在重新定位

數據資料成為AI時代的戰略資產,內容生產者對此應該有更深刻的體會    李世達 在全球人工智能競賽火熱推進的當下,人們逐漸體認到,大模型進入推理階段後,數據並不就此失去價值,反而因為動態知識需求而更顯關鍵。「最後一哩」的語料質量與多樣性,往往決定了一個大模型的優劣。 這或許是臉書母公司Meta(META.US)斥資143億美元,戰略性投資AI數據公司Scale AI的主要考量。 Scale AI是一家數據標註與數據清洗的公司,專為AI模型訓練提供高品質語料。數據標註指為圖片、文本或語音資料加上標籤,例如標示出圖片中的行人或文章的傾向等;數據清洗則是刪除錯誤、重複、無效或不相關資料,提升資料準確性與一致性。Scale AI以海量人力與自動化流程,為OpenAI、Meta、Google等科技巨頭提供高質量、結構清晰的數據資料。 優質數據的價值還有另一個例子。美國媒體《紐約時報》宣布,已與科技巨頭亞馬遜(AMZN.US)簽署新聞內容授權協議,將其經過編輯和事實查證的新聞內容投入大模型訓練。而此前還有美聯社對OpenAI的授權也是如此。 雖然表面上是「新聞內容的授權」,但實際上也體現了「內容即資料、資料即服務」的邏輯,不僅反映了媒體對自身內容價值的再認識,也揭示了AI團隊對高質量語料的迫切需求。 相比之下,中文世界面臨公開可用資源佔比極低、專業標註與文化典籍難以大規模數字化等挑戰,更凸顯了中文語料在本土化AI發展中的關鍵地位。 中文語料相對稀缺 據阿里研究院發布的《大模型訓練數據白皮書》指出,全球可爬取網路文本中,英文佔比高達59.8%,中文僅1.3%,一旦放大至需要大規模預訓練的場景,中文語料顯得尤為稀缺。同時,維基百科作為常用開放語料,英文維基擁有超過700萬篇條目,而中文維基則約為150萬篇,二者相差超過三倍。 在這種明顯不均的環境中,中文大模型若缺乏足量的公開預訓練語料,其基礎語言理解與生成能力就會明顯落後於英文對應系統,使得中文AI在理解表達及文化傳承方面可能「喝洋墨水」過多、出現「水土不服」現象。 當然,中國官方機構早已認識到此一問題,紛紛採取行動。人民網、新華社等官方平台積極構建「價值觀對齊」的語料庫,向AI開發方提供經過審核的新聞、評論與政策解讀等高質量文本,為模型價值觀安全層面的訓練奠定基礎。 中國官方亦透過如「網信研究大模型」等項目,聚焦政策法規與官媒語料建設,強化價值觀對齊。 可以想像,對齊中國價值觀是中國AI大語言模型的「基本功」。在中文世界,雖尚未有類似Scale AI規模如此大的公司,但已有多家企業與機構投入數據產業鏈建設,例如北京愛數智慧、雲測數據、科大訊飛(002230.SZ)與海天瑞聲(688787.SH)等公司提供大規模標註與清洗服務。 市調機構IDC的數據顯示,中國AI訓練數據集市場規模在2023年約2.6 億美元,預計到2032年將增至約23.2億美元,複合年增長率約27.4%。 AI模型的進步,最終取決於它「吃進什麼樣的內容」。當新聞、評論、學術論文與文化資產被結構化使用時,其價值從即時資訊轉化為可商用的數據資產。內容生產者不只是「提供素材」的角色,而是數據服務供應鏈的一環,包括新聞媒體在內的內容生產者,或許都應該認真思考自身的附加價值。 李世達,詠竹坊編輯。他的聯絡方式:shihtalee@thebambooworks.com 欲訂閱咏竹坊每周免費通訊,請點擊這裏
Tianju Dihe makes APIs

天時地利配合 天聚地合盈收雙報捷

得益於數據傳輸服務需求增長,這家低調的公司去年實現兩位數的強勁利潤增長 重點: 天聚地合表示,得益於收入增長穩健,去年淨利潤增長高達51% 隨著中國數字經濟在政府優惠政策的推動下擴張,對該公司服務的需求上升 梁武仁 天聚地合(蘇州)科技股份有限公司(2479.HK)這個名字算不上朗朗上口。但這家低調的公司樂於留在幕後,享受數據傳輸服務驅動強勁的利潤增長,在市場看好比它更高調的中國科技公司的當下,公司發展迅速,因為其中一些科技公司是它的關鍵客戶。 天聚地合在上周五提交的一份文件中表示,預計去年淨利潤介乎於5,000萬元(690萬美元)至5,300萬元,較2023年增長43%至51%,是公司自去年6月在香港上市以來的首份年度業績報告。公告發佈後,天聚地合的股票在週一上漲2.7%。 公司在公告中沒有提供太多細節,只是將盈利增長歸因於收入大幅增長,尤其是核心的應用程序編程接口(API)業務。但公司去年8月發佈的年中報告,有助解釋利潤強勁增長的原因。 去年上半年,天聚地合收入同比增長48%至2.59億元,毛利潤更是增長62%,達到5,600萬元,表明公司利潤率有所提高。扣除上市費用後,公司上半年淨利潤總計為2,000萬元,比上年同期增長42%。 天聚地合的大部分收入來自促進數據交換的API服務。API本質上是一種協議,讓兩個應用程序能夠相互「對話」。比如,移動應用程序的用戶要查天氣情況,該應用程序會通過API向相關數據源發送請求。然後,數據源處理請求、檢索信息並通過API將其發回給移動應用程序。 處理此類查詢的API是天聚地合最大的收入來源,其中最受歡迎的是用來根據姓名、手機號碼和身份證號碼核驗身份的API。天聚地合的客戶還會在短信通知服務以及手機充值中使用API​​。 截至去年6月底,天聚地合擁有400多個專有API,其客戶包括騰訊和阿里巴巴等互聯網巨頭,以及中國三大無線運營商。 天聚地合還於2020年開始提供數據管理服務,去年上半年這一塊約佔其收入的13%。但到2024年底,這個比例可能要大得多,因為公司通常在每年第四季度,按項目完成這些服務並在那時確認收入。 政策支持 儘管中國經濟放緩使得許多公司的增長遇阻,但天聚地合卻逆勢而上,成為一個罕見的例外。事實上,這家公司有很多有利條件。首先,中國的數字經濟在整體經濟增速放緩的大背景下,依然發展迅速。數字經濟從本質上來說,涵蓋了所有利用數據和信息技術,進行資源分配和生產的商業活動。近來,這種數字化轉型,已成為中國整體經濟增長的關鍵驅動力之一,緩解了因消費需求下滑導致的整體經濟放緩影響。 據天聚地合去年的招股說明書稱,中國的數字經濟在2022年增長了約10%。需要提醒的是,2022年為防控新冠疫情,中國各地仍普遍實施封控措施。作為全球第二大經濟體,中國那一年僅增長3%。因此,在這種情況下10%的增長率顯得相當可觀。 官方數據顯示,2023年數字經濟核心產業增加值佔GDP比重達10%。這一成就意義重大,因為這一里程碑比政府設定的目標提前了兩年實現。 而北京方面制定這樣一個目標,這個事實本身就意味著,政府已準備好為數字經濟提供政策支持。根據中國最新的數字經濟發展五年規劃,中國希望通過更好地利用數據資源,提升在戰略技術領域的能力,並實現供應鏈的數字化。 這樣的政策導向,為天聚地合的發展創造了沃土,尤其是在北京採取措施,讓公眾能夠獲取非敏感數據的情況下。中國政府還提出建立一種機制,共享公共機構的數據,如企業註冊、公共衛生、交通和天氣等。這些舉措應該會增加對數據交換的需求,而這正是天聚地合的主要專業領域。 多年來,中國監管機構一直對大型科技公司,在數據保護方面的做法嚴加監管,導致對新技術的投資減少,同時投資者對該群體的信心也有所減弱。但最近,隨著人工智能初創公司DeepSeek的崛起,以及習近平主席對科技企業及其在中國經濟中的重要作用的新認可,市場情緒明顯好轉。 這一轉變很可能反映決策者們,認識到國內科技行業的發展對中國經濟增長至關重要。面對海外風險,如與美國和歐洲的貿易緊張局勢可能會抑制出口,而出口是中國最重要的經濟引擎之一,在這情況下,轉變的勢頭正在不斷增強。這應該會對包括天聚地合在內的中國數字經濟企業起到推動作用。 自上市以來,天聚地合的股價已上漲了36%,市銷率為7倍,是具有風向標意義的科技巨頭阿里巴巴2.5倍市銷率的兩倍,不過與騰訊的7.27倍大致相當。考慮到公司在中國當前有利於科技公司發展的環境下的增長潛力,目前的估值可能是合理的,如果公司能繼續保持兩位數的強勁利潤和收入增長,其估值還有進一步上升的空間。 欲訂閱咏竹坊每周免費通訊,請點擊這裏