data becomes a strategic asset in the AI era

數據資料成為AI時代的戰略資產,內容生產者對此應該有更深刻的體會

  

李世達

在全球人工智能競賽火熱推進的當下,人們逐漸體認到,大模型進入推理階段後,數據並不就此失去價值,反而因為動態知識需求而更顯關鍵。「最後一哩」的語料質量與多樣性,往往決定了一個大模型的優劣。

這或許是臉書母公司Meta(META.US)斥資143億美元,戰略性投資AI數據公司Scale AI的主要考量。

Scale AI是一家數據標註與數據清洗的公司,專為AI模型訓練提供高品質語料。數據標註指為圖片、文本或語音資料加上標籤,例如標示出圖片中的行人或文章的傾向等;數據清洗則是刪除錯誤、重複、無效或不相關資料,提升資料準確性與一致性。Scale AI以海量人力與自動化流程,為OpenAI、Meta、Google等科技巨頭提供高質量、結構清晰的數據資料。

優質數據的價值還有另一個例子。美國媒體《紐約時報》宣布,已與科技巨頭亞馬遜(AMZN.US)簽署新聞內容授權協議,將其經過編輯和事實查證的新聞內容投入大模型訓練。而此前還有美聯社對OpenAI的授權也是如此。

雖然表面上是「新聞內容的授權」,但實際上也體現了「內容即資料、資料即服務」的邏輯,不僅反映了媒體對自身內容價值的再認識,也揭示了AI團隊對高質量語料的迫切需求。

相比之下,中文世界面臨公開可用資源佔比極低、專業標註與文化典籍難以大規模數字化等挑戰,更凸顯了中文語料在本土化AI發展中的關鍵地位。

中文語料相對稀缺

據阿里研究院發布的《大模型訓練數據白皮書》指出,全球可爬取網路文本中,英文佔比高達59.8%,中文僅1.3%,一旦放大至需要大規模預訓練的場景,中文語料顯得尤為稀缺。同時,維基百科作為常用開放語料,英文維基擁有超過700萬篇條目,而中文維基則約為150萬篇,二者相差超過三倍。

在這種明顯不均的環境中,中文大模型若缺乏足量的公開預訓練語料,其基礎語言理解與生成能力就會明顯落後於英文對應系統,使得中文AI在理解表達及文化傳承方面可能「喝洋墨水」過多、出現「水土不服」現象。

當然,中國官方機構早已認識到此一問題,紛紛採取行動。人民網、新華社等官方平台積極構建「價值觀對齊」的語料庫,向AI開發方提供經過審核的新聞、評論與政策解讀等高質量文本,為模型價值觀安全層面的訓練奠定基礎。

中國官方亦透過如「網信研究大模型」等項目,聚焦政策法規與官媒語料建設,強化價值觀對齊。

可以想像,對齊中國價值觀是中國AI大語言模型的「基本功」。在中文世界,雖尚未有類似Scale AI規模如此大的公司,但已有多家企業與機構投入數據產業鏈建設,例如北京愛數智慧、雲測數據、科大訊飛(002230.SZ)與海天瑞聲(688787.SH)等公司提供大規模標註與清洗服務。

市調機構IDC的數據顯示,中國AI訓練數據集市場規模在2023年約2.6 億美元,預計到2032年將增至約23.2億美元,複合年增長率約27.4%。

AI模型的進步,最終取決於它「吃進什麼樣的內容」。當新聞、評論、學術論文與文化資產被結構化使用時,其價值從即時資訊轉化為可商用的數據資產。內容生產者不只是「提供素材」的角色,而是數據服務供應鏈的一環,包括新聞媒體在內的內容生產者,或許都應該認真思考自身的附加價值。

李世達,詠竹坊編輯。他的聯絡方式:shihtalee@thebambooworks.com

欲訂閱咏竹坊每周免費通訊,請點擊這裏

新聞

簡訊:小牛電動次季銷量按年增長36.6%

電動兩輪車品牌小牛電動科技有限公司(NIU.US)上周五公布,第二季共銷售電動出行產品350,090台,較去年同期的25.62萬台增長36.6%。 其中中國市場銷售318,719台,佔總量約91%,較去年同期207,552台增長53%;國際市場方面,小牛電動第二季銷售31,371台,較去年同期下降約35%。銷售數據涵蓋電動摩托車、電動輕便摩托車、電動自行車、滑板車和電動自行車。 公司表示,於「618年中購物節」期間,小牛多款高端車型在天貓、京東與抖音平台均登上銷售排行榜,有效鞏固其於中國高端智能兩輪市場的領導地位。 小牛電動股價周一一度升逾5%,收市報3.42美元,升1.79%。 李世達 欲訂閱咏竹坊每周免費通訊,請點擊這裏 --

簡訊:綠城半年銷售跌11% 前董事長港機場被帶走

內房開發商綠城中國控股有限公司(3900.HK)周一公布上半度銷售數據,今年首六個月,集團合同銷售金額803億元人民幣(下同),涉及的面積為229萬平方米,歸屬於綠城的權益金額為539億元,較去年同期的608億元下跌11.3%。 6月份綠城自投項目的銷售金額為142億元,同比下跌18.4%,但每平方米均價則上升6.8%至34,746元。 另外,多家內地媒體早前報道,綠城中國前執行董士及董事長張亞東,5月底時在香港機場準備飛往加拿大時,於登機口被帶走,但具體因何事則未有披露。張亞東曾任大連副市長,2016年調往央企中交集團,至2018年被派往報掌綠城。至今年三月,綠城突公佈張亞東呈辭。 綠城周二平開市報9.77港元,公司在過去一年的高位下跌27%。 劉智恒 欲訂閱咏竹坊每周免費通訊,請點擊這裏

行業簡訊:泰國對中國遊客吸引力下降

財新報道,據航班管家的數據估計,今年七八月旅遊旺季,中國航司計劃執行中泰航線班次達12,800架,同比下跌22.6%,更較疫情前水平低40%。今年前五個月,中國赴泰旅遊人次降至195萬,同比減少33%。 財新指出,多重因素令中國遊客望而卻步,包括演員王星赴泰時被綁往緬甸詐騙園區。其他擔憂還包括地震,以及泰銖對人民幣升值,導致赴泰旅遊成本上漲。 當中國遊客對泰國興趣減退之際,他們正湧向日韓等亞洲地區。中國航司計劃,於七八月執行中日航線的航班達25,300架次,同比增長35.3%;中韓航線計劃執行20,500架次,同比增長13.4%。 陽歌 欲訂閱咏竹坊每周免費通訊,請點擊這裏
Hong Kong Robotics’ stock soars on robotics pivot, but does it have legs?

華麗轉身股價狂飈 港仔機器人價高勢危?

一家三四線香港上市公司,突然變身機器人公司,股價即如脫彊野馬,一路狂奔 重點: 公司去年度業績蝕1.4億港元,已連續虧損五年 年初與達闥組成合資企業,搖身一變成為機器人公司 劉智恒 趕潮流,追風口,從來是股票市場的本質;要數今年的熱門行業,肯定是機器人,地平線機器人(9660.HK)、越疆(2432.HK)及優必選(9880.HK)等,年初以來均升幅由五成至逾倍,但要說在港股上的真正贏家,港仔機器人集團控股有限公司(0370.HK)的升幅才是王者,年初至今上升超過5倍。 公司近日公布一份不堪入目的年度業績,收入大跌45.6%至1.16港億元,虧損則續擴大5.3%至1.38億元。應收貸款及利息減值虧損1,132萬港元、商譽減值虧損2,182萬港元、物業廠房減值及設備減值3,937萬港元。 一遇達闥便化龍 為何業績表現乏善足陳,股價又能忽然爆升?原來一切緣於年初的一項合作協議! 時間回到今年情人節,當時港仔機器人的名稱仍叫國華控股(今年五月才易名),與內地的達闥機器人簽訂框架協議,成立合資公司,國華佔股51%,達闥佔股49%,目標是開拓人形機器人操作系統的民用產品。 國華在兩年內協助合資公司募集足夠資金,達闥則將其擁有的知識產權,授予合資公司在中國境內的全資附屬。 過去香港市場的一些三四線公司最擅長的技倆,就是轉型資本市場最熱炒行業,通常透過收購或合併而進入風口市場,當股價被不斷推升,往往會作出連串集資行動。港仔機器人的情況似乎有點類同,他們最終能否成功,暫時仍是未知數? 小米2023底發布首部電動車SUV7時,我們曾發表「雷軍造車,一往無前」一文,從小米的往績,主事人的能力,及公司財力去分析,結論是雷軍成功機會相當高。我們不妨按此框架,分析港仔機器人的成功機會。 國華業務強差人意 首先,不妨看看港仔機器人過往業務,當你翻開資料,大抵會嚇了一跳,竟然有多項主業,包括商品買賣、證劵及期貨經紀、物業經紀、地熱能供暖製冷、樓宇建築承包、特製技術支援、項目管理、集中供熱及融資租賃。 要知道,今年初國華控股市值還不到6億港元,業務之分散,在香港上市公司中可謂表表者,公司重點在那?如何去營運及發展各業務?資源又怎樣分配? 觀乎去年業績,除個別業務外,其餘全部見紅。部分業務更是問題多多,其中在運城的供熱業務,因未能符合牌照要求,被勒令終止,結果公司要將該業務出售。 融資租賃方面,因未能履行監管要求,被政府部門禁止有關經營,最後要終止業務並出售。另外,今年亦公布將金融控股公司出售。 樓宇建築承包業務上,旗下的陝西江威涉及多宗訴訟,涉資達4,556萬元,以致部份資產被凍結。至於公司的中介業務,附屬的上海軒美房地產經公司涉及多宗訴訟,涉及金額106萬元。 從過往的業務看,公司的發展方針及經營管理似大有關題,現在轉搞機器人公司,成功概率確實教人存疑。 達闥連年虧損 我們再看達闥機器人,說不定他有能力讓港仔機器人邁向美好前景。事實上,達闥並非吳下阿蒙,反之曾是中國內地首屈一指的機器人企業,軟銀及富士康均是主要投資者,估值一度冠絕同行。 公司2015年由曾任職貝爾實驗室及中移動通信研究院首任院長的黃曉慶成立,專注雲端智慧機器人技術,2023年完成C輪10億融資後,估值達到223億元。 然而人型機器人在商業市場仍屬起步階段,公司不斷燒錢, 2019年準備在美上市,不幸地被美國商務部列入管制黑名單,集資不成,苦苦支撐,近年屢傳資金鏈陷斷裂之危。今年4月在社交平台及媒體消息,公司在上海、北京及深圳等地,有數百員工被欠薪,位於廣州的公司,更被斷水斷電。 達闥往績也是乏善足陳,虧錢不是最大問題,最大問題似是看不到明天,以致原有投資者不願再注資,公司已陷於危急存亡之秋,它又能為港仔機器人帶來多少業務,何時才可扭虧為盈? 一場燒錢的競賽 投資機器人行業,大部份企業在燒錢階段,因此企業要有充裕的資本才能繼續前行。金沙江創投合夥人朱嘯虎早前表示,人形機器人面臨技術成本高企,遠超出顧客願付費用。其次是許多企業所謂的應用場景,實際是想象出來,並非實際需要。 我們看見港仔機器人長期虧損,截至今年3月底,手頭資金只有5,000萬港元,憑甚麼去支撐這盤燒錢的遊戲?雖然港仔機器人上月宣布簽定四份合作框架協議,但靠一個香港市場,能為公司帶來多少生意?相信投資者也別抱太大期望。 然而,在機器人熱潮下,港仔機器人的概念相信會受到一定追捧,股價有機再創新高,但何時能盈利就別太樂觀。再者,股價經過一輪急升猛漲後,投資者現階段追入,風險高值博率低。別忘記,股價大升後,未來公司很大機會在資本市場進行融資,股價將會十分波動,投資者只適宜投機性買賣。 欲訂閱咏竹坊每周免費通訊,請點擊這裏