data becomes a strategic asset in the AI era

数据资料成为AI时代的战略资产,内容生产者对此应该有更深刻的体会

  

李世达

在全球人工智能竞赛火热推进的当下,人们逐渐体认到,大模型进入推理阶段后,数据并不就此失去价值,反而因为动态知识需求而更显关键。“最后一公里”的语料质量与多样性,往往决定了一个大模型的优劣。

这或许是脸书母公司Meta(META.US)斥资143亿美元,战略性投资AI数据公司Scale AI的主要考量。

Scale AI是一家数据标注与数据清洗的公司,专为AI模型训练提供高品质语料。数据标注指为图片、文本或语音资料加上标签,例如标示出图片中的行人或文章的倾向等;数据清洗则是删除错误、重复、无效或不相关资料,提升资料准确性与一致性。Scale AI以海量人力与自动化流程,为OpenAI、Meta、Google等科技巨头提供高质量、结构清晰的数据资料。

优质数据的价值还有另一个例子。美国媒体《纽约时报》宣布,已与科技巨头亚马逊(AMZN.US)签署新闻内容授权协议,将其经过编辑和事实查证的新闻内容投入大模型训练。而此前还有美联社对OpenAI的授权也是如此。

虽然表面上是“新闻内容的授权”,但实际上也体现了“内容即资料、资料即服务”的逻辑,不仅反映了媒体对自身内容价值的再认识,也揭示了AI团队对高质量语料的迫切需求。

相比之下,中文世界面临公开可用资源占比极低、专业标注与文化典籍难以大规模数字化等挑战,更凸显了中文语料在本土化AI发展中的关键地位。

据阿里研究院发布的《大模型训练数据白皮书》指出,全球可爬取网络文本中,英文占比高达59.8%,中文仅1.3%,一旦放大至需要大规模预训练的场景,中文语料显得尤为稀缺。同时,维基百科作为常用开放语料,英文维基拥有超过700万篇条目,而中文维基则约为150万篇,二者相差超过三倍。

中文语料相对稀缺

在这种明显不均的环境中,中文大模型若缺乏足量的公开预训练语料,其基础语言理解与生成能力就会明显落后于英文对应系统,使得中文AI在理解表达及文化传承方面可能“喝洋墨水”过多、出现“水土不服”现象。

当然,中国官方机构早已认识到此一问题,纷纷采取行动。人民网、新华社等官方平台积极构建“价值观对齐”的语料库,向AI开发方提供经过审核的新闻、评论与政策解读等高质量文本,为模型价值观安全层面的训练奠定基础。

中国官方亦透过如“网信研究大模型”等项目,聚焦政策法规与官媒语料建设,强化价值观对齐。

可以想像,对齐中国价值观是中国AI大语言模型的“基本功”。在中文世界,虽尚未有类似Scale AI规模如此大的公司,但已有多家企业与机构投入数据产业链建设,例如北京爱数智慧、云测数据、科大讯飞(002230.SZ)与海天瑞声(688787.SH)等公司提供大规模标注与清洗服务。

市调机构IDC的数据显示,中国AI训练数据集市场规模在2023年约2.6亿美元,预计到2032年将增至约23.2亿美元,复合年增长率约27.4%。

AI模型的进步,最终取决于它“吃进什么样的内容”。当新闻、评论、学术论文与文化资产被结构化使用时,其价值从即时资讯转化为可商用的数据资产。内容生产者不只是“提供素材”的角色,而是数据服务供应链的一环,包括新闻媒体在内的内容生产者,或许都应该认真思考自身的附加价值。

李世达,咏竹坊编辑。他的联络方式:shihtalee@thebambooworks.com

欲订阅咏竹坊每周免费通讯,请点击这里

新闻

简讯:果链巨头蓝思科技 上市首日午收升5%

手机玻璃供应商蓝思科技股份有限公司(6613.HK,300433.SZ)周三在港挂牌,开市升近4%报18.88港元,之后股价窄幅上落,中午收市报19.06港元,升4.8%。 公司发售2.62亿股,每股以上限18.18港元定价,录得超额认购近462倍,国际配售超额16倍,集资净额46.9亿港元。 公司引入十名基石投资者,合共认购1.9亿美元,当中包括有小米旗下的Green Better、Oaktree、UBS资产、Redwood Elite及世运线路版等。 蓝思科技是苹果的主要供应商,去年收入约699亿元人民币(下同),按年升28.3%,盈利升近20%至36.2亿元。 刘智恒 欲订阅咏竹坊每周免费通讯,请点击这里

简讯:广汽与Stellantis合资车企广汽菲克正式宣告破产

广州汽车集团股份有限公司(02238.HK;601238.SH)与全球第四大汽车制造商Stellantis(STLA.US)合资成立的广汽菲亚特克莱斯勒汽车有限公司(简称广汽菲克),周二宣布已由破产管理人申请法院裁定破产。管理人表示,公司已无重整及和解可能,资产不足以偿还全部债务,无力清偿到期负债。 广汽菲克透过管理人微信公众号披露破产清算最新进展。该公司曾凭借Jeep车型本土化生产,在中国市场取得高峰,但随后市场竞争加剧,产品吸引力下滑,最终陷入长期停产。 2022年10月,广汽菲克因经营不善,且实际资产无法偿还全部债务,正式进入破产程序。随后近3年里,广汽菲克拍卖了超过3,000件标的物,包括模具、试验车等。至于土地、建筑物及生产设备等核心资产已五次公开拍卖,但因无人出价而全部流拍。虽然该公司曾招募投资者重整,但一直无人问津。 广汽集团表示,此为法院及破产管理人依程序推进的正常安排,集团将尊重并支持相关工作。Jeep品牌虽已停止中国本土化生产,但牧马人、大切诺基等高端车型仍透过进口方式销售。 广汽股价周三低开,至中午休市报2.96港元,转升1.02%。 李世达 欲订阅咏竹坊每周免费通讯,请点击这里 
In ‘Warring States Era’ for smart cockpits, Megatronix bets on modular approach

智能座舱战国时代 镁佳盼借模块化突围

正申请在港上市的的镁佳股份,试图以“模块化+多域融合”为核心策略,证明他们有更好的盈利能力 重点: 公司收入在2023年大幅增长,去年小幅回落至14.2亿元 过去三年亏损持续收窄,但去年应收票据激增336%   李世达 在中国汽车产业智能化转型的驱动下,“智能座舱”成为最炙手可热的创新焦点之一。从过去仅止于语音控制与大屏幕显示,到如今结合AI语义理解、视觉识别、情境交互与远端OTA升级,智能座舱已逐渐从附加功能变为主机厂差异化竞争的核心场域。 这场由软件定义主导的新技术浪潮,不仅改变了汽车产业的供应链格局,也催生出一批介于博世、大陆等传统Tier 1巨头与模块零件厂之间的“Tier 1.5”供应商,它们以模块化架构、AI算法与可重复部署为卖点,快速抢占主机厂的下一代车型平台。 这股趋势促使了包括博泰车联网、四维智联(已通过上市聆讯)及佑驾创新(2431.HK)等智能座舱领域公司纷纷选择赴港上市,而2018年创立的镁佳股份有限公司近日亦向港交所递交上市申请。去年底上市的佑驾创新,其股价至今已上涨39%。 根据申请文件,镁佳股份的核心竞争力在于整合式的智能座舱+X产品理念。简单来说,该方案通过整合多种智能汽车功能,包括智能座舱、ADAS泊车、ADAS驾驶、车联网、OTA升级等,嵌入统一的实体域控制器,以用于置入车辆中。 镁佳称,其采用模块化、可重复的软件架构,使不同厂商可以快速集成至各自车型中,这种“预开发模块库”逻辑不需要在每次得到定点后重新开发,可以有效缩短开发交付时间至“以月为单位”,适合中国汽车市场当下“快周期、低成本”的需求环境。 主动放弃最大客户 截至目前,镁佳的客户包括奇瑞、长安、东风、长安马自达、日产和福特等头部车厂的多款车型。而自2022年首款搭载镁佳方案的车型量产以来,公司业绩也经历了强劲增长。 自2022年起,公司收入从3.88亿元(5,400万美元)跃升2.9倍至2023年的15.13亿元,2024年小幅回落至14.2亿元。同期公司来自最大客户的收入分别为2.05亿元、8.02亿元和3.24亿元,占其收入约52.8%、53.0%和22.8%。 值得一提的是,公司在2024年初决定与过去两年的最大客户终止合作关系,该客户即中国智能座舱龙头德赛西威(002920.SZ)。退出合作之后,虽然当年收入有所下降,但毛利率却由2023年的12.1%大幅增长至21.8%。 当同行都在牺牲利润换规模时,镁佳选择反其道而行,虽失去最大客户,但提升了毛利率,降低了客户集中度,令其业务结构朝向更可盈利的方向优化。 截至2024年底,该公司已与12家车厂建立合作关系,累计获得48个车型定点,年交付量超过63万套,申请文件中称:“中国约每十辆搭载智能座舱域控系统的新车中,就有一辆使用镁佳股份的解决方案”。 不过,就如同中国汽车供应链上的其他产业,镁佳也处在亏损阶段。2022年至2024年,公司年度亏损分别为4.23亿元、3.57亿元及2.91亿元,呈持续收窄的趋势。公司称,亏损的收窄归功于零组件实现国产替代与供应链优化,以及更多高毛利的模块进入产品组合,同时模块化平台的导入,有效降低新项目开发的边际成本。 去年应收票据暴增 截至去年底,公司持有的现金及现金等价物约1.87亿元,另有2亿元受限制现金,但去年公司应收票据从2023年的5,719万元暴增336%至2.49亿元,另外还有约6.49亿元的应收帐款。这意味着越来越多货款结算转向票据支付形式。票据支付延长了实际回款周期,往往达三至六个月甚至更长,这无疑大大增加了公司的运营压力。 在资本支持方面,镁佳自2018年以来累计完成多轮融资,至今年5月完成3,069万美元的D+轮融资后,估值达9.3亿美元,与博泰车联网传出的估值逾10亿美元相若。不过,镁佳盈利状况好过博泰车联网,前者亏损持续收窄,后者同期则扩大至5.4亿元。从毛利率看,镁佳的21.8%也好过博泰的11.8%、佑驾创新的16%。 当前智能座舱行业正从“烧钱创新”进入到“落地量产”阶段,镁佳股份凭借模块化平台与预开发策略,在技术交付与成本控制上展现出较强的系统集成能力。虽尚处亏损,但其毛利率改善及与头部车厂的合作基础,已使其具备进一步放量成长与平衡盈亏的潜力。 而随着佑驾创新等同业在港股市场获得积极定价,智能座舱的估值参照正在上升,为镁佳创造了有利的上市窗口。若未来能在客户结构、现金流与产品出海等方面实现突破,资本市场对其预期也有望随之抬升。 欲订阅咏竹坊每周免费通讯,请点击这里

简讯:小牛电动次季销量按年增长36.6%

电动两轮车品牌小牛电动科技有限公司(NIU.US)上周五公布,第二季共销售电动出行产品350,090台,较去年同期的25.62万台增长36.6%。 其中中国市场销售318,719台,占总量约91%,较去年同期207,552台增长53%;国际市场方面,小牛电动第二季销售31,371台,较去年同期下降约35%。销售数据涵盖电动摩托车、电动轻便摩托车、电动自行车、滑板车和电动自行车。 公司表示,于“618年中购物节”期间,小牛多款高端车型在天猫、京东与抖音平台均登上销售排行榜,有效巩固其于中国高端智能两轮市场的领导地位。 小牛电动股价周一一度升逾5%,收市报3.42美元,升1.79%。 李世达 欲订阅咏竹坊每周免费通讯,请点击这里