data becomes a strategic asset in the AI era

数据资料成为AI时代的战略资产,内容生产者对此应该有更深刻的体会

  

李世达

在全球人工智能竞赛火热推进的当下,人们逐渐体认到,大模型进入推理阶段后,数据并不就此失去价值,反而因为动态知识需求而更显关键。“最后一公里”的语料质量与多样性,往往决定了一个大模型的优劣。

这或许是脸书母公司Meta(META.US)斥资143亿美元,战略性投资AI数据公司Scale AI的主要考量。

Scale AI是一家数据标注与数据清洗的公司,专为AI模型训练提供高品质语料。数据标注指为图片、文本或语音资料加上标签,例如标示出图片中的行人或文章的倾向等;数据清洗则是删除错误、重复、无效或不相关资料,提升资料准确性与一致性。Scale AI以海量人力与自动化流程,为OpenAI、Meta、Google等科技巨头提供高质量、结构清晰的数据资料。

优质数据的价值还有另一个例子。美国媒体《纽约时报》宣布,已与科技巨头亚马逊(AMZN.US)签署新闻内容授权协议,将其经过编辑和事实查证的新闻内容投入大模型训练。而此前还有美联社对OpenAI的授权也是如此。

虽然表面上是“新闻内容的授权”,但实际上也体现了“内容即资料、资料即服务”的逻辑,不仅反映了媒体对自身内容价值的再认识,也揭示了AI团队对高质量语料的迫切需求。

相比之下,中文世界面临公开可用资源占比极低、专业标注与文化典籍难以大规模数字化等挑战,更凸显了中文语料在本土化AI发展中的关键地位。

据阿里研究院发布的《大模型训练数据白皮书》指出,全球可爬取网络文本中,英文占比高达59.8%,中文仅1.3%,一旦放大至需要大规模预训练的场景,中文语料显得尤为稀缺。同时,维基百科作为常用开放语料,英文维基拥有超过700万篇条目,而中文维基则约为150万篇,二者相差超过三倍。

中文语料相对稀缺

在这种明显不均的环境中,中文大模型若缺乏足量的公开预训练语料,其基础语言理解与生成能力就会明显落后于英文对应系统,使得中文AI在理解表达及文化传承方面可能“喝洋墨水”过多、出现“水土不服”现象。

当然,中国官方机构早已认识到此一问题,纷纷采取行动。人民网、新华社等官方平台积极构建“价值观对齐”的语料库,向AI开发方提供经过审核的新闻、评论与政策解读等高质量文本,为模型价值观安全层面的训练奠定基础。

中国官方亦透过如“网信研究大模型”等项目,聚焦政策法规与官媒语料建设,强化价值观对齐。

可以想像,对齐中国价值观是中国AI大语言模型的“基本功”。在中文世界,虽尚未有类似Scale AI规模如此大的公司,但已有多家企业与机构投入数据产业链建设,例如北京爱数智慧、云测数据、科大讯飞(002230.SZ)与海天瑞声(688787.SH)等公司提供大规模标注与清洗服务。

市调机构IDC的数据显示,中国AI训练数据集市场规模在2023年约2.6亿美元,预计到2032年将增至约23.2亿美元,复合年增长率约27.4%。

AI模型的进步,最终取决于它“吃进什么样的内容”。当新闻、评论、学术论文与文化资产被结构化使用时,其价值从即时资讯转化为可商用的数据资产。内容生产者不只是“提供素材”的角色,而是数据服务供应链的一环,包括新闻媒体在内的内容生产者,或许都应该认真思考自身的附加价值。

李世达,咏竹坊编辑。他的联络方式:shihtalee@thebambooworks.com

欲订阅咏竹坊每周免费通讯,请点击这里

新闻

简讯:赛力斯申港上市获中证监备案

根据中国证监会官网周四公告,新能源汽车制造商赛力斯集团股份有限公司(601127.SH)已获中证监批准赴港上市。该上市计划完成备案登记,为后续推进扫除了关键障碍。 赛力斯拟通过本次IPO发行约3.31亿股,此举将与其上海上市形成互补,公司已于4月向港交所提交初步招股说明书。 上市文件显示,赛力斯旗下“问界”品牌(Aito)新能源汽车2024年实现营收1,450亿元,较上年同期的358亿元增长三倍;毛利率由7.2%升至23.8%。公司2024年实现59亿元盈利,成为全球第四家达成盈利里程碑的新能源汽车制造商。 周五赛力斯股价在上交所上涨5.8%,今年以来累计涨幅约18%。 阳歌 欲订阅咏竹坊每周免费通讯,请点击这里

简讯:吉宏股份预告首三季盈利翻倍

跨境社交电商企业厦门吉宏科技股份有限公司(2603.HK; 002603.SZ)周四公布,预计2025年首三季录得净利润2.57亿元(3,600万美元)至2.7亿元,按年大增约95.1%至105.3%。 公司表示,受惠于跨境社交电商业务持续高速增长,及纸制快消品包装业务盈利能力显著提升,整体营收与盈利能力显著提升。根据公告,扣除非经常性损益后的净利润亦达2亿元至2.1亿元之间,同比升幅在65%至76%之间。 吉宏股份成立于2003 年,总部位于厦门,2016年在深交所上市。公司本业原是纸制包装,初期以产品设计和营销为基础,在识别消费者需求方面累积相当经验,随后开始拓展跨境社交电商业务,采取“信息找人”的推广方式,实现“货找人”的跨境社交电商模式。 今年5月,吉宏股份在港交所挂牌,上市至今股价累升63.2%。盈喜发布后,公司股价周五高开,至中午休市报18.34港元,升2.17%。 李世达 欲订阅咏竹坊每周免费通讯,请点击这里 
Jingdong Industrials does industrial e-commerce

京东工业获中证监备案 距港上市一步之遥

这家中国领先的工业品采购B2B交易平台,上市申请已获中国证券监管机构备案 重点: 京东工业的港股IPO已获中国证监会备案,为上市铺平道路 按40亿至70亿美元估值区间测算,公司此次募资规模可能超10亿美元   阳歌 历经三年等待,电商巨头京东集团(JD.US; 9618.HK)旗下最新业务单元终临近上市。我们作此项研判的依据在于,中国证监会官网最新发布的备案通知书显示,京东集团旗下B2B平台京东工业股份有限公司(JINGDONG Industrials, Inc.)此前搁置的香港公开募股,已获境外发行上市备案,此类备案是中资企业赴海外(主要面向美国及中国香港)上市必须跨越的关键监管门槛。 中国证监会公告显示,京东工业计划发售2.53亿股普通股。公司2023年首次申报赴港上市,去年二度提交申请,今年3月又进行新一轮申报,但申请本月底即将失效,意味年底前公司很可能重新提交申请。 与聚焦消费者市场的国内电商企业不同,专注企业级产品服务的京东工业将为投资者提供差异化标的。相较于面向消费者的B2C模式,企业采购单笔交易规模通常更大。然而,大宗订单往往伴随更薄的利润空间。 京东工业正是典型例证,公司2024年毛利率仅16.2%,显著低于阿里巴巴(BABA.US; 9988.HK)同期的41%和拼多多(PDD.US)截至六月的全年58%的水平。这种差异也有助解释,为何阿里巴巴将其2007年上市的B2B业务“阿里巴巴网络有限公司”最终退市,此前该业务上市五年间股价长期低迷。 尽管如此,凭借庞大业务体量及中国市场规模优势,京东工业仍具相对吸引力。公司在MRO(指非生产原料性质的工业用品)工业品服务(涵盖办公清洁耗材及生产维保工具等)领域稳居行业龙头地位。据3月呈交的上市文件中第三方数据显示,其立足的中国工业品供应链市场规模,2024年达11.4万亿元人民币(约合1.6万亿美元)。 京东工业指出,2024年庞大市场的数字化渗透率仅6.2%,但预计2029年将升至8.2%。伴随数字化进程加速,公司深耕的中国工业供应链科技与服务市场规模,有望实现近10%的年均复合增长,从2024年的7,000亿元增至2029年的1.1万亿元。 虽未在3月的申报文件中披露具体募资目标,但本次IPO获得诸多重量级机构加持,美银、高盛及海通担任承销商,中信证券与瑞银出任财务顾问。据悉,2023年申报时拟募资10亿美元,考虑到当前香港IPO市场热况,若该公司提高募资额度也在意料之中。 重量级机构背书 2017年,京东工业自京东集团拆分,若成功上市将成为继京东集团、京东健康(6618.HK)、京东物流(2618.HK)及德邦股份(603056.SH)后第五家上市公司。京东曾于2020年推动旗下京东科技申报科创板,去年也为旗下产发业务提交类似方案,两项计划均未能成行。 估值方面,京东工业2023年通过3亿美元融资实现67亿美元估值,投资方包括红杉中国及阿布扎比政府主权基金Mubadala。 若此前成功上市,其估值大概率难以维持。然而,当前港股反弹叠加近年最活跃IPO市场窗口期,局面已明显改观。参照全球MRO龙头应用工业技术(AIT.US)与固安捷(GWW.US)当前约25倍市盈率及2.5倍市销率的交易水平,若京东工业适用相同估值倍数,依其2024年销售额及调整后利润测算,公司估值介于40亿至70亿美元之间。 相较于当前多数企业增长乏力甚至营收萎缩的整体环境,京东工业的财务状况相对稳健。其核心优势在于轻资产运营模式,主要采用客户需求归集后向供应商下单的机制,显著降低存货风险。这与京东集团主站B2C模式形成鲜明对比,后者需先行采购商品储备库存,再根据订单向消费者分批发货。 公司在申请文件中称,“该模式下,大量订单实现了供应端直发需求端。我们以轻资产的运营模式,打造了一个可扩展的业务,使我们能够以高效的方式快速扩大规模。” 京东工业的持续经营业务收入从2023年的173亿元增至2024年的204亿元,同比增长18%。虽然增速尚属稳健,但需指出,该增幅已较上一年度23%的水平显著放缓。 公司约94%的营收(去年占比)来自产品销售,其余为服务贡献。但服务对毛利润的贡献率明显更高,去年约占总量三分之一,反映出其毛利率远高于产品销售业务。不利因素是,过去三年服务收入停滞,所有营收增长均依赖产品销售提升,最终拉低整体毛利率。 尽管如此,公司盈利表现仍具相当吸引力,2024年净利润7.62亿元,调整后净利润达11亿元。对投资者而言,京东工业凭借其主导的市场地位,整体上看起来相对有吸引力。这些优势叠加当前港股IPO市场热潮,应可转化为强劲的市场认购需求,但投资者无疑将密切关注其最终定价策略。 欲订阅咏竹坊每周免费通讯,请点击这里

简讯:长风药业招股集资6亿港元

药物生产商长风药业股份有限公司(2652.HK)周五发售4,119.8万股,一成作公开发售,每股售价14.75港元,集资总额约6.01亿港元。招股于10月2日截止,并于10月8日挂牌。 集资所得的40%用于吸入制剂候选产品的持续研发,及为临床开发提供资金;约20%用于为多个管线计划及技术的临床前研发提供资金;30%用于设备采购及生产管理系统的扩张与升级。 长风药业去年收入升9%至近6.1亿元人民币,录得2,109万元盈利,按年下跌33.5%。今年首季度的收入1.36亿元,按年跌2.7%;期内录得1,281.5万元盈利,按年升逾倍。 刘智恒 欲订阅咏竹坊每周免费通讯,请点击这里