data becomes a strategic asset in the AI era

数据资料成为AI时代的战略资产,内容生产者对此应该有更深刻的体会

  

李世达

在全球人工智能竞赛火热推进的当下,人们逐渐体认到,大模型进入推理阶段后,数据并不就此失去价值,反而因为动态知识需求而更显关键。“最后一公里”的语料质量与多样性,往往决定了一个大模型的优劣。

这或许是脸书母公司Meta(META.US)斥资143亿美元,战略性投资AI数据公司Scale AI的主要考量。

Scale AI是一家数据标注与数据清洗的公司,专为AI模型训练提供高品质语料。数据标注指为图片、文本或语音资料加上标签,例如标示出图片中的行人或文章的倾向等;数据清洗则是删除错误、重复、无效或不相关资料,提升资料准确性与一致性。Scale AI以海量人力与自动化流程,为OpenAI、Meta、Google等科技巨头提供高质量、结构清晰的数据资料。

优质数据的价值还有另一个例子。美国媒体《纽约时报》宣布,已与科技巨头亚马逊(AMZN.US)签署新闻内容授权协议,将其经过编辑和事实查证的新闻内容投入大模型训练。而此前还有美联社对OpenAI的授权也是如此。

虽然表面上是“新闻内容的授权”,但实际上也体现了“内容即资料、资料即服务”的逻辑,不仅反映了媒体对自身内容价值的再认识,也揭示了AI团队对高质量语料的迫切需求。

相比之下,中文世界面临公开可用资源占比极低、专业标注与文化典籍难以大规模数字化等挑战,更凸显了中文语料在本土化AI发展中的关键地位。

据阿里研究院发布的《大模型训练数据白皮书》指出,全球可爬取网络文本中,英文占比高达59.8%,中文仅1.3%,一旦放大至需要大规模预训练的场景,中文语料显得尤为稀缺。同时,维基百科作为常用开放语料,英文维基拥有超过700万篇条目,而中文维基则约为150万篇,二者相差超过三倍。

中文语料相对稀缺

在这种明显不均的环境中,中文大模型若缺乏足量的公开预训练语料,其基础语言理解与生成能力就会明显落后于英文对应系统,使得中文AI在理解表达及文化传承方面可能“喝洋墨水”过多、出现“水土不服”现象。

当然,中国官方机构早已认识到此一问题,纷纷采取行动。人民网、新华社等官方平台积极构建“价值观对齐”的语料库,向AI开发方提供经过审核的新闻、评论与政策解读等高质量文本,为模型价值观安全层面的训练奠定基础。

中国官方亦透过如“网信研究大模型”等项目,聚焦政策法规与官媒语料建设,强化价值观对齐。

可以想像,对齐中国价值观是中国AI大语言模型的“基本功”。在中文世界,虽尚未有类似Scale AI规模如此大的公司,但已有多家企业与机构投入数据产业链建设,例如北京爱数智慧、云测数据、科大讯飞(002230.SZ)与海天瑞声(688787.SH)等公司提供大规模标注与清洗服务。

市调机构IDC的数据显示,中国AI训练数据集市场规模在2023年约2.6亿美元,预计到2032年将增至约23.2亿美元,复合年增长率约27.4%。

AI模型的进步,最终取决于它“吃进什么样的内容”。当新闻、评论、学术论文与文化资产被结构化使用时,其价值从即时资讯转化为可商用的数据资产。内容生产者不只是“提供素材”的角色,而是数据服务供应链的一环,包括新闻媒体在内的内容生产者,或许都应该认真思考自身的附加价值。

李世达,咏竹坊编辑。他的联络方式:shihtalee@thebambooworks.com

欲订阅咏竹坊每周免费通讯,请点击这里

新闻

简讯:中兴通讯拟发行H股可转债 净筹逾35亿元

电信设备制造商中兴通讯股份有限公司(0763.HK; 000063.SZ)周二公布,拟发行35.84亿元(4.99亿美元)零息美元结算的H股可转换债券,拟将发行所得款项净额用于加强公司算力产品研发投入。 可转换债券于2030年8月5日到期,初始转股价为每股H股30.25港元,较H股上日收市价溢价约15.9%,可悉数转换为约1.3亿股H股,相当于扩大后已发行总股本约2.64%。 今年首季,中兴通讯收入按年升7.8%至329.68亿元,纯利则跌10.5%至24.53亿元。 中兴通讯港股周二低开2.8%,至中午收市报25港元,跌4.21%。 李世达 欲订阅咏竹坊每周免费通讯,请点击这里 

简讯:生力啤上半年盈收双升

香港生力啤酒厂有限公司(0236.HK)周一公布,2025年上半年营收同比上升3.2%至3.9亿美元,净利润劲增31.9%达4,960万美元,因中国大陆及菲律宾市场的增长有效对冲了香港地区的业绩下滑。 展望后市,公司表示对核心市场持续增长前景保持“审慎乐观”态度。公司声明称:“尽管香港及华南地区的经济指标显示持续复苏的迹象,我们仍需关注现存的挑战,包括紧缩的金融状况、消费者行为的转变,以及地缘政治不确定性对本地需求与出口表现的影响。” 公司股票周二开盘走高,早盘涨幅达25%,报价1.25港元。年内迄今该股累计上涨约50%。 阳歌 欲订阅咏竹坊每周免费通讯,请点击这里

简讯:雍禾医疗发盈喜 扭亏为盈赚2,500万

医疗机构雍禾医疗集团有限公司(2279.HK)周二发盈喜,截至今年6月底止的中期业绩扭亏为盈,纯利不少于2,500万元,去年同期则亏损1.39亿元。 集团表示,期内集团通过优化门店网络,将资源聚焦核心门店,提升医院运营效率。此外,持续提升自研的连锁医疗管理系统“禾帆”,并融入企业AI知识库引擎。同时,集团通过管理模型重构及营销投放精细管理,显著提升获客转化率及投入产出比。 周二雍禾医疗平开报3.54港元,后股价急跌逾5%,今年以来公司股价升近三倍。 刘智恒 欲订阅咏竹坊每周免费通讯,请点击这里
Yan Palace makes bird's nest products

燕之屋营跌利增 王石代言销售惨淡

中国最大燕窝品牌在营收承压背景下实现盈利复苏,预期今年上半年利润同比增长20%至35% 重点: 燕之屋预计今年前六个月利润将增长20%至35%,同期营收增长近乎停滞或呈负增长态势 销售费用下降、厦门新工厂智能制造升级和工艺改进,共同推高这家燕窝制造商的利润空间   谭英 在经济波动期,中国消费者发现,传统燕窝制品的亲民化转型正降低消费门槛。 厦门燕之屋燕窝产业股份有限公司(1497.HK)上周发布的盈利预告传递出关键信息:继去年利润下滑后,今年上半年盈利强劲反弹。尽管平价产品策略导致营收增长乏力,投资者仍涌入购买公司股票,公告后数日,股价大涨逾7%。 燕之屋预计上半年营收区间为10亿(约合1.398亿美元)至10.6亿元,同比小幅下滑。但利润表现更为亮眼,预计录得7,200万至8,100万元,同比增幅达20%至35%。 盈利改善并非无迹可寻,公司去年年报显示,尽管当年下半年营收开始萎缩,利润在经历上半年断崖式下跌后,于下半年企稳。 新品系列为燕之屋去年注入增长动能。以燕窝为基底、2023年推出的平价食用燕窝粥产品需求旺盛,带动全年新品收入激增63.3%。其他的平价新品包括燕窝肽天然苏打水、整根人参燕窝饮,单价均低于200元(约合30美元)。 传统“纯燕窝”产品线虽仍占去年总营收的87.6%,但较2023年91.3%的占比有所下滑。新品营收占比从2023年的7.2%升至去年的11.3%,其中新拓展的护肤品类贡献1.1%的营收。 燕之屋在洞燕唾液制品领域占据重要地位,后者原料取自东南亚洞穴金丝燕,以唾液粘合树枝筑成的燕巢。 自明朝起,燕窝制品即为中国奢侈滋补品。目前,燕之屋占据14%的国内燕窝市场份额,资产包括位于中国西北甘肃省的全球最大燕窝加工厂,并在220个城市设有700家实体门店。 即便布局新品线与新加坡海外渠道,燕之屋盈利增长仍存变数。去年净利润提升部分得益于管理费用缩减12.4%,这更多源于成本管控而非业务扩张。此外,2023年拖累盈利的IPO相关费用消除,亦推高去年利润。 新晋品牌代言人 除受益于新品矩阵外,燕之屋将盈利回升归因于厦门总部工厂智能制造的升级和工艺改进,带来运营效率提升,并计划在甘肃、上海工厂推行类似改造。 销售费用占营收比重下降也被视为利润改善动因。这一趋势去年已初显成效,去年下半年销售及分销费用增速,从上半年的同比38.5%骤降至2.3%。 为拓展男性及年轻客群,公司持续依赖品牌代言人策略。今年新聘地产巨头万科创始人、前董事会主席王石,后者以攀登珠峰等登山壮举及航海探险闻名。此前,公司签约演员巩俐及中韩偶像团体明星王一博。 新代言人成效尚待检验。当前消费环境承压,消费者正削减此类可选消费支出,燕之屋的高定价策略面临挑战。公司近年启用王石、王一博等男性代言人拓展跨性别、跨代际客群的尝试,同样存在试错风险。 74岁的王石代言首款产品引发市场质疑。燕之屋“总裁碗燕”含六碗燕窝,单盒售价高达3,168元(折合每158克碗装产品528元,约75美元)。尽管有王石背书,销售仍显惨淡。 据媒体报道,该礼盒在天猫旗舰店上市前六日仅售出六盒。与此同时,伴随行业价格承压,燕之屋整体库存风险可能加剧。在经济前景不明朗的背景下,消费者日益缩减非必要开支,中国13,000多家燕窝企业正竞相降价,即食燕窝单价已低至每45克碗装产品20元。 因燕窝属自然资源,企业多通过价格竞争与产品创新实现差异化。未上市竞争对手小仙炖,凭借鲜炖燕窝品类取得成功,连续八年蝉联销冠。但据中国媒体近期报道,即便小仙炖也面临经营压力,被迫取消奖金福利、裁员并下调业绩目标。 尽管23倍市盈率表现强劲且分红优厚,燕之屋看似优势显著,但鉴于产品赛道局限、溢价策略及白热化竞争,公司需付出更多努力维系投资者信心。其疲软的营收增速引发担忧,或是当前股价较2023年发行价折价约10%的一大诱因。 欲订阅咏竹坊每周免费通讯,请点击这里