data becomes a strategic asset in the AI era

数据资料成为AI时代的战略资产,内容生产者对此应该有更深刻的体会

  

李世达

在全球人工智能竞赛火热推进的当下,人们逐渐体认到,大模型进入推理阶段后,数据并不就此失去价值,反而因为动态知识需求而更显关键。“最后一公里”的语料质量与多样性,往往决定了一个大模型的优劣。

这或许是脸书母公司Meta(META.US)斥资143亿美元,战略性投资AI数据公司Scale AI的主要考量。

Scale AI是一家数据标注与数据清洗的公司,专为AI模型训练提供高品质语料。数据标注指为图片、文本或语音资料加上标签,例如标示出图片中的行人或文章的倾向等;数据清洗则是删除错误、重复、无效或不相关资料,提升资料准确性与一致性。Scale AI以海量人力与自动化流程,为OpenAI、Meta、Google等科技巨头提供高质量、结构清晰的数据资料。

优质数据的价值还有另一个例子。美国媒体《纽约时报》宣布,已与科技巨头亚马逊(AMZN.US)签署新闻内容授权协议,将其经过编辑和事实查证的新闻内容投入大模型训练。而此前还有美联社对OpenAI的授权也是如此。

虽然表面上是“新闻内容的授权”,但实际上也体现了“内容即资料、资料即服务”的逻辑,不仅反映了媒体对自身内容价值的再认识,也揭示了AI团队对高质量语料的迫切需求。

相比之下,中文世界面临公开可用资源占比极低、专业标注与文化典籍难以大规模数字化等挑战,更凸显了中文语料在本土化AI发展中的关键地位。

据阿里研究院发布的《大模型训练数据白皮书》指出,全球可爬取网络文本中,英文占比高达59.8%,中文仅1.3%,一旦放大至需要大规模预训练的场景,中文语料显得尤为稀缺。同时,维基百科作为常用开放语料,英文维基拥有超过700万篇条目,而中文维基则约为150万篇,二者相差超过三倍。

中文语料相对稀缺

在这种明显不均的环境中,中文大模型若缺乏足量的公开预训练语料,其基础语言理解与生成能力就会明显落后于英文对应系统,使得中文AI在理解表达及文化传承方面可能“喝洋墨水”过多、出现“水土不服”现象。

当然,中国官方机构早已认识到此一问题,纷纷采取行动。人民网、新华社等官方平台积极构建“价值观对齐”的语料库,向AI开发方提供经过审核的新闻、评论与政策解读等高质量文本,为模型价值观安全层面的训练奠定基础。

中国官方亦透过如“网信研究大模型”等项目,聚焦政策法规与官媒语料建设,强化价值观对齐。

可以想像,对齐中国价值观是中国AI大语言模型的“基本功”。在中文世界,虽尚未有类似Scale AI规模如此大的公司,但已有多家企业与机构投入数据产业链建设,例如北京爱数智慧、云测数据、科大讯飞(002230.SZ)与海天瑞声(688787.SH)等公司提供大规模标注与清洗服务。

市调机构IDC的数据显示,中国AI训练数据集市场规模在2023年约2.6亿美元,预计到2032年将增至约23.2亿美元,复合年增长率约27.4%。

AI模型的进步,最终取决于它“吃进什么样的内容”。当新闻、评论、学术论文与文化资产被结构化使用时,其价值从即时资讯转化为可商用的数据资产。内容生产者不只是“提供素材”的角色,而是数据服务供应链的一环,包括新闻媒体在内的内容生产者,或许都应该认真思考自身的附加价值。

李世达,咏竹坊编辑。他的联络方式:shihtalee@thebambooworks.com

欲订阅咏竹坊每周免费通讯,请点击这里

新闻

简讯:六福集团首季零售止跌回升

珠宝零售商六福集团(国际)有限公司(0590.HK)周四公布,截至6月底止三个月的第一季度整体零售值及零售收入扭转跌势至双位数增长,分别按年升13%及14%。整体同店销售亦止跌回升5% 港澳及海外市场零售值按年升9%,零售收入升8%,同店销售升3%,全部都止跌回升。其中,香港同店销售升1%,澳门跌1%,海外市场升20%。至于内地市场零售值、零售收入、同店销售,分别升14%、31%、19%。 公司称,虽然季内国际平均金价升约四成,按重量计价的黄金产品同店销售仍大幅改善至持平。定价首饰产品的同店销售本季进一步提升19%。截至6月底,集团全球有3162间店铺,上季净减少125间,主要是内地品牌店减少。公司对内地中长线业务前景审慎乐观,计划今年度在海外净增加约20间店铺。 六福集团周五股价高开0.7%,至中午休市报22港元,升3.04%。 李世达 欲订阅咏竹坊每周免费通讯,请点击这里 

简讯:受惠新游戏上线 创梦天地扭亏为盈

网游企业创梦天地科技控股有限公司(1119.HK)周四披露,受惠于新产品上线推动,预计2025年上半年业绩将同比扭亏为盈。 公司预计今年前六个月将实现净利润2,000万元至5,000万元,较2024年同期1.09亿元的亏损显著改善。报告期内经营活动现金流达3,000万元至6,000万元,上年同期则为3,400万元。 公告明确指出:“净利润扭亏为盈主要得益于集团自研产品和新产品的上线,带来集团利润率的提升。” 2024年公司营收同比下滑21%至15.1亿元,净亏损则从2023年的4.53亿元同比扩大至5.29亿元。 创梦天地股价周五开盘上涨9.6%至0.91港元,随后持续上涨,早盘上涨20%。周四收盘时,该股年內已下跌68%。 阳歌 欲订阅咏竹坊每周免费通讯,请点击这里
Klook prepares to list in US

Klook上市弃港选美 拟筹5亿美元势成集资王

据媒体报道,这家聚焦年轻消费群体的中国香港在线旅行社,正计划短期提交纽约上市申请,拟筹资最多5亿美元 重点: Klook正筹备首次公开募股(IPO),有望成为自霸王茶姬融资4.75亿美元以来,今年中资企业在美最大规模的IPO 此次上市可能使这家立足中国香港、专注年轻客群的在线旅行社估值突破30亿美元   阳歌 谁说中资企业不再谋求赴美上市? 彭博社周四报道,香港在线旅行社Klook Travel(客路旅行)正筹备申请赴美上市,募资规模或达5亿美元。若顺利成行,该交易将打破高端茶饮连锁霸王茶姬4月募资约4.75亿美元的纪录,成为今年中国企业在华尔街最大规模IPO。 公司名称源于“keep looking”的客路,虽未就融资计划置评,但其健谈的联合创始人曾透露,考虑在香港或纽约上市,且随时可推进。包括彭博最新报道在内的多方信源显示,公司拟募资3亿至5亿美元。 据彭博报道,公司正与财务顾问推进合作,可能很快向美国证券交易委员会以保密方式提交上市申请。在中资企业日益弃美赴港的背景下,Klook此番赴美IPO堪称逆势之举。 Klook完全具备操盘大规模募资的资质,公司三位联合创始人中两位拥有投行履历,其投资方涵盖多家全球顶级机构。更重要的是,创始人身为千禧一代,深谙Z世代等核心客群的消费心理。 这使得Klook有望成为年轻旅行者的时尚新选择,其服务体验超越Booking(BKNG.US)、Expedia(EXPE.US)等传统巨擘及携程(TCOM.US; 9961.HK)、同程旅行(0780.HK)等国内头部平台的固有模式。 Klook此前披露的财务信息有限,仅确认2023年营收突破30亿美元,且在疫情三年困局后,借“报复性旅游”浪潮实现盈利。公司业务覆盖美国、中国大陆、中国香港及欧洲、东南亚主要国家、以及印度等全球22个不同市场。 尽管尚未公布区域营收细分数据,但过往报道显示其主营亚洲旅游业务。 虽拟首次公开募股,Klook实为2014年创立的行业老兵。公司的联合创始人王志豪曾在摩根士丹利效力,后与熊小康及曾在花旗银行任职的林照围共同创立Klook。 高盛、软银、红杉中国等顶级机构共同参与投资。公司迄今完成八轮融资,募资逾10亿美元,最近一次是今年2月获得维恩资本(Vitruvian Partners)1亿美元注资。据此前报道,公司2018年疫情前估值已突破10亿美元。 30亿美元估值成色几何? 最新融资后虽未披露估值,但参照其IPO募资目标,及主要国际对手市销率普遍高于1的现实,30亿美元估值具合理性。对标业务形态相近、市销率1.8的Expedia,Klook以2023年30亿美元营收计,估值可达50亿美元以上。 我们认为,Klook深耕年轻旅行群体的差异化定位,构成独特投资价值,该群体更注重旅途体验而非具体目的地。 尽管年轻客群收入较低,但願意为情感满足型体验付费,这特质在中国市场尤为突出。作为Klook核心市场之一,本土消费者在角色扮演、限量潮玩等“谷子经济”领域投入不菲。 Klook深度布局社媒获客,针对欧美用户主攻TikTok、Instagram,中国市场发力抖音和小红书。核心策略是启用关键意见领袖(KOL),公司此前称合作逾20,000名达人,后者通过佣金及赞助旅行获益,其与TikTok的合作更支持用户直接在平台完成预订。 2023年,Klook各平台的全球月均访问量约7,000万人次中,约70%为千禧一代及Z世代。 规模方面,Klook在提及的全球在线旅行社中已居前列。按2023年营收计,约为深耕国内客群且高度依赖腾讯的同程旅行的一倍,相当于龙头携程的半壁江山。但与热衷谈论国际化却鲜少披露海外业绩的携程不同,Klook展现更强的全球多元化特征。 相较全球布局的主要竞品Expedia及Booking(两者2023年营收分别为Klook的逾3倍和6倍),公司规模仍存差距。 本质而言,Klook实为在线旅游领域充满新意的潜力股。总部位于香港赋予其开拓中国市场的独特通道,同时规避了境外消费者对中资背景的顾虑。其年轻化定位与社媒打法构成差异化优势,伴随核心客群年龄增长及消费力提升,未来增长可期。 欲订阅咏竹坊每周免费通讯,请点击这里

简讯:微创机器人中期收入按年大增80%

机器人企业上海微创医疗机器人集团股份有限公司(2252.HK)周四发公告,截至今年6月底止的中期收入,较去年同期的9,924万元,上升70至80%。 收入大升原因是核心产品“图迈腔镜手术机器人”于期内销售强劲增长,上半年新签订单18台。另外“鸿鹄骨科手术机器人”在核心区域的快速覆盖与渗透,销售稳步增长。“R-ONE血管介入手术机器人”获批上市后,需求亦渐上升。 由于收入快速增长,加上集团全方位降本增效提升经营效率,期内经调整净亏损按年收窄40%至1.25亿元。 公司周五开盘升1.3%报18.6港元,年初至今股价已升82%。 刘智恒 欲订阅咏竹坊每周免费通讯,请点击这里