data becomes a strategic asset in the AI era

数据资料成为AI时代的战略资产,内容生产者对此应该有更深刻的体会

  

李世达

在全球人工智能竞赛火热推进的当下,人们逐渐体认到,大模型进入推理阶段后,数据并不就此失去价值,反而因为动态知识需求而更显关键。“最后一公里”的语料质量与多样性,往往决定了一个大模型的优劣。

这或许是脸书母公司Meta(META.US)斥资143亿美元,战略性投资AI数据公司Scale AI的主要考量。

Scale AI是一家数据标注与数据清洗的公司,专为AI模型训练提供高品质语料。数据标注指为图片、文本或语音资料加上标签,例如标示出图片中的行人或文章的倾向等;数据清洗则是删除错误、重复、无效或不相关资料,提升资料准确性与一致性。Scale AI以海量人力与自动化流程,为OpenAI、Meta、Google等科技巨头提供高质量、结构清晰的数据资料。

优质数据的价值还有另一个例子。美国媒体《纽约时报》宣布,已与科技巨头亚马逊(AMZN.US)签署新闻内容授权协议,将其经过编辑和事实查证的新闻内容投入大模型训练。而此前还有美联社对OpenAI的授权也是如此。

虽然表面上是“新闻内容的授权”,但实际上也体现了“内容即资料、资料即服务”的逻辑,不仅反映了媒体对自身内容价值的再认识,也揭示了AI团队对高质量语料的迫切需求。

相比之下,中文世界面临公开可用资源占比极低、专业标注与文化典籍难以大规模数字化等挑战,更凸显了中文语料在本土化AI发展中的关键地位。

据阿里研究院发布的《大模型训练数据白皮书》指出,全球可爬取网络文本中,英文占比高达59.8%,中文仅1.3%,一旦放大至需要大规模预训练的场景,中文语料显得尤为稀缺。同时,维基百科作为常用开放语料,英文维基拥有超过700万篇条目,而中文维基则约为150万篇,二者相差超过三倍。

中文语料相对稀缺

在这种明显不均的环境中,中文大模型若缺乏足量的公开预训练语料,其基础语言理解与生成能力就会明显落后于英文对应系统,使得中文AI在理解表达及文化传承方面可能“喝洋墨水”过多、出现“水土不服”现象。

当然,中国官方机构早已认识到此一问题,纷纷采取行动。人民网、新华社等官方平台积极构建“价值观对齐”的语料库,向AI开发方提供经过审核的新闻、评论与政策解读等高质量文本,为模型价值观安全层面的训练奠定基础。

中国官方亦透过如“网信研究大模型”等项目,聚焦政策法规与官媒语料建设,强化价值观对齐。

可以想像,对齐中国价值观是中国AI大语言模型的“基本功”。在中文世界,虽尚未有类似Scale AI规模如此大的公司,但已有多家企业与机构投入数据产业链建设,例如北京爱数智慧、云测数据、科大讯飞(002230.SZ)与海天瑞声(688787.SH)等公司提供大规模标注与清洗服务。

市调机构IDC的数据显示,中国AI训练数据集市场规模在2023年约2.6亿美元,预计到2032年将增至约23.2亿美元,复合年增长率约27.4%。

AI模型的进步,最终取决于它“吃进什么样的内容”。当新闻、评论、学术论文与文化资产被结构化使用时,其价值从即时资讯转化为可商用的数据资产。内容生产者不只是“提供素材”的角色,而是数据服务供应链的一环,包括新闻媒体在内的内容生产者,或许都应该认真思考自身的附加价值。

李世达,咏竹坊编辑。他的联络方式:shihtalee@thebambooworks.com

欲订阅咏竹坊每周免费通讯,请点击这里

新闻

简讯:Shein首间实体店巴黎开幕 线上平台却面临封禁危机

中国快时尚电商Shein位于法国巴黎BHV Marais百货公司的首间实体店,本月5日正式开幕,然而其线上平台却在法国面临封禁危机。 据财新报道,法国经济、财政及工业、数字主权部同日宣布,政府已启动程序,暂停Shein在法国的线上运营,直至公司证明其所有内容符合当地法规,相关部门须在48小时内完成初步审查。目前Shein已主动暂停其在法国的第三方平台业务,自营业务仍在正常运营。 据法国媒体报道,封禁行动源于Shein平台涉嫌贩售儿童形象性玩偶与违禁武器。巴黎检方同时对Shein、阿里巴巴(BABA.US; 9988.HK)旗下速卖通(AliExpress)、拼多多(PDD,US)旗下Temu,以及美国跨境电商平台Wish等平台展开调查。检方指控这些平台未能有效监控上架商品来源与内容,涉嫌放任违禁品贩卖。 事实上,Shein在巴黎开设实体店的消息传出后,立即遭到当地百货商、服装协会等多方抵制。批评者认为,Shein的快时尚模式与巴黎追求永续与文化价值的时尚理念背道而驰,将破坏本地产业的生态与社会责任形象。巴黎市长伊达尔戈亦公开谴责象征快时尚的Shein入驻BHV,称“这一选择违背了巴黎的生态和社会愿景”。 尽管如此,以Shein为代表的中国跨境电商平台,在法国的表现仍然亮眼。法国时尚学院(IFM)数据显示,2025年上半年,在法国15大时尚零售商榜单上,Shein位列第5位,Temu位列第15位。 李世达 欲订阅咏竹坊每周免费通讯,请点击这里 

简讯:百利天恒启动香港IPO 有望纳入港股通

生物制药企业四川百利天恒药业(2615.HK;688506.SH)于周五启动香港IPO,计划以每股347.50至389港元的价格发行863万股,最高募资额可达33.6亿港元(约合4.32亿美元)。认购将于11月12日截止,港股上市交易日定为11月17日。 公司已在上交所上市,因而其具备纳入港股通的资格——该计划可使内地投资者最早在上市首日即可交易其新挂牌股票。港股通机制允许内地与香港投资者跨境买卖对方市场的股票。 这家专注于抗体偶联药物(ADCs)等创新大分子肿瘤疗法的开发商——其产品被喻为抗癌“生物导弹”——自2023年初登陆科创板以来表现强劲。其股价迄今已累计上涨逾十倍。 百利天恒表示,港股上市将加速其国际化战略布局,包括拓宽融资渠道、快速推进研发管线的全球临床试验及商业化进程。 本次港股发行的基石投资者包括战略合作伙伴百时美施贵宝(BMY.US)等知名企业,以及奥博资本(OrbiMed)、德福资本(GL Capital)、阿多斯资本(Athos Capital)、富国基金(Fullgoal Fund)等头部投资机构。联席保荐人涵盖高盛、摩根大通及中信证券等顶级投行。 余特莉 咏竹坊专注于在美国和香港上市的中国公司的报道,包括赞助内容。欲了解更多信息,包括对个别文章的疑问,请点击这里联系我们。 欲订阅咏竹坊每周免费通讯,请点击这里
Zepp makes wearable products

向小米说“不”的华米 是迷因还是黑马?

入门级可穿戴设备制造商华米科技,第三季度收入增长78.5%,但预计本季度增速将放缓至约40% 重点: 华米科技在截至9月的三个月内,录得连续第二个季度的强劲收入增长,并在经调整后的营运层面实现收支平衡 自从转向发展自有品牌Amazfit、减少对小米依赖后,公司正逐步走出亏损阴霾    阳歌 是被炒作的“迷因股”,还是真有实力的可穿戴市场黑马? 这正是悬在华米科技(ZEPP.US)头上的大问题。自7月以来,随着投资者在全球健身穿戴设备市场的「折价区」中发现这家公司,其股价已暴涨逾九倍。公司于本周二公布最新季度业绩,显示收入强劲增长,旗下Amazfit品牌已在入门级市场找到稳固定位。 虽然有人认为该股过去四个月的暴涨带有高度投机性,类似2021年游戏驿站(GameStop, GME.US)的“迷因股”现象,但从我们的角度来看,这波涨势显得更具持续性。值得指出的是,该股自9月创下多年新高后,其后又回落约40%。 即便经历如此剧烈的涨跌,华米当前的市销率仍仅为3.98倍,约是唯一上市竞争对手佳明(GRMN.US)7.39倍的一半多一点。这显示华米近期股价上升,更可能反映其过去被严重低估,如今只是逐渐被市场重新发现。 有趣的是,这家公司至今仍未受到华尔街分析师的广泛关注。根据Yahoo Finance数据,目前仅有一位分析师追踪华米,而其最新财报电话会议的参与者,多来自规模较小的研究机构,例如Fundamental Research Corp.和Point72 HK。我们预计这种情况可能在明年改变,毕竟在这个快速成长的电子装置细分市场中,能够独立上市的公司并不多。 华米在市场正迅速取得进展,但品牌形象仍有待提升。公司以平价健身手环闻名,功能与同业相似,但价格更具吸引力。最新推出的表款Amazfit T-Rex 3 Pro是第三季度的亮点产品,售价约300美元,远低于佳明同类产品的1,100美元,并在亚马逊上获得相当不错的用户评价。 然而俗话说“一分钱一分货。”在权威科技媒体《Wired》对T-Rex 3 Pro的评论中,记者写道:“几乎每个操作画面、每次尝试更改设定、每次想做最基本的事情,都让我想抓狂。它的糟糕程度几乎令人印象深刻。” 显然,华米在提升产品使用体验、与Garmin和Fitbit等品牌竞争上仍有许多改进空间。不过至少目前为止,其低价策略正强力推动营收增长——公司自今年第二季度起重新恢复增长,并已实现正向现金流,距离多年亏损后重返盈利更近一步。 告别小米 如今的华米,在许多方面都像是这家中国公司的“第二人生”。它最初主要是以授权方式,为智能手机巨头小米(1810.HK)生产可穿戴设备起家。然而,公司很快意识到这类代工业务利润极低,而且高度依赖与小米的合作关系——一旦小米终止授权或另寻其他合作伙伴,业务就可能受到重大冲击。 过去几年,华米已逐步摆脱对小米产品的依赖,如今小米相关产品仅占其总销售额约5%。但这个“断奶”过程颇为艰辛,导致营收急剧下滑,并一度陷入亏损。 华米在截至6月的季度中,终于实现大幅收入增长,受惠于新产品上市并普遍获得好评,收入按年上升46.2%。到了第三季度,增长势头进一步加快,按年大增78.5%,由去年同期的4,250万美元升至7,580万美元。 不过,公司预期这一高速增长将在第四季度放缓——这一季度通常是消费电子制造商的旺季,受圣诞购物季推动。华米预测收入将按年增长约40%,介于 8,200万至8,600万美元之间。…

简讯:汽车之家第三季度盈利微跌1.5%至4.2亿元

汽车交易平台汽车之家(2518.HK ; ATHM.US)周四公布第三季度业绩,收入17.8亿元,与去年同期相若;期内盈利4.2亿元,同比微跌1.5%。 汽车之家首席财务官曾岩表示,因在内容多元化方面取得显著成效,有力推动用户增长。据QuestMobile数据,公司9月移动端日活跃用户达7,656万,同比增长5.1%。另外,得益于新零售业务的强劲贡献,在线营销及其他业务收入实现同比增长32.1%。 公司在第三季度的营业成本为6.46亿元,按年大增58%。公司解释因在下沉市场拓展创新业务,加上股权激励费用上升,产生较高的交易成本。 汽车之家周五平开报48.6港元,公司过去一年股价由高位下跌23%。 刘智恒 欲订阅咏竹坊每周免费通讯,请点击这里