data becomes a strategic asset in the AI era

数据资料成为AI时代的战略资产,内容生产者对此应该有更深刻的体会

  

李世达

在全球人工智能竞赛火热推进的当下,人们逐渐体认到,大模型进入推理阶段后,数据并不就此失去价值,反而因为动态知识需求而更显关键。“最后一公里”的语料质量与多样性,往往决定了一个大模型的优劣。

这或许是脸书母公司Meta(META.US)斥资143亿美元,战略性投资AI数据公司Scale AI的主要考量。

Scale AI是一家数据标注与数据清洗的公司,专为AI模型训练提供高品质语料。数据标注指为图片、文本或语音资料加上标签,例如标示出图片中的行人或文章的倾向等;数据清洗则是删除错误、重复、无效或不相关资料,提升资料准确性与一致性。Scale AI以海量人力与自动化流程,为OpenAI、Meta、Google等科技巨头提供高质量、结构清晰的数据资料。

优质数据的价值还有另一个例子。美国媒体《纽约时报》宣布,已与科技巨头亚马逊(AMZN.US)签署新闻内容授权协议,将其经过编辑和事实查证的新闻内容投入大模型训练。而此前还有美联社对OpenAI的授权也是如此。

虽然表面上是“新闻内容的授权”,但实际上也体现了“内容即资料、资料即服务”的逻辑,不仅反映了媒体对自身内容价值的再认识,也揭示了AI团队对高质量语料的迫切需求。

相比之下,中文世界面临公开可用资源占比极低、专业标注与文化典籍难以大规模数字化等挑战,更凸显了中文语料在本土化AI发展中的关键地位。

据阿里研究院发布的《大模型训练数据白皮书》指出,全球可爬取网络文本中,英文占比高达59.8%,中文仅1.3%,一旦放大至需要大规模预训练的场景,中文语料显得尤为稀缺。同时,维基百科作为常用开放语料,英文维基拥有超过700万篇条目,而中文维基则约为150万篇,二者相差超过三倍。

中文语料相对稀缺

在这种明显不均的环境中,中文大模型若缺乏足量的公开预训练语料,其基础语言理解与生成能力就会明显落后于英文对应系统,使得中文AI在理解表达及文化传承方面可能“喝洋墨水”过多、出现“水土不服”现象。

当然,中国官方机构早已认识到此一问题,纷纷采取行动。人民网、新华社等官方平台积极构建“价值观对齐”的语料库,向AI开发方提供经过审核的新闻、评论与政策解读等高质量文本,为模型价值观安全层面的训练奠定基础。

中国官方亦透过如“网信研究大模型”等项目,聚焦政策法规与官媒语料建设,强化价值观对齐。

可以想像,对齐中国价值观是中国AI大语言模型的“基本功”。在中文世界,虽尚未有类似Scale AI规模如此大的公司,但已有多家企业与机构投入数据产业链建设,例如北京爱数智慧、云测数据、科大讯飞(002230.SZ)与海天瑞声(688787.SH)等公司提供大规模标注与清洗服务。

市调机构IDC的数据显示,中国AI训练数据集市场规模在2023年约2.6亿美元,预计到2032年将增至约23.2亿美元,复合年增长率约27.4%。

AI模型的进步,最终取决于它“吃进什么样的内容”。当新闻、评论、学术论文与文化资产被结构化使用时,其价值从即时资讯转化为可商用的数据资产。内容生产者不只是“提供素材”的角色,而是数据服务供应链的一环,包括新闻媒体在内的内容生产者,或许都应该认真思考自身的附加价值。

李世达,咏竹坊编辑。他的联络方式:shihtalee@thebambooworks.com

欲订阅咏竹坊每周免费通讯,请点击这里

新闻

简讯:大金重工港股首挂收平

海上风电装备供应商大金重工股份有限公司(1081.HK; 002487.SZ)周五在港股挂牌上市,早盤走低,其后收复失地,平盘收市,报66.4港元。 公司公布,此次全球发售1亿股,每股发售价66.40港元,净筹约64.65亿港元。其中,香港公开发售获133.39倍超购,国际发售获9.68倍超购。 大金重工成立于2003年,主力提供风电基础装备“建造+运输+交付”一站式解决方案,于2010年在深交所上市,成为中国A股首家风电塔桩上市公司。 据弗若斯特沙利文资料,以2025年上半年单桩销售金额计,大金重工是欧洲市场排名第一的海上风电基础装备供应商,市场份额29.1%。集团是亚太地区唯一向欧洲批量交付单桩的供应商。 公司称,集资所得款项中,55%将用于深远海综合解决方案升级;20%用于欧洲总装基地投资及建设;10%用于全資擁有的全球研發中心,其餘資金用於海外市場拓展與一般營運用途。 李世达 欲订阅咏竹坊每周免费通讯,请点击这里 

简讯:富途旗下Moomoo与Kalshi达成合作协议

在线股票经纪商富途控股有限公司(FUTU.US)旗下英文品牌子公司Moomoo Financial Inc.周四宣布,已与全球最大预测市场运营商Kalshi达成合作,为Moomoo用户接入Kalshi渠道。 根据协议,Moomoo用户将可通过受美国商品期货交易委员会(CTFC)监管的交易所,就重大经济、政治和文化事件的合约进行交易。Moomoo表示:“此次上线进一步强化了Moomoo不断演进的产品生态体系,也体现了公司更宏大愿景——为新兴金融产品和资产类别提供现代化的市场准入渠道。” 公告发布两周前,富途因未持经纪牌照而向中国大陆用户提供股票交易服务,被中国证监会罚款。根据当时公告,富途必须逐步退出其余下的中国内地业务,截至今年3月底,该部分业务占其资金账户总数约13%。 富途股价周四下跌0.5%,收于95.78美元。自5月21日,公司公布中国证监会的规限后,该股已累计下跌约23%。 阳歌 欲订阅咏竹坊每周免费通讯,请点击这里
Daqo gets into power equipment

多晶硅寒冬未散 大全新能源押注AI电力基建

多晶硅生产商大全新能源将与昆山市政府合作,投资60亿元兴建生产基地,制造供AI数据中心使用的电力设备 重点: 大全新能源将与昆山经济技术开发区合作,投资60亿元建设生产基地,生产AI数据中心所需的电力设备 此举距离徐翔从父亲手中接掌公司仅三年,也意味着公司重新回到以电力设备制造起家的业务根基    阳歌 中国历史上从不缺乏子承父业的故事,不少企业家二代都试图超越父辈打造的商业帝国,但结果往往喜忧参半。如今,这样的故事似乎正在大全新能源股份有限公司(DQ.US;688303.SH)上演。该公司是全球主要多晶硅生产商之一,而多晶硅正是制造太阳能板的核心原材料,太阳能发电也正迅速成为全球最重要的清洁能源来源之一。 这是我们对大全新能源最新动向的判断。公司周四宣布一项重大且颇为特殊的战略转型,将进军未来AI数据中心所需的电力基础设施制造领域。近年来,AI数据中心突然成为开发商与投资人追逐的热门赛道,市场普遍押注,随着人工智能应用快速普及,对庞大算力与电力的需求将同步激增。 这项重大转型的推手,是现年50多岁的徐翔。2023年8月,他接任大全新能源董事长兼首席执行官,从现年80多岁的创办人徐广福手中接过董事长职位,而徐广福正是他的父亲。在此之前,CEO一职由职业经理人张龙根担任长达五年。 与徐翔一同进入公司权力核心的,还有其妹妹徐晓宇。她于2023年5月加入大全新能源担任投资者关系主管。毫不意外地,徐晓宇在公司内迅速晋升,加入半年后便获委任为董事,并于2024年10月升任副首席执行官。 这对兄妹档的高层组合看来颇具互补性。徐翔显然是在中国教育体系下成长,且至少自2000年起便已在大全新能源任职,意味着他很可能早已被培养为接班人。相比之下,徐晓宇加入公司时间较短,但拥有更鲜明的国际背景,持有宾夕法尼亚大学沃顿商学院金融MBA学位,以及加州大学伯克利分校学士学位。 了解这段家族背景后,再来看这对兄妹主导的战略转型。根据规划,大全新能源将在昆山经济技术开发区设立新的制造基地。从地理位置来看,昆山与大全新能源过去主要位于新疆和内蒙古等中国内陆地区的多晶硅生产基地形成鲜明对比。相较于较偏远、发展程度较低的西部地区,昆山紧邻中国金融中心上海,也是全国最富裕的城市群之一。 根据公告,双方合作将聚焦AI数据中心的新一代能源解决方案及相关设备,包括储能系统、固态变压器、固态断路器以及固态电池等产品。整个项目将分两期建设,总投资约60亿元(约8.86亿美元),首期投资额约21亿元。 徐翔表示:“凭借我们及关联企业在变压器和断路器技术领域深厚的专业积累与成熟的技术能力,我们有充分优势把握这一庞大的增长机遇。”他补充道:“此次投资协议是公司推动产品组合多元化战略的重要基石,也将有助于把握全球能源转型带来的巨大市场机会。” 死猫弹? 乍看之下,投资人对这项看似重大的消息反应相当正面。消息公布后,大全新能源股价周四上涨5.1%。然而,这波反弹也颇有“死猫反弹”的味道,因为该股今年以来仍累计下跌43%。过去两至三年间,大全新能源及同业大举扩产,导致全球多晶硅市场供应严重过剩,公司也因此持续承受压力。 大全新能源正是这波扩产潮的典型代表,过去三年间,公司斥资177亿元在内蒙古建设新生产基地,将年产能由7.5万吨大幅提升四倍至目前的30万吨。随着整个行业产能急剧膨胀,多晶硅价格崩跌,大全新能源及大部分同业相继陷入亏损。今年第一季度,大全新能源录得8,840万美元净亏损。 去年不少市场人士原本期待行业复苏,当时中国政府鼓励企业淘汰老旧且效率较低的产能,并推动大型企业整合部分中小厂商,组建新的产业平台。然而,相关进展远较市场预期缓慢,目前大多数企业生产多晶硅的成本仍高于产品售价。 这也让我们回到大全新能源最新的转型计划。对许多人而言,这项决定或许令人摸不着头脑,尤其是那些只熟悉其多晶硅业务的人。毕竟,多晶硅一直是这家纽约上市公司的核心资产。但事实上,大全新能源的历史根源其实来自电力设备产业。其未上市母公司大全集团目前业务涵盖中低压电气设备、变压器及开关设备等领域。相关业务主要由南京大全变压器有限公司及镇江大全电力变压器有限公司等附属公司经营,而这些资产并不属于纽约上市的大全新能源。 这显示大全确实具备生产相关电力设备所需的技术与经验。更重要的是,虽然新项目总投资额达60亿元,金额并不算小,但相比此前177亿元的多晶硅扩产计划,仍属相对温和。 根据公司最新季度报告,截至今年3月底,大全新能源拥有约20亿美元可轻易转换为现金的资产,因此具备充足财力推动这项新投资。此外,大全并不需要独自承担全部资金支出。财力雄厚的昆山市政府几乎可以确定将承担其中相当大的一部分成本。 总体而言,徐翔这项决策,很可能也吸纳了父亲徐广福及妹妹徐晓宇的意见,看来是一项相对审慎的多元化布局,希望降低大全新能源对多晶硅产业的依赖。毕竟,即使在景气最好的时候,多晶硅行业本身仍具有高度周期性。然而,瞄准这些新商机的企业并不只有大全一家,尤其是在储能领域。最终的结果或许是,大全成功摆脱了一个供应过剩的产业,却又踏入另一个同样可能供过于求的市场。 欲订阅咏竹坊每周免费通讯,请点击这里

简讯:溜溜梅招股募资5亿港元

生产及销售梅子产品的溜溜梅股份有限公司(6658.HK)周五公开招股,发售1,146.41万股,每股43.58港元,募资约5亿港元,每手100股,申购门槛4,401.96港元,于6月10日截止及15日挂牌。 过去三年,公司收入为13.2亿元、16.16亿元及17.1亿元;期内利润分别为9,920万元、1.477亿元及1.82亿元。 募资所得约61%将用于未来三年扩大产能,约21%用于提升品牌知名度,约8%用于研发,余下10%作一般营运资金。 刘智恒 欲订阅咏竹坊每周免费通讯,请点击这里