data becomes a strategic asset in the AI era

数据为王:内容生产者正在重新定位

数据资料成为AI时代的战略资产,内容生产者对此应该有更深刻的体会    李世达 在全球人工智能竞赛火热推进的当下,人们逐渐体认到,大模型进入推理阶段后,数据并不就此失去价值,反而因为动态知识需求而更显关键。“最后一公里”的语料质量与多样性,往往决定了一个大模型的优劣。 这或许是脸书母公司Meta(META.US)斥资143亿美元,战略性投资AI数据公司Scale AI的主要考量。 Scale AI是一家数据标注与数据清洗的公司,专为AI模型训练提供高品质语料。数据标注指为图片、文本或语音资料加上标签,例如标示出图片中的行人或文章的倾向等;数据清洗则是删除错误、重复、无效或不相关资料,提升资料准确性与一致性。Scale AI以海量人力与自动化流程,为OpenAI、Meta、Google等科技巨头提供高质量、结构清晰的数据资料。 优质数据的价值还有另一个例子。美国媒体《纽约时报》宣布,已与科技巨头亚马逊(AMZN.US)签署新闻内容授权协议,将其经过编辑和事实查证的新闻内容投入大模型训练。而此前还有美联社对OpenAI的授权也是如此。 虽然表面上是“新闻内容的授权”,但实际上也体现了“内容即资料、资料即服务”的逻辑,不仅反映了媒体对自身内容价值的再认识,也揭示了AI团队对高质量语料的迫切需求。 相比之下,中文世界面临公开可用资源占比极低、专业标注与文化典籍难以大规模数字化等挑战,更凸显了中文语料在本土化AI发展中的关键地位。 据阿里研究院发布的《大模型训练数据白皮书》指出,全球可爬取网络文本中,英文占比高达59.8%,中文仅1.3%,一旦放大至需要大规模预训练的场景,中文语料显得尤为稀缺。同时,维基百科作为常用开放语料,英文维基拥有超过700万篇条目,而中文维基则约为150万篇,二者相差超过三倍。 中文语料相对稀缺 在这种明显不均的环境中,中文大模型若缺乏足量的公开预训练语料,其基础语言理解与生成能力就会明显落后于英文对应系统,使得中文AI在理解表达及文化传承方面可能“喝洋墨水”过多、出现“水土不服”现象。 当然,中国官方机构早已认识到此一问题,纷纷采取行动。人民网、新华社等官方平台积极构建“价值观对齐”的语料库,向AI开发方提供经过审核的新闻、评论与政策解读等高质量文本,为模型价值观安全层面的训练奠定基础。 中国官方亦透过如“网信研究大模型”等项目,聚焦政策法规与官媒语料建设,强化价值观对齐。 可以想像,对齐中国价值观是中国AI大语言模型的“基本功”。在中文世界,虽尚未有类似Scale AI规模如此大的公司,但已有多家企业与机构投入数据产业链建设,例如北京爱数智慧、云测数据、科大讯飞(002230.SZ)与海天瑞声(688787.SH)等公司提供大规模标注与清洗服务。 市调机构IDC的数据显示,中国AI训练数据集市场规模在2023年约2.6亿美元,预计到2032年将增至约23.2亿美元,复合年增长率约27.4%。 AI模型的进步,最终取决于它“吃进什么样的内容”。当新闻、评论、学术论文与文化资产被结构化使用时,其价值从即时资讯转化为可商用的数据资产。内容生产者不只是“提供素材”的角色,而是数据服务供应链的一环,包括新闻媒体在内的内容生产者,或许都应该认真思考自身的附加价值。 李世达,咏竹坊编辑。他的联络方式:shihtalee@thebambooworks.com 欲订阅咏竹坊每周免费通讯,请点击这里
Tianju Dihe makes APIs

天时地利配合 天聚地合盈收双报捷

得益于数据传输服务需求增长,这家低调的公司去年实现两位数的强劲利润增长 重点: 天聚地合表示,得益于收入增长稳健,去年净利润增长高达51% 随着中国数字经济在政府优惠政策的推动下扩张,对该公司服务的需求上升 梁武仁 天聚地合(苏州)科技股份有限公司(2479.HK)这个名字算不上朗朗上口。但这家低调的公司乐于留在幕后,享受数据传输服务驱动强劲的利润增长,在市场看好比它更高调的中国科技公司的当下,公司发展迅速,因为其中一些科技公司是它的关键客户。 天聚地合在上周五提交的一份文件中表示,预计去年净利润介乎于5,000万元(690万美元)至5,300万元,较2023年增长43%至51%,是公司自去年6月在香港上市以来的首份年度业绩报告。公告发布后,天聚地合的股票在周一上涨2.7%。 公司在公告中没有提供太多细节,只是将盈利增长归因于收入大幅增长,尤其是核心的应用程序编程接口(API)业务。但公司去年8月发布的年中报告,有助解释利润强劲增长的原因。 去年上半年,天聚地合收入同比增长48%至2.59亿元,毛利润更是增长62%,达到5,600万元,表明公司利润率有所提高。扣除上市费用后,公司上半年净利润总计为2,000万元,比上年同期增长42%。 天聚地合的大部分收入来自促进数据交换的API服务。API本质上是一种协议,让两个应用程序能够相互“对话”。比如,移动应用程序的用户要查天气情况,该应用程序会通过API向相关数据源发送请求。然后,数据源处理请求、检索信息并通过API将其发回给移动应用程序。 处理此类查询的API是天聚地合最大的收入来源,其中最受欢迎的是用来根据姓名、手机号码和身份证号码核验身份的API。天聚地合的客户还会在短信通知服务以及手机充值中使用API​​。 截至去年6月底,天聚地合拥有400多个专有API,其客户包括腾讯和阿里巴巴等互联网巨头,以及中国三大无线运营商。 天聚地合还于2020年开始提供数据管理服务,去年上半年这一块约占其收入的13%。但到2024年底,这个比例可能要大得多,因为公司通常在每年第四季度,按项目完成这些服务并在那时确认收入。 政策支持 尽管中国经济放缓使得许多公司的增长遇阻,但天聚地合却逆势而上,成为一个罕见的例外。事实上,这家公司有很多有利条件。首先,中国的数字经济在整体经济增速放缓的大背景下,依然发展迅速。数字经济从本质上来说,涵盖了所有利用数据和信息技术,进行资源分配和生产的商业活动。近来,这种数字化转型,已成为中国整体经济增长的关键驱动力之一,缓解了因消费需求下滑导致的整体经济放缓影响。 据天聚地合去年的招股说明书称,中国的数字经济在2022年增长了约10%。需要提醒的是,2022年为防控新冠疫情,中国各地仍普遍实施封控措施。作为全球第二大经济体,中国那一年仅增长3%。因此,在这种情况下10%的增长率显得相当可观。 官方数据显示,2023年数字经济核心产业增加值占GDP比重达10%。这一成就意义重大,因为这一里程碑比政府设定的目标提前了两年实现。 而北京方面制定这样一个目标,这个事实本身就意味着,政府已准备好为数字经济提供政策支持。根据中国最新的数字经济发展五年规划,中国希望通过更好地利用数据资源,提升在战略技术领域的能力,并实现供应链的数字化。 这样的政策导向,为天聚地合的发展创造了沃土,尤其是在北京采取措施,让公众能够获取非敏感数据的情况下。中国政府还提出建立一种机制,共享公共机构的数据,如企业注册、公共卫生、交通和天气等。这些举措应该会增加对数据交换的需求,而这正是天聚地合的主要专业领域。 多年来,中国监管机构一直对大型科技公司,在数据保护方面的做法严加监管,导致对新技术的投资减少,同时投资者对该群体的信心也有所减弱。但最近,随着人工智能初创公司DeepSeek的崛起,以及习近平主席对科技企业及其在中国经济中的重要作用的新认可,市场情绪明显好转。 这一转变很可能反映决策者们,认识到国内科技行业的发展对中国经济增长至关重要。面对海外风险,如与美国和欧洲的贸易紧张局势可能会抑制出口,而出口是中国最重要的经济引擎之一,在这情况下,转变的势头正在不断增强。这应该会对包括天聚地合在内的中国数字经济企业起到推动作用。 自上市以来,天聚地合的股价已上涨了36%,市销率为7倍,是具有风向标意义的科技巨头阿里巴巴2.5倍市销率的两倍,不过与腾讯的7.27倍大致相当。考虑到公司在中国当前有利于科技公司发展的环境下的增长潜力,目前的估值可能是合理的,如果公司能继续保持两位数的强劲利润和收入增长,其估值还有进一步上升的空间。 欲订阅咏竹坊每周免费通讯,请点击这里