从140万亿到无限:词元如何重塑智能经济底层逻辑
2023年初,我第一次在技术研讨会上听到“词元”这个词。彼时,行业讨论的焦点还是参数规模、算力成本,词元——这个大模型处理的最小信息单元——尚未进入主流视野。两年后的今天,中国日均词元调用量突破140万亿,两年增长超千倍。回望这段技术演进之路,我愈发意识到:词元不仅仅是一个计量单位,它正在成为智能时代的“水电煤”。
词元的本质:智能经济的最小计量单元
大模型的本质是一套复杂的数学运算系统,它无法像人类一样直接读懂文字、听懂声音、看懂画面。词元,就是这套系统用来理解世界的“方言”。文字词元像乐高积木,一个汉字被拆成一块块词元;音频词元像乐谱上的音符,一段声音被切成极短的时间片段;视频词元像拼图碎片,每一帧画面被切成小方格并考虑时间连续性。在大模型眼里,三种模态的词元完全没有差别——它只觉得自己在处理一串极其复杂的数字序列。
这个看似简单的转换机制,却是智能经济的基石。今年3月,中国人工智能大模型周词元调用量连续3周占据领先地位,成为全球大模型应用活跃度最高的国家之一。
爆发逻辑:三重驱动力叠加
词元调用量爆发性增长,最直接的原因是模型能力提升。每一次模型能力提升,就会解锁更多应用场景,从而使大模型词元调用量进一步激增。以Seedance2.0为例,生成1分钟视频大约消耗超过100万个词元。更关键的是,新的应用形态和商业模式也在驱动大模型词元调用量大幅上涨。
智能体的涌现是这一轮增长的核心引擎。传统单轮问答只需消耗几千词元,而多轮复杂任务调用需要消耗几万词元乃至更多。智能体意味着更长的上下文、更频繁的模型调用、更多轮次的任务拆解,这让词元调用量进入了新的增长通道。
应用图谱:软件开发成为最大需求池
从行业分布看,互联网行业词元调用比例最高,消费电子、金融、新零售和商务服务紧随其后。从场景来看,非结构化信息处理和分析占比最大,教育、内容创作和搜索推荐次之。但最值得关注的是软件开发场景——当前人工智能正从简单写代码转向理解整个项目,不仅能排查错漏、自动优化,甚至能通过智能体自主完成整个开发任务。
代码上下文长、交互轮次多,企业为提升效率的付费意愿较强,这将成为一个巨大的需求增长点。未来三年,软件开发领域的词元调用量预计将保持年均200%以上的增速。
未来展望:让智能像水电一样随取随用
词元具备可计量、锚定算力能耗、跨模态通用结算的特点,使其能够成为连接技术供给与商业需求的结算单位。打个比方:大模型输出的智能好比电,智算中心好比发电厂,电用千瓦时来计量,智能调用就用词元来计费。展望未来的智能社会,人工智能有望成为像水、电一样运转的基础资源,随取随用,用多少买多少。
我国在这一领域具备独特优势:算法创新持续突破,国产大模型通过底层架构优化与全球顶尖技术的代差逐渐缩小;基础设施全球领先,发电供给持续提升、电力成本不断降低,能够有效降低词元调用成本。持续提升大模型推理效率、降低单个词元成本,智能经济的大幕才刚刚拉开。


