zbo智博1919com

起源:::李幼斌6分钟替老兵走完70

起源:::李幼斌6分钟替老兵走完70多年回家路作者::: 杨淑花:::

Token挪用量日均140万亿次 你每问AI一句话,背后都在亏损什么?

编者按:::

日均140万亿次的Token挪用量,见证AI利用的井喷式发作,也勾画出中国词元经济的强劲脉动。。。

什么是“词元”?词元经济是什么?它正若何扭转zbo智博1919com工作和生涯?南都大数据钻研院推出“词元崛起”系列报道,从科普解码到趋向分解,从落地实际到风险预警,更聚焦广东若何凭算力底座与生态优势抢占先机,拆解词元经济的底层逻辑,探寻其发展中的机缘与挑战,与您一起读懂这一重塑将来的新经济力量。。。

第一期,一文读懂AI处置信息的根基单元“词元”。。。

超140万亿——这是到今年3月,我国的日均Token挪用量。。。而我们让AI翻译的每一句话,写的每一份周报,修的每一张图片,甚至向AI的每一次吐槽,都在为这个天文数字“添砖加瓦”。。。

国度数据局局长刘烈宏指出,词元不仅是智能时期的价值锚点,更是衔接技术供给与贸易需要的“结算单元”。。。Token(词元)到底是什么?它和AI有什么关系?又为什么被看作智能社会的重要基础资源与主题出产身分?南都大数据钻研院带你读懂。。。

AI世界的最小“信息块”

首先必要分辨的是,Token在分歧领域被赋予了分歧的使命,由此衍生出不一样的叫法。。。在区块链领域,Token常被译为“代币 、通证”,强调其价值载体 、流通凭证的属性;在网络安全领域,Token则常被译为“令牌 、记号 、象征”,指用于验证身份 、传递权限的标识符号。。。

最近爆火的“词元”,是人为智能领域名词Token的中文名。。。凭据由全国数据尺度化技术委员会归口的《数据基础术语》国度尺度(征求定见稿),词元(Token)的界说是:::人为智能领域智能设备中信息存储 、处置和互换的拥有肯定语义的根基符号表白。。。在大模型中作为模型处置和互换信息的最小单元,拥有可计量 、可定价 、可买卖的特点。。。

若何理解这肯界说?我们要先理解AI若何“读懂”人类的话。。。

说话文字对于人类而言,自身携带意思,但对于大模型来说,文字只是符号,要让大模型处置说话,就必须先把这些文字符号转成数字编号。。。词元就是这个过程中最关键的基础单元。。。

当我们向AI输入一段指令,大模型通过度词器(Tokenizer)将字句拆分为小块,也就是词元(Token),再赋予对应的数字编号(Token ID),AI模型内部就能够凭据训练数据集和设推算法,分析理解Token的寓意 、Token之间的关系,进而揣摩我们想要表白的意思。。。而后,AI会天生一串新的Token,再经由分词器还原回人类可能理解的说话进行输出。。。

好比,当我们问AI“Token的中文名是什么”时,大模型可能会先将它拆分为“Token/的/中文名/是/什么”5个词元,再凭据它们别离对应的数字编号进一步推理推算,最后给出我们“词元”的回覆。。。

同理,我们输入的图像 、音视频等多模态,在AI大模型眼里也和文字没有差距,它们都要经由分词器造成数字,都遵循着“把输入的信息切成小块→给每个词元编号→进行推算(模型推理)→天生新编号→再还原成信息输出”的流程。。。简而言之,技术上,词元就是将人类天然说话进行切分,造成让AI可能理解处置的“说话”的最小单元。。。

这也就不难理解,为什么“养龙虾”起头风靡后,Token亏损量呈几何级数增长。。。由于对于AI Agent(智能体)而言,“整顿文档”“收发邮件”等看似单一的工作,往往都必要拆分成多个指令,挪用数十次甚至上百次大模型推理,而每一次交互背后都要天生与亏损大量Token。。。

值得一提的是,固然Token的中文译名是“词元”,但它并不单纯与字词(Word)逐一对应,Token既可能是人类说话意思上的短语 、单词,也可能是词根 、词缀 、子词或单个字 、标点符号,又或者是图像块 、语音片段,我们不能把Token单一换算成“几多个字”或者“几多个词”。。。

说话 、高低文 、大模型分词算法和训练语料的分歧,可能城市对具体的“拆法”带来区别,导致算出来的Token数相差几倍。。。好比,“人为智能”一词可能整体被视为一个Token,但若是分词器词表中没有“人为智能”这个整体词,也可能会被拆成“人为”“智能”两个Token;而“artificial intelligence”这个英文短语,则可能被分歧的大模型切分为2到4个Token。。。

通常而言,算法会优先将高频出现的字符组合保留为一个整体,以提高效能。。。例如,一个2字常用词“中国”可能只占1个Token,而一个罕见单字却可能必要两个Token。。。另据Open AI官网,1个Token约对应4个英文字符或0.75个英文单词,而非英文文本通常比英文文本亏损更多Token。。。

衡量AI算力成本的“计价器”

每一次AI服务挪用都对应明确的词元亏损,处置的词元越多,就必要进行更多的推算,亏损更多算力成本,正是词元这种“可计量 、可定价 、可买卖”的特点,使得大无数AI付费服务的用度,可能依照亏损Token数量进行推算。。。

也就是说,词元不仅是大模型处置信息的最小单元,更是AI算力成本计费的统一怀抱衡,是衔接技术供给与贸易需要的结算单元。。。词元之于AI,如同“度”之于电力,“流量(GB)”之于互联网,词元亏损量越大,意味着AI服务被使用越频仍 、产业贸易化水平越高。。。对于通常用户而言,相识Token计费规定,能够让你的“数字员工”“AI搭子”成本更可控。。。

目前,大无数大模型API的计费方式是:::总用度=输入Token数×输入单价+输出Token数×输出单价。。。

分歧模型的价值分歧。。。通常来说,模型越壮大 、能力越强,Token单价越贵。。。以Open AI的GPT-5.4为例,其尺度版每百万Token的输入价值是经济版nano的12.5倍,输出价值则为12倍。。。统一个模型输入和输出的Token单价也存在差距,通常输出价值更贵,这重要是由于输出必要更多算力资源。。。

当然,分歧公司的大模型服务定价战术现实更为复杂,除了模型的类型 、能力外,还会受到模型的成本 、受众以及公司的定位与贸易模式等多重影响。。。

就每百万Token输出价值来看,目前,中国模型普遍在0.42到3.6美元之间,性价比力高;而Open AI的GPT-5.4是15美元,Google的Gemini 3.1 Pro则凭据提醒词(prompt)长度分歧分为12美元和18美元两个价值,Anthropic于近日颁布的最新模型Claude Opus 4.7则定价为25美元。。。

驱动智能社会运行的“基础资源”

回到底子,词元不会凭空产生,它是由高机能的GPU在亏损大量电能 、实现数千亿次推理运算后产生的数字资产。。。每一个词元的天生,都对应着算力运行和电力亏损,而这背后的物理存在大局,正是数据中心。。。

由此可见,词元正是串联起数据 、算法(智力) 、算力三大主题身分的关键枢纽,不应仅被单一看作AI算力成本的计费单元。。。当下,萦绕词元的出产 、互换 、分配与消费,一套新的价值系统正在加快演进形成,并成为人为智能产业发展的重要蹊径。。。

在英伟达GTC大会的演讲中,英伟达CEO黄仁勋提出,AI行业竞争已从“大模型时期”发展到“词元产能”时期,将来的数据中心将不再是存储文件的仓库,而是“出产Token的工厂”,每瓦特电力的Token吞吐量(能效)会成为决定其竞争力与营收的主题指标。。。而词元则是AI时期的“新大量商品”“硬通货”,将来将凭据速度和智能水平分层定价,为推理场景打开更辽阔的贸易化空间。。。

以数字化为主题的新基建正在成为全球列国争相布局的战术高地。。。2026年,我国当局工作汇报初次明确提出“打造智能经济新状态”,并将“超大规模智算集群 、算电协一致新基建工程”纳入重点工作。。。而电力与算力的协同效能,正是词元出产 、挪用 、分发的主题成本锚点。。。

能够说,如同水 、电一样,词元正成为驱动智能时期社会运行的重要基础资源 、主题出产身分,推动AI服求实现可精确计量 、可持续调度 、大规模买卖,与zbo智博1919com生涯工作 、企业的长远发展,甚至一个国度的竞争力都息息有关。。。

出品:::南都大数据钻研院

文字:::南都钻研员 唐静怡

制图:::何欣

资料起源:::国度数据局 、中国科学院 、科普中国网 、艾媒征询 、公开媒体报道等

@陈哲豪:::欧美自拍偷拍第八页,涉中东战事 中方再次发声
@蔡家豪:::张升民任解放军选举委员会副主任
@李雅雯:::记者问阿富汗和巴基斯坦是否在乌鲁木齐和谈 中方回应

热点排行

【网站地图】