# Token经济学：AI时代的新货币战争

https://www.youtube.com/watch?v=ppRvzPXGpEw
Translation: zh-CN

[00:00] 在我所在的硅谷有了一种新的炫富方式
  在我所在的硅谷，有了一种新的炫富方式。

[00:03] 每天烧了多少token
  每天烧了多少 token？

[00:04] 这个炫富方式有个新词
  这个炫富方式有个新词。

[00:06] 叫Token-maxxing
  叫 Token-maxxing。

[00:07] 意思是“把token用量拉到极限”
  意思是“把 token 用量拉到极限”。

[00:10] 它变成了公司内外人们攀比的新方式
  它变成了公司内外人们攀比的新方式。

[00:12] 你每天消耗多少token
  你每天消耗多少 token？

[00:14] 你能同时调度多少个agent运行
  你能同时调度多少个 agent 运行？

[00:16] 你的token throughput（吞吐量）有多高
  你的 token throughput（吞吐量）有多高？

[00:18] 这些正在变成衡量一个人
  这些正在变成衡量一个人

[00:20] “有多AI原生”的新指标
  “有多 AI 原生”的新指标。

[00:23] 在全球AI圈的巨头们
  在全球 AI 圈的巨头们

[00:24] 目前正在对此进行一场激烈的辩论
  目前正在对此进行一场激烈的辩论。

[00:27] 公司应该不设限制地鼓励员工们
  公司应该不设限制地鼓励员工们

[00:30] 去使用token吗
  去使用 token 吗？

[00:31] 那位50万年薪的工程师
  那位 50 万年薪的工程师，

[00:33] 年底的时候我会问他
  年底的时候我会问他：

[00:34] 你今年花了多少token
  你今年花了多少 token？

[00:36] 如果那人说只花了5000块的话
  如果那人说只花了 5000 块的话，

[00:38] 我会大发雷霆
  我会大发雷霆。

[00:39] 订阅的token没用完我会很焦虑
  订阅的 token 没用完我会很焦虑。

[00:41] 我们token还花的不够
  我们 token 还花的不够。

[00:44] 而在这场辩论的身后
  而在这场辩论的身后，

[00:45] 是一场围绕token展开的新军备竞赛
  是一场围绕 token 展开的新军备竞赛。

[00:48] 硅谷大厂们为什么在疯狂地卷token用量
  硅谷大厂们为什么在疯狂地卷 token 用量？

[00:51] 这背后到底有没有道理
  这背后到底有没有道理？

[00:53] 大模型公司是怎么给token定价的
  大模型公司是怎么给 token 定价的？

[00:55] 中国模型如何凭借着“物美价廉”
  中国模型如何凭借着“物美价廉”

[00:57] 杀入全球开发者市场
  杀入全球开发者市场？

[00:59] 在OpenRouter（开放路由）上霸榜
  在 OpenRouter（开放路由）上霸榜。

[01:00] “Token套利”的新模式是怎么来赚差价的？
  “代币套利”的新模式是如何赚取差价的？

[01:03] 以及在这所有的背后，一个更大的问题：中国的token出海会不会成为下一个结构性的产业机会？
  以及在这一切的背后，一个更大的问题：中国的代币出海会不会成为下一个结构性的产业机会？

[01:09] 如果上一个时代中国出口的是衬衫，这个时代是电动车，那么下一个时代会是token吗？
  如果上一个时代中国出口的是衬衫，这个时代是电动车，那么下一个时代会是代币吗？

[01:15] Hello，大家好！
  大家好！

[01:16] 欢迎来到《硅谷101》，我是陈茜。
  欢迎来到《硅谷101》，我是陈茜。

[01:18] 这期视频让我们来聊聊AI时代的新货币战争：Token经济学。
  这期视频让我们来聊聊AI时代的新货币战争：代币经济学。

[01:32] 4月初，Meta被爆内部有一个名为“Claudeonomics”的排行榜。
  4月初，Meta被爆出内部有一个名为“Claudeonomics”的排行榜。

[01:34] 这个排行榜汇集了超过85000名Meta员工的AI使用数据，列出了token消耗量最高的前250名“超级用户”。
  这个排行榜汇集了超过85000名Meta员工的AI使用数据，列出了代币消耗量最高的前250名“超级用户”。

[01:44] 在最近一个月，排行榜上的总使用量突破了60万亿token。
  在最近一个月，排行榜上的总使用量突破了60万亿代币。

[01:49] 如果按照Anthropic Opus 4.6的定价，大约每百万token平均15美元来粗略地换算的话，这些token的价值高达约9亿美元。
  如果按照Anthropic Opus 4.6的定价，大约每百万代币平均15美元来粗略换算的话，这些代币的价值高达约9亿美元。

[01:59] 其中排名第一的那位员工……
  其中排名第一的那位员工……

[02:00] 烧掉的token价值高达数百万美元
  烧掉的 token 价值高达数百万美元。

[02:04] 这个消息曝光之后
  这个消息曝光之后，

[02:05] 立马在硅谷引发了一场大辩论
  立马在硅谷引发了一场大辩论。

[02:08] AI创业公司Writer的CEO May Habib
  AI 创业公司 Writer 的 CEO May Habib

[02:10] 直接说这是“生死存亡级别的问题”
  直接说这是“生死存亡级别的问题”。

[02:13] 她自己公司内部
  她自己公司内部

[02:14] 也有一个token消耗排行榜
  也有一个 token 消耗排行榜。

[02:16] 而且她明确地告诉员工
  而且她明确地告诉员工，

[02:18] 她本人就在盯这个数据
  她本人就在盯这个数据。

[02:20] 她认为如果不全力拥抱AI 就会被淘汰
  她认为如果不全力拥抱 AI，就会被淘汰。

[02:23] Uber也很激进
  Uber 也很激进。

[02:24] 目前Uber的后端系统当中
  目前 Uber 的后端系统当中，

[02:26] 11%的新代码更新已经由agent完成
  11% 的新代码更新已经由 agent 完成。

[02:30] 而三个月前这个比例还不到1%
  而三个月前这个比例还不到 1%。

[02:32] Uber CTO的原话很直白
  Uber CTO 的原话很直白，

[02:34] 他说我的愿景是
  他说：“我的愿景是，

[02:36] 把软件工程转型为agent软件工程
  把软件工程转型为 agent 软件工程。”

[02:39] 但是反对Token-maxxing的声音同样尖锐
  但是反对 Token-maxxing 的声音同样尖锐。

[02:42] HubSpot的CEO Yamini Rangan
  HubSpot 的 CEO Yamini Rangan

[02:44] 在LinkedIn上面发了一句被广泛转发的话
  在 LinkedIn 上面发了一句被广泛转发的话，

[02:47] 她说Outcome maxxing大于Token maxxing
  她说：“Outcome maxxing 大于 Token maxxing。”

[02:51] 意思是比起疯狂地消耗token
  意思是，比起疯狂地消耗 token，

[02:53] 不如看看你产出了什么结果
  不如看看你产出了什么结果。

[02:55] 她的话代表了另一种重要观点
  她的话代表了另一种重要观点。

[02:58] 纯粹的token使用量是一个错误的指标
  纯粹的 token 使用量是一个错误的指标。

[03:01] AI软件工程公司 Jellyfish的CEO Andrew Lau说得更直白。
  AI软件工程公司Jellyfish的CEO Andrew Lau说得更直白。

[03:02] 你可以一天到晚刷token。
  你可以一天到晚刷token。

[03:05] 但是得到的结果可能完全不是你想要的。
  但是得到的结果可能完全不是你想要的。

[03:10] 这两派是吵得不可开交。
  这两派是吵得不可开交。

[03:12] 但是更多的中间派似乎还是形成了共识。
  但是更多的中间派似乎还是形成了共识。

[03:15] 他们认为不充分利用AI的公司。
  他们认为不充分利用AI的公司。

[03:17] 会被竞争对手超越并且变得过时。
  会被竞争对手超越并且变得过时。

[03:19] 在这样的信念之下。
  在这样的信念之下。

[03:21] 哪怕排行榜和激励制度不完美。
  哪怕排行榜和激励制度不完美。

[03:23] 哪怕一些AI使用最终被证明是浪费的。
  哪怕一些AI使用最终被证明是浪费的。

[03:26] 大厂创始人和高层们也被卷起来了。
  大厂创始人和高层们也被卷起来了。

[03:29] 认为必须要这样做才能够让公司。
  认为必须要这样做才能够让公司。

[03:31] 转型成为更AI-native（AI原生）的公司。
  转型成为更AI-native（AI原生）的公司。

[03:33] 自OpenClaw爆火以来。
  自OpenClaw爆火以来。

[03:35] 我们看到agent任务烧掉的token量。
  我们看到agent任务烧掉的token量。

[03:37] 是直线上升。
  是直线上升。

[03:38] 科技巨头们可以不顾成本地去烧token。
  科技巨头们可以不顾成本地去烧token。

[03:41] 但是对于创业公司和个人开发者来说。
  但是对于创业公司和个人开发者来说。

[03:43] Token的成本带来的是焦虑。
  Token的成本带来的是焦虑。

[03:46] 你比如像OpenClaw。
  你比如像OpenClaw。

[03:47] 可能跑一个稍微复杂一点的任务。
  可能跑一个稍微复杂一点的任务。

[03:51] 几千万的token量。
  几千万的token量。

[03:54] 都是非常有可能的。
  都是非常有可能的。

[03:56] 如果你是去跑一个最贵的Claude的模型。
  如果你是去跑一个最贵的Claude的模型。

[03:58] 你可能让它做一个很小的事情。
  你可能让它做一个很小的事情。

[04:00] 就要花十几二十刀。
  就要花十几二十刀。

[04:01] 真的是有点贵。
  真的是有点贵。

[04:01] Uber的CTO在接受采访时透露公司2026年的AI预算在开年的几个月内就已经全部用完了。
  Uber的首席技术官在接受采访时透露，公司2026年的AI预算在年初的几个月内就已经全部用完了。

[04:09] 主要是因为工程师们对Claude Code的使用量暴增。
  这主要是因为工程师们对Claude Code的使用量激增。

[04:12] 他的原话是我得重新回去做预算了，因为我以为够用一年的钱已经没了。
  他的原话是：“我得重新回去做预算了，因为我以为够用一年的钱已经没了。”

[04:18] 硅谷知名投资人Chamath Palihapitiya最近也公开抱怨说他投资的一家软件公司，自从团队开始使用AI编程工具之后，运营成本在几个月内翻了三倍多。
  硅谷知名投资人Chamath Palihapitiya最近也公开抱怨说，他投资的一家软件公司，自从团队开始使用AI编程工具之后，运营成本在几个月内翻了三倍多。

[04:28] 按照这个趋势，年化AI支出将达到千万美元级别。
  按照这个趋势，年化AI支出将达到千万美元级别。

[04:32] 而他半开玩笑地说了一句，“感谢VC们掏钱为这场AI盛宴买单”。
  而他半开玩笑地说了一句：“感谢VC们掏钱为这场AI盛宴买单。”

[04:37] 大家可以看到，对于企业来说，特别是软件SaaS行业，AI时代的成本结构跟过去完全不一样了。
  大家可以看到，对于企业来说，特别是软件SaaS行业，AI时代的成本结构跟过去完全不一样了。

[04:44] 以前做一个SaaS产品，研发投入是一次性的。
  以前做一个SaaS产品，研发投入是一次性的。

[04:47] 用户越多，他的边际成本就会越低。
  用户越多，其边际成本就会越低。

[04:50] 这是一门越卖越赚的生意。
  这是一门越卖越赚的生意。

[04:52] 但现在，每个用户的每一次操作背后，都有一笔token账单在跑。
  但现在，每个用户的每一次操作背后，都有一笔token账单在运行。

[04:56] 用户用得越深，功能越智能，你作为产品方，反而要付更多的钱给模型厂商。
  用户用得越深入，功能越智能，你作为产品方，反而要付更多的钱给模型厂商。

[05:02] 这个成本不会像传统软件那样
  This cost will not be like traditional software

[05:05] 摊薄到接近零
  diluted to near zero

[05:06] 它是跟着用量线性增长的
  It grows linearly with usage

[05:09] 这也是为什么token正在变成
  This is also why tokens are becoming

[05:11] AI创业公司最核心的“弹药”
  the core 'ammunition' for AI startups

[05:13] 也有风投基金开始尝试
  Some venture capital funds have also begun to try

[05:15] 直接给被投企业提供token额度
  to directly provide invested companies with token quotas

[05:18] 作为投资的一部分
  as part of the investment

[05:19] 这个逻辑也很简单
  This logic is also very simple

[05:21] 对很多AI创业项目来说
  For many AI startup projects

[05:22] 他拿到钱之后第一件事就是去买token
  the first thing they do after getting money is to buy tokens

[05:25] 那为什么不能直接给token呢
  So why not give tokens directly?

[05:28] 你看顺着这个逻辑来讲
  Look, following this logic

[05:29] 是不是token正在变成一种新的货币
  are tokens becoming a new currency?

[05:33] 那么接下来我们就来讲讲
  Next, let's talk about

[05:34] Token到底是如何定价的
  how tokens are priced

[05:39] Token的定价是怎么算的
  How is the pricing of tokens calculated?

[05:41] 这个问题的答案
  The answer to this question

[05:43] 远不是一个“单价乘以数量”那么简单
  is far from as simple as 'unit price times quantity'

[05:46] 我们以一次最简单的对话交互为例
  Let's take the simplest dialogue interaction as an example

[05:49] 你的账单上
  On your bill

[05:49] 至少有三种不同价格的token在运转
  there are at least three different priced tokens in operation

[05:52] 第一是Input token（输入token）
  First are Input tokens

[05:54] 也就是你发给模型的内容
  which is the content you send to the model

[05:56] 第二是Cached input token
  Second are Cached input tokens

[05:58] 被缓存的输入token
  cached input tokens

[06:00] 意思是如果某些prompt、上下文
  meaning if certain prompts, contexts

[06:02] 或者文件内容之前已经被模型系统缓存过
  or file content has been cached by the model system before

[06:06] 再次调用的时候，这部分token的价格会更便宜。
  当再次调用时，这部分token的价格会更便宜。

[06:10] 第三是Output token（输出token）。
  第三是Output token（输出token）。

[06:12] 也就是模型生成回答的时候产生的token。
  也就是模型生成回答时产生的token。

[06:15] 研究芯片与Token Efficiency（利用率）方向的肖志斌，在接受我们《硅谷101》采访的时候就说：
  研究芯片与Token Efficiency（利用率）方向的肖志斌，在接受我们《硅谷101》采访时表示：

[06:20] 平均来说，在对话任务上，这三者的价格大概是 1:0.1:6的水平。
  平均来说，在对话任务上，这三者的价格大约是 1:0.1:6的比例。

[06:26] 如果是chat这种应用，它调用就是比较简单的。
  如果是chat这类应用，它的调用就比较简单。

[06:29] 你喂给它的input context（输入上下文），还有你提供给它的上下文，还有你提供给它的文件，这一部分都是作为input（输入）。
  你喂给它的input context（输入上下文），你提供给它的上下文，你提供给它的文件，这部分都作为input（输入）。

[06:37] 如果你提供给他的prompt，是在它的cache里面被cache（缓存），一般这个成本就会，基本上是1/10，就是你input token的那个成本。
  如果你提供的prompt被缓存到它的cache（缓存）中，一般这个成本基本上是input token成本的1/10。

[06:46] 最后它输出的成本，就output token的那个成本，现在OpenAI基本上是它的6倍。
  最后它输出的成本，也就是output token的成本，现在OpenAI基本上是它的6倍。

[06:50] 6倍versus（对比）input token的成本。
  是input token成本的6倍。

[06:53] 不同公司根据模型的能力，给出的定价是不同的。
  不同公司根据模型的能力，给出的定价是不同的。

[06:56] 举个例子，GPT-5的API定价上，Input是每百万token 1.25美元，Cached input是每百万token 0.125美元，Output token是每百万token 10美元。
  举个例子，GPT-5的API定价上，Input是每百万token 1.25美元，Cached input是每百万token 0.125美元，Output token是每百万token 10美元。

[07:08] 而OpenAI发布的最新模型GPT-5.5是分了长短上下文两档。
  而OpenAI发布的最新模型GPT-5.5是分了长短上下文两档。

[07:13] 长上下文的价格是2倍。
  长上下文的价格是2倍。

[07:15] 短上下文input是每百万token 5美元。
  短上下文input是每百万token 5美元。

[07:18] Cached input是每百万token 0.5美元。
  Cached input是每百万token 0.5美元。

[07:21] Output token是每百万token 30美元。
  Output token是每百万token 30美元。

[07:24] 如果你直接对比价格的话，是不是觉得怎么涨价了好几倍？
  如果你直接对比价格的话，是不是觉得怎么涨价了好几倍？

[07:28] 其实不能这么算。
  其实不能这么算。

[07:30] 这里面有一个特别反直觉的悖论。
  这里面有一个特别反直觉的悖论。

[07:33] 越贵的模型，可能反而总体成本越低。
  越贵的模型，可能反而总体成本越低。

[07:36] 因为强模型一次就可以做对了。
  因为强模型一次就可以做对了。

[07:38] 弱模型可能要反复重试。
  弱模型可能要反复重试。

[07:40] 中间如果出错，就还需要人工介入。
  中间如果出错，就还需要人工介入。

[07:42] 这也是综合成本。
  这也是综合成本。

[07:44] 也就是说，虽然token价格在涨，但是每个有效结论的成本反而在下降。
  也就是说，虽然token价格在涨，但是每个有效结论的成本反而在下降。

[07:49] 所以你看，最贵的GPT-5.5-pro和GPT-5.4-pro。
  所以你看，最贵的GPT-5.5-pro和GPT-5.4-pro。

[07:53] 短上下文input是每百万token 30美元。
  短上下文input是每百万token 30美元。

[07:56] Output是每百万token 180美元。
  Output是每百万token 180美元。

[08:00] 长上下文还要再贵一倍。
  长上下文还要再贵一倍。

[08:02] 但是如果能力足够强，完成任务足够准确，在一些复杂任务和场景上，反而是能够把开发者的成本价格。
  但是如果能力足够强，完成任务足够准确，在一些复杂任务和场景上，反而是能够把开发者的成本价格。

[08:09] 给打下来的。
  被击落了。

[08:10] 特别是在agent场景。
  尤其是在agent场景下。

[08:11] 因为agent不是一问一答。
  因为agent不是一问一答式的。

[08:14] 它会来回调用模型。
  它会来回调用模型。

[08:15] 每一步可能调用不同的工具。
  每一步可能调用不同的工具。

[08:17] 工具又会产生新的日志和上下文。
  工具又会产生新的日志和上下文。

[08:20] 返回给agent继续循环调用。
  返回给agent继续循环调用。

[08:22] Agent loop（循环）又重新再持续调用。
  Agent循环又重新持续调用。

[08:25] 所以如果是对于agent来说。
  所以对于agent来说。

[08:26] 这个是比较复杂的。
  这是比较复杂的。

[08:28] 除了这种单次模型调用的。
  除了这种单次模型调用的。

[08:30] Input和output的token cost（成本）。
  输入和输出的token成本。

[08:33] 还有持续地产生日志。
  还有持续产生的日志。

[08:35] 还有调用工具的cost（成本）。
  还有调用工具的成本。

[08:38] 都是在这里面。
  都包含在里面。

[08:38] 实际上是相当复杂的。
  实际上是相当复杂的。

[08:40] 最终完成这个任务的token数。
  最终完成这个任务的token数。

[08:42] 取决于你这个任务。
  取决于你的这个任务。

[08:44] 调用了多少次agent loop（循环）。
  调用了多少次agent循环。

[08:46] 你可以调用一次。
  你可以调用一次。

[08:46] 如果质量高的模型。
  如果模型质量很高。

[08:48] 它可能一次就生成了你想要的答案。
  它可能一次就生成了你想要的答案。

[08:50] 调用的工具也是合适的。
  调用的工具也是合适的。

[08:51] 返回工具的output也是你想要的。
  返回工具的输出也是你想要的。

[08:54] 但如果是你真用了便宜模型。
  但如果你真的用了便宜的模型。

[08:57] 结果它可能花费更多的时间。
  结果它可能花费更多的时间。

[08:59] 去做这个iteration（迭代）。
  去做这个迭代。

[09:01] 来来回回地调用。
  来来回回地调用。

[09:02] 甚至于中间会出错。
  甚至中间会出错。

[09:04] 所以现在有这么一个悖论。
  所以现在有一个悖论。

[09:07] 其实越贵的模型。
  其实越贵的模型。

[09:08] 可能对于完成任务的成本是越低的。
  完成任务的成本可能越低。

[09:11] 所以不同的模型公司能够怎么定价
  So how different model companies price is

[09:13] 一方面是由模型的推理成本
  On the one hand, it is determined by the model's inference cost

[09:15] 以及大模型研发费用来决定的
  and the R&D costs of large models.

[09:18] 但是仅仅如此是不够的
  But this alone is not enough.

[09:20] 更关键的是按模型质量和任务的完成度
  More importantly, it is based on model quality and task completion.

[09:23] 首先是推理的成本
  First is the cost of inference.

[09:25] 这就是最基本的成本
  This is the most basic cost.

[09:27] 就单次推理的成本
  The cost of a single inference.

[09:28] 比如说你调用一次模型
  For example, if you call the model once.

[09:30] 第二个是说
  The second is to say

[09:31] 你在这个模型里面要摊平
  you need to amortize within this model

[09:33] 你这个大模型的研发费用
  the R&D costs of this large model.

[09:35] 这个也是一部分
  This is also a part.

[09:38] 最重要的其实是按照模型质量去定价
  The most important thing is actually to price according to model quality.

[09:42] 不同的模型类型
  Different model types,

[09:44] 有没有reasoning（推理）的能力
  whether they have reasoning ability,

[09:45] 然后你context window（上下文窗口）的
  and then your context window's

[09:47] size（大小）
  size,

[09:48] 还有你完成任务的次数
  and the number of times you complete tasks.

[09:50] 比如你能够快速地找到正确的output
  For example, you can quickly find the correct output.

[09:55] 很多公司其实是按照推理成本去定价
  Many companies actually price based on inference cost.

[09:58] 但这样其实是不可取的
  But this is actually not advisable.

[10:00] 应该要按照模型质量
  It should be based on model quality

[10:02] 或者是你对任务的完成度去定价
  or your task completion rate for pricing.

[10:05] 所以这里面的价值空间是比较大的
  So the value space here is quite large.

[10:07] 这里还有一派玩家
  There is also a faction of players here,

[10:09] 就是像微软Azure 亚马逊AWS
  like Microsoft Azure and Amazon AWS.

[10:11] 或者国内的阿里云跟火山引擎
  或者国内的阿里云跟火山引擎

[10:13] 这样的云厂商
  这样的云厂商

[10:14] 有的企业是通过这些云厂商去调用模型
  有的企业是通过这些云厂商去调用模型

[10:18] 他们收到的token账单
  他们收到的token账单

[10:19] 就是从云厂商这边给出去的
  就是从云厂商这边给出去的

[10:22] 云厂商对token的收费
  云厂商对token的收费

[10:23] 与大模型公司的API官方收费
  与大模型公司的API官方收费

[10:25] 不会相差太多
  不会相差太多

[10:27] 但有时候云厂商会因为
  但有时候云厂商会因为

[10:28] 提供了更多的服务和能力
  提供了更多的服务和能力

[10:30] 比如说区域部署、特定数据驻留
  比如说区域部署、特定数据驻留

[10:32] 企业合规、优先推理、托管能力
  企业合规、优先推理、托管能力

[10:35] 以及私有化或者是专用吞吐的这些服务
  以及私有化或者是专用吞吐的这些服务

[10:38] 使得价格更贵
  使得价格更贵

[10:39] 这个时候你的token账单就是
  这个时候你的token账单就是

[10:41] 模型token费用加云服务的封装费
  模型token费用加云服务的封装费

[10:44] 再加企业级的基础设施溢价
  再加企业级的基础设施溢价

[10:46] 大部分的云服务商是怎么计价的
  大部分的云服务商是怎么计价的

[10:48] 他肯定是要根据当下那个模型
  他肯定是要根据当下那个模型

[10:50] 在这一个机器上能够跑出多少token每秒
  在这一个机器上能够跑出多少token每秒

[10:56] 然后再根据这样的一个性能
  然后再根据这样的一个性能

[10:57] 反向去回推出它的GPU
  反向去回推出它的GPU

[11:00] 本来的cost（成本）是多少
  本来的cost（成本）是多少

[11:02] 也许再加上一个premium（溢价）
  也许再加上一个premium（溢价）

[11:03] 就会变成最终的价格
  就会变成最终的价格

[11:04] 但有的时候云厂商也会因为企业折扣
  但有的时候云厂商也会因为企业折扣

[11:07] 或者需要激进抢占市场
  或者需要激进抢占市场

[11:09] 来让价格更便宜
  来让价格更便宜

[11:10] 这种情况也是有的
  这种情况也是有的

[11:12] 而就在后OpenClaw时期，当硅谷开始卷我们开头说到的Token-maxxing这件事情的时候，大家发现这个账单还是很可怕的。
  而在OpenClaw之后，当硅谷开始卷我们开头提到的Token-maxxing这件事时，大家发现这个账单还是非常可怕的。

[11:23] 于是乎就出现了一个现象，来自中国的开源模型，因为性价比，开始在国际开发者社群中大受欢迎。
  于是就出现了一个现象，来自中国的开源模型，因为性价比，开始在国际开发者社区中大受欢迎。

[11:31] Kimi的价格，我记得爆出来是可能input大概是不到55美分。
  Kimi的价格，我记得爆出来是，input大概不到55美分。

[11:38] 你看它的output的话，大概是2点多，2.6左右的状态。
  你看它的output的话，大概是2点多，2.6左右的状态。

[11:42] MiniMax我记得是受到了OpenClaw官方的推荐。
  MiniMax我记得是受到了OpenClaw官方的推荐。

[11:45] 在做setup（设置）的时候，选模型的时候，这个MiniMax后面会有一个recommended（推荐的）标识，就在这个OpenClaw软件里面。
  在做setup（设置）的时候，选模型的时候，这个MiniMax后面会有一个recommended（推荐的）标识，就在这个OpenClaw软件里面。

[11:53] 所以我觉得这个也是相当于给中国模型做了不少的宣传。
  所以我觉得这个也相当于给中国模型做了不少的宣传。

[11:57] 宣传之后大家可能就试了一下，发现确实，虽然说它顶级能力可能差一些，但是你很多工作，也不是非要这么高的推理能力。
  宣传之后大家可能就试了一下，发现确实，虽然说它顶级能力可能差一些，但是你很多工作，也不是非要这么高的推理能力。

[12:07] 很多时候执行其实反而是需要你，不要想太多，Instruction following（指令遵循）比较好，做得比较快。
  很多时候执行其实反而是需要你，不要想太多，Instruction following（指令遵循）比较好，做得比较快。

[12:13] 最重要的还是便宜。
  最重要的是便宜。

[12:15] 在一些任务上，
  在一些任务上，

[12:16] 中美模型的价差可以高达50到70倍。
  中美模型的价差可以高达50到70倍。

[12:19] 这也解释了为什么
  这也解释了为什么

[12:20] 当OpenClaw这类agent工具
  当OpenClaw这类agent工具

[12:22] 让token消耗从万级跳到百万级的时候，
  让token消耗从万级跳到百万级的时候，

[12:25] 全球开发者几乎本能地
  全球开发者几乎本能地

[12:27] 转向了中国的便宜模型。
  转向了中国的便宜模型。

[12:34] OpenClaw爆火之后，
  OpenClaw爆火之后，

[12:35] 因为agent任务
  因为agent任务

[12:36] 对开源模型调用的需求飙升，
  对开源模型调用的需求飙升，

[12:38] 已经上市的中国模型厂商们，
  已经上市的中国模型厂商们，

[12:40] 比如说Zhipu AI和MiniMax，
  比如说Zhipu AI和MiniMax，

[12:42] 在股价上迎来了疯狂的涨幅。
  在股价上迎来了疯狂的涨幅。

[12:44] 与此同时，2026年3月
  与此同时，2026年3月

[12:46] 掀起了一波集体涨价潮。
  掀起了一波集体涨价潮。

[12:49] 3月，腾讯云、阿里云和百度智能云，
  3月，腾讯云、阿里云和百度智能云，

[12:52] 国内三大云厂商接连提高AI算力产品价格，
  国内三大云厂商接连提高AI算力产品价格，

[12:56] 10天之内涨价30%左右。
  10天之内涨价30%左右。

[12:58] 现在我觉得大家看到
  现在我觉得大家看到

[13:00] 开源模型的token消耗量上升，
  开源模型的token消耗量上升，

[13:02] 是因为开源模型的能力
  是因为开源模型的能力

[13:03] 已经越过了某一个门槛。
  已经越过了某一个门槛。

[13:05] 比如说智谱或者Kimi模型，
  比如说智谱或者Kimi模型，

[13:07] 实际上在coding（编程）上，
  实际上在coding（编程）上，

[13:09] 最近都有一个比较大的提升。
  最近都有一个比较大的提升。

[13:11] 我们也知道coding（编程）这个赛道。
  我们也知道coding（编程）这个赛道。

[13:13] 算是大模型token消耗最大的赛道之一。
  这算是大模型中token消耗最大的赛道之一。

[13:16] 当程序员们发现。
  当程序员们发现。

[13:18] 开源模型可能跟几个月前的Anthropic模型一样好用。
  开源模型可能跟几个月前的Anthropic模型一样好用。

[13:21] 但是价格又极其便宜的时候。
  但是价格又极其便宜的时候。

[13:23] 他们自然而然就会切换到开源模型。
  他们自然而然就会切换到开源模型。

[13:25] 这也是为什么开源模型价格上升了。
  这也是为什么开源模型价格上升了。

[13:28] 对于个人开发者和创业公司来说。
  对于个人开发者和创业公司来说。

[13:30] 处理不那么复杂任务的时候。
  处理不那么复杂任务的时候。

[13:32] 转向开源模型是无可厚非的。
  转向开源模型是无可厚非的。

[13:34] 比如说我们拿MiniMax M2.5。
  比如说我们拿MiniMax M2.5。

[13:36] 和Claude Opus 4.6做个直接对比。
  和Claude Opus 4.6做个直接对比。

[13:39] 在SWE-Bench Verified的软件工程基准测试中。
  在SWE-Bench Verified的软件工程基准测试中。

[13:42] 两者得分分别是80.2%和80.8%。
  两者得分分别是80.2%和80.8%。

[13:47] 说实话这点差距在实际使用中。
  说实话，这点差距在实际使用中。

[13:49] 几乎是感受不到的。
  几乎是感受不到的。

[13:51] 但是打开价格表就完全不同了。
  但是打开价格表就完全不同了。

[13:53] MiniMax M2.5的输入价格。
  MiniMax M2.5的输入价格。

[13:55] 是每百万token 0.3美元。
  是每百万token 0.3美元。

[13:58] Claude Opus 4.6是5美元。
  Claude Opus 4.6是5美元。

[14:00] 同样的活前者的价格。
  同样的活，前者的价格。

[14:02] 只有后者的1/17。
  只有后者的1/17。

[14:04] 对于一个每天要跑几千万token的OpenClaw用户来说。
  对于一个每天要跑几千万token的OpenClaw用户来说。

[14:08] 这不是省一杯咖啡钱的问题。
  这不是省一杯咖啡钱的问题。

[14:10] 而是账单从几百美元。
  而是账单从几百美元。

[14:12] 直接降到几十美元的区别。
  直接降到几十美元的区别。

[14:14] 中国模型为什么能够做到那么便宜？
  中国的模型为什么能做得这么便宜？

[14:17] 国内的大模型技术层面上它用了MoE（混合专家模型）。
  国内的大模型在技术层面上使用了MoE（混合专家模型）。

[14:21] 非常深度的MoE（混合专家模型）。
  非常深度的MoE（混合专家模型）。

[14:23] 专家的size（大小）变得越来越小。
  专家的size（大小）变得越来越小。

[14:26] 每一次active（运行）的专家数目也不大。
  每一次active（运行）的专家数目也不大。

[14:29] 通过这种方法技术上可以节省。
  通过这种方法技术上可以节省。

[14:31] 第二，也有一个生态的问题。
  第二，也有一个生态的问题。

[14:35] 大家通过补贴用户，抢占生态。
  大家通过补贴用户，抢占生态。

[14:38] 第三点，有些公司，
  第三点，有些公司，

[14:39] 像中国的某些公司，
  像中国的某些公司，

[14:41] 它其实是云厂商，比如阿里。
  它其实是云厂商，比如阿里。

[14:44] 它自己的成本定价可以比外面计价更低。
  它自己的成本定价可以比外面计价更低。

[14:49] 它有更高的margin（利润率），
  它有更高的margin（利润率），

[14:50] 去把模型价格打得更低。
  去把模型价格打得更低。

[14:52] 不同的模型其实给了开发者们不同的选择。
  不同的模型其实给了开发者们不同的选择。

[14:55] 比如说复杂的任务，
  比如说复杂的任务，

[14:57] 就可以交给更高性能的模型。
  就可以交给更高性能的模型。

[14:59] 简单一些或者重复性高的任务，
  简单一些或者重复性高的任务，

[15:01] 就给便宜一点的模型。
  就给便宜一点的模型。

[15:03] 这样的混合使用，
  这样的混合使用，

[15:04] 成为了agent时代的新token模式。
  成为了agent时代的新token模式。

[15:08] 黄仁勋在2026的GTC大会上，
  黄仁勋在2026的GTC大会上，

[15:10] 给出了一个更宏观的token定价框架。
  给出了一个更宏观的token定价框架。

[15:13] 他把token分成了五个价格区间。
  他把token分成了五个价格区间。

[15:16] 第一是免费层
  第一是免费层。

[15:17] 这一层有着高吞吐低交互速度的特点
  这一层有着高吞吐、低交互速度的特点。

[15:20] 靠广告变现
  靠广告变现。

[15:21] 中级层是每百万token 3美元
  中级层是每百万token 3美元。

[15:24] 高级层每百万token 6美元
  高级层每百万token 6美元。

[15:26] 高速层每百万token 45美元
  高速层每百万token 45美元。

[15:28] 到超高速层每百万token 150美元
  到超高速层每百万token 150美元。

[15:31] 黄仁勋的意思很明确
  黄仁勋的意思很明确。

[15:32] Token不再是一种同质的商品
  Token不再是一种同质的商品。

[15:35] 它的价格应该由交互速度和使用场景决定
  它的价格应该由交互速度和使用场景决定。

[15:38] 就像电力有峰谷电价一样
  就像电力有峰谷电价一样。

[15:41] 当然这些暴增的需求背后
  当然，这些暴增的需求背后，

[15:43] 也有一个不容忽视的问题
  也有一个不容忽视的问题。

[15:45] 到底是不是真的需要消耗这么多token
  到底是不是真的需要消耗这么多token？

[15:48] 一些业内人士就批评说
  一些业内人士就批评说，

[15:49] 当前全球企业AI应用当中
  当前全球企业AI应用当中，

[15:51] 可能有近一半的token没有产生实际价值
  可能有近一半的token没有产生实际价值。

[15:55] 道理很简单
  道理很简单。

[15:56] Agent不像人类那样知道“够了就停”
  Agent不像人类那样知道“够了就停”。

[15:59] 它在执行一个任务的过程当中
  它在执行一个任务的过程当中，

[16:01] 会反复地读取整个对话历史
  会反复地读取整个对话历史，

[16:04] 重新扫描已经处理过的文件
  重新扫描已经处理过的文件，

[16:06] 以及把早就过期的上下文
  以及把早就过期的上下文，

[16:08] 一遍又一遍地“喂”给模型
  一遍又一遍地“喂”给模型，

[16:10] 让每多跑一轮
  让每多跑一轮，

[16:11] 这些冗余信息就像滚雪球一样越滚越大
  这些冗余信息就像滚雪球一样越滚越大。

[16:14] 但是真正跟当前任务相关的
  但是真正跟当前任务相关的，

[16:16] 可能只占其中的一小部分
  可能只占其中的一小部分

[16:19] 怎么才能够让agent少烧冤枉钱
  怎么才能够让agent少烧冤枉钱

[16:21] 正在成为一个新的技术和商业赛道
  正在成为一个新的技术和商业赛道

[16:23] 而Token Efficiency(Token效率)
  而Token Efficiency(Token效率)

[16:25] 成了下个阶段的关键词
  成了下个阶段的关键词

[16:27] 其中值得提的一个例子
  其中值得提的一个例子

[16:29] 就是OpenRouter这家公司
  就是OpenRouter这家公司

[16:35] OpenRouter这个平台已经成为了
  OpenRouter这个平台已经成为了

[16:36] 观察全球模型使用趋势的一面镜子
  观察全球模型使用趋势的一面镜子

[16:39] 你看到的很多关于中国模型
  你看到的很多关于中国模型

[16:41] 调用和排名的数据图都出自于这个平台
  调用和排名的数据图都出自于这个平台

[16:44] OpenRouter背后的人很有意思
  OpenRouter背后的人很有意思

[16:46] 创始人Alex Atallah的上一个身份
  创始人Alex Atallah的上一个身份

[16:48] 是全球最大NFT交易所
  是全球最大NFT交易所

[16:50] OpenSea的联合创始人兼CTO
  OpenSea的联合创始人兼CTO

[16:53] 2023年他开始做OpenRouter
  2023年他开始做OpenRouter

[16:55] 这门生意的逻辑其实很简单
  这门生意的逻辑其实很简单

[16:57] 市面上模型越来越多
  市面上模型越来越多

[16:59] 开发者不想每家单独注册、单独充值
  开发者不想每家单独注册、单独充值

[17:01] 单独对接API格式
  单独对接API格式

[17:03] OpenRouter就做了一个统一的入口
  OpenRouter就做了一个统一的入口

[17:06] 所有模型一个接口搞定
  所有模型一个接口搞定

[17:07] 平台从中抽取大约5%的费用
  平台从中抽取大约5%的费用

[17:10] 根据The Information报道 A16z在2025年
  根据The Information报道 A16z在2025年

[17:13] 对OpenRouter领投了4000万美元
  对OpenRouter领投了4000万美元

[17:15] 当时估值大约5亿美元
  当时估值大约5亿美元

[17:17] 而最新一轮融资已经将估值推至了接近13亿美元
  而最新一轮融资已经将估值推至了接近13亿美元

[17:22] 让这门生意真正起飞的是OpenClaw的爆发
  让这门生意真正起飞的是OpenClaw的爆发

[17:25] 当全球开发者疯狂调用各种模型来驱动agent工作流的时候
  当全球开发者疯狂调用各种模型来驱动agent工作流的时候

[17:30] 他们需要一个能够快速切换模型的中间层
  他们需要一个能够快速切换模型的中间层

[17:33] 而OpenRouter恰好就在那里等着
  而OpenRouter恰好就在那里等着

[17:36] 这个时机简直不要抓得太好
  这个时机简直不要抓得太好

[17:38] Atallah曾将OpenRouter与他上一次创业做过类比
  Atallah曾将OpenRouter与他上一次创业做过类比

[17:42] 两次做的都是把分散的供给整合到一个平台上
  两次做的都是把分散的供给整合到一个平台上

[17:46] 他赌的是供给越分散中间商越值钱
  他赌的是供给越分散中间商越值钱

[17:49] 它是加了一层API的调用层
  它是加了一层API的调用层

[17:51] 这个API调用层跟OpenAI的API调用是兼容的
  这个API调用层跟OpenAI的API调用是兼容的

[17:55] 如果你需要做一个任务的话
  如果你需要做一个任务的话

[17:58] 你可以自动去做不同模型的切换
  你可以自动去做不同模型的切换

[18:01] 然后统一API、统一定价
  然后统一API、统一定价

[18:03] 这样对于大部分的用户来说
  这样对于大部分的用户来说

[18:06] 特别是从0到1的AI初创公司来说
  特别是从0到1的AI初创公司来说

[18:10] 快速上线、快速试错
  快速上线、快速试错

[18:11] 快速找到匹配的模型这是最重要的
  快速找到匹配的模型这是最重要的

[18:14] 第二个它有一些后备
  第二个它有一些后备

[18:16] 一个model（模型）如果出了问题
  一个model（模型）如果出了问题

[18:19] 或者是latency（延迟）突然很高
  或者是有延迟突然很高

[18:21] 或者是它下线了
  或者它下线了

[18:22] 它可以快速地切换到另外的模型
  它可以快速地切换到另外的模型

[18:24] 当然了 OpenRouter也有它的数据局限性
  当然了 OpenRouter也有它的数据局限性

[18:27] 其实很多它的token使用量是统计不到的
  其实很多它的token使用量是统计不到的

[18:30] 刚才讲的从0到1的初创公司
  刚才讲的从0到1的初创公司

[18:32] 可能会用OpenRouter
  可能会用OpenRouter

[18:33] 但是比如说从1到10
  但是比如说从1到10

[18:35] 它就会混用OpenRouter跟API调用
  它就会混用OpenRouter跟API调用

[18:37] 如果是这种大厂的话
  如果是这种大厂的话

[18:39] 或者是你的业务非常明确的话
  或者你的业务非常明确的话

[18:41] 它会直接调用大厂的API
  它会直接调用大厂的API

[18:43] Anthropic、OpenAI或者Google的API
  Anthropic、OpenAI或者Google的API

[18:46] 所以OpenRouter是
  所以OpenRouter是

[18:48] 对于token的统计量有一定的指向性
  对于token的统计量有一定的指向性

[18:50] 或者有一定的prediction（预测）
  或者有一定的prediction（预测）

[18:53] 但并不是包括所有token的调用量
  但并不是包括所有token的调用量

[18:56] 换句话说 OpenRouter的数据
  换句话说 OpenRouter的数据

[18:58] 更像是创业公司
  更像是创业公司

[18:59] 和独立开发者群体的风向标
  和独立开发者群体的风向标

[19:01] 而不是整个AI行业的全景图
  而不是整个AI行业的全景图

[19:03] 但正是这个群体对价格最敏感
  但正是这个群体对价格最敏感

[19:06] 对新模型最愿意尝鲜、迁移成本也最低
  对新模型最愿意尝鲜、迁移成本也最低

[19:10] 这是构成了中国模型出海的
  这是构成了中国模型出海的

[19:12] 第一波“自来水”用户
  第一波“自来水”用户

[19:14] 如果token是AI时代的“电”
  如果token是AI时代的“电”

[19:15] 那么总得有人给这些电去装电表
  那么总得有人给这些电去装电表

[19:18] 这件事情听上去不够性感
  这件事情听上去不够性感

[19:20] 但是看一眼客户名单就知道它有多重要
  但只要看一眼客户名单，就知道它有多重要。

[19:23] OpenAI、NVIDIA、Anthropic、Databricks
  OpenAI、NVIDIA、Anthropic、Databricks

[19:26] 全部在用同一家公司的计费系统
  全部都在使用同一家公司的计费系统。

[19:28] 这家公司就是Metronome
  这家公司就是Metronome。

[19:34] Metronome的创始团队背景
  Metronome的创始团队背景

[19:36] 很能够说明问题
  很能够说明问题。

[19:37] 两位创始人都出自于Dropbox
  两位创始人都出自于Dropbox。

[19:39] 在那里亲身经历过
  在那里亲身经历过

[19:41] 一个让所有SaaS工程师都头疼的事情
  一个让所有SaaS工程师都头疼的事情，

[19:44] 就是“改定价”
  就是“改定价”。

[19:46] 表面上只是把月费调几块钱
  表面上只是把月费调几块钱，

[19:48] 背后却要动一大堆
  背后却要动一大堆

[19:50] 写死在代码里面的计费逻辑
  写死在代码里面的计费逻辑。

[19:53] 到了AI时代
  到了AI时代，

[19:54] 这个痛点被放大了几个数量级
  这个痛点被放大了几个数量级。

[19:56] 收费单位不再是“一个人头一个月多少钱”
  收费单位不再是“一个人头一个月多少钱”，

[19:59] 而是变成了token数、API调用次数
  而是变成了token数、API调用次数，

[20:02] GPU时长这些颗粒度极细的指标
  GPU时长，这些颗粒度极细的指标。

[20:05] 而且每个客户的合同条款、折扣结构
  而且每个客户的合同条款、折扣结构，

[20:08] 和用量阶梯可能都不一样
  和用量阶梯可能都不一样。

[20:10] SaaS的成本其实相对稳定
  SaaS的成本其实相对稳定，

[20:12] 其实就是服务器成本
  其实就是服务器成本，

[20:13] 甚至都是跟云厂商预先商定好的一个价格
  甚至都是跟云厂商预先商定好的一个价格。

[20:17] 但是token公司确实挺复杂的
  但是token公司确实挺复杂的，

[20:20] 跟卡本身的情况有关系
  跟卡本身的情况有关系。

[20:23] 跟电的情况有关系

[20:24] 同时其实还跟请求量有关系

[20:27] 它的峰值有时候会挤到一起

[20:30] 大家有时候也有体感

[20:31] 突然哪怕你已经买了最顶级的套餐

[20:34] 你可能也需要排队

[20:35] 你做的任务不一样

[20:37] 其实对token的消耗成本是完全不同的

[20:40] Metronome做的事情就是清晰地记住

[20:42] 谁在什么时间调用了什么东西

[20:45] 花了多少token

[20:46] 但是大部分公司自己做这件事做不好

[20:48] 因为“发生了什么”和“该怎么去收费”

[20:51] 这是两套完全不同的逻辑

[20:54] 把它们耦合在一起就会越改越脆弱

[20:58] Metronome的核心设计

[20:59] 就是把这两件事彻底拆开

[21:01] 工程团队只管上报用量数据

[21:03] 产品和销售团队自己配置价格和合同条款

[21:06] 中间的换算、出账、对账全部自动化

[21:10] 他的做法我觉得也不错

[21:11] 首先他先不考虑计费

[21:15] 我先站在技术的角度

[21:16] 用户跟我API的交互

[21:18] 他到底做了哪些事情

[21:20] 比如说是读还是写

[21:22] 还是模型现在在做思考

[21:24] 还是说命中了缓存

[21:26] 这些不同的事件我先记下来

[21:29] 因为这些事件究竟代表多少成本

[21:31] 这件事情甚至都可能是动态的

[21:33] 所以说我先不把它跟钱或者成本挂钩

[21:37] 记下这个事件流之后

[21:38] 可能再有另外一层

[21:39] 就是这些事件流分别怎么定价

[21:41] 比如说你已经命中缓存的

[21:43] 可能只要一分钱

[21:44] 如果没有命中就要一块钱

[21:46] 第三层就是咱们能接触到的

[21:47] 比如说subscription（订阅制）

[21:48] 是一种计费方式

[21:50] 直接买API是一种

[21:52] 设定limit（限制）

[21:53] 再加超过之后多少是一种

[21:55] 最后可能就是

[21:56] 为了把这些东西卖出去要打折

[21:58] 像Opus 成本是两倍 但用量是四倍

[22:02] 他们自己就说自己在打五折

[22:04] 我看完这四层我觉得非常合乎逻辑

[22:06] 这家公司的发展速度非常快

[22:08] 据公开的报道

[22:09] Metronome累计融资到了1.28亿美元

[22:13] 今年1月被Stripe收购了

[22:15] 一个做计费基础设施的100人的团队

[22:18] 估值追上了很多做模型的公司

[22:20] 这本身就说明 在Token经济里面

[22:23] 怎么算钱也变得越来越重要

[22:25] 而在这样的一个产业中

[22:27] “套利”的机会也出现了

[22:33] 我们在视频的前面也说到

[22:34] 现在的开发者们会把不同的模型混着用

[22:38] 复杂任务用Claude、GPT这样的昂贵模型

[22:40] 简单任务用MiniMax、Kimi等

[22:42] 中国的性价比模型

[22:44] 对应的 在Token经济学里面

[22:46] 一种新的商业模式正在浮出水面

[22:49] 业内就叫它Token Arbitrage

[22:51] Token套利

[22:53] 这个有点像什么呢

[22:54] 类比一下

[22:54] 大家在国内买运营商的套餐

[22:56] 我记得我家1千兆的下行带宽

[22:59] 只给配了40兆的上行带宽

[23:01] 但是普通用户其实感受不到

[23:03] 其实在token上也是类似的

[23:05] 用户的体感是什么样的

[23:06] 很有可能全都用便宜模型给他做

[23:09] 和你全都用贵模型给他做

[23:11] 在用户看来区别不大

[23:13] 这个时候其实就有空间了

[23:14] 就是你说的Arbitrage 套利空间

[23:16] 本质上最后买单的是用户

[23:18] 所以只要用户觉得可以

[23:20] 那这个就是可以的

[23:21] 就有点像税务审计师

[23:24] 国外 你自己要报税

[23:26] 可能报出来的税是一年要交1万美金

[23:30] 然后你花了5000美金雇了一个审计师

[23:32] 你只报了比如2000美金的税

[23:35] 他更专业 他懂优化

[23:37] 他优化出来的这部分两边各拿一半

[23:40] Token Arbitrage（套利）

[23:41] 好好做的生意就是这样

[23:43] 像我们自己

[23:44] 如果设置OpenClaw这种agent

[23:47] 你肯定会有一个便宜模型

[23:51] 可能是国内的大模型

[23:52] 你最高端的可能是用

[23:54] Anthropic的Sonnet

[23:56] 或者是更好的OpenAI的模型

[23:58] 这里配置的话

[24:00] 包括我们公司做了一个OpenClaw

[24:03] 这种token的auto tuner（自动调优器）

[24:06] 针对不同的任务可以更进一步细分

[24:10] 甚至于用一个模型去决定这个任务

[24:12] 到底它的复杂度是什么

[24:14] 可不可以用一个便宜模型

[24:16] 确实 更进阶的套利方式

[24:18] 不只是“批发转零售”

[24:20] 而是去搭建一个“智能路由器”

[24:22] 用户需求进来之后

[24:24] 先用一个模型去判断任务的复杂程度

[24:27] 简单任务分配给更便宜的模型

[24:29] 只有真正复杂的任务才会给Claude或GPT

[24:32] 对用户来说是黑盒

[24:34] 但是中间商在不断地优化成本结构

[24:37] 作为一个模型提供商

[24:38] 实际上大家可能都会

[24:39] 有自己所谓的“路由模型”

[24:41] 它就是一个小的模型

[24:42] 来判断当下这个任务的难易程度

[24:44] 然后把它assign（分配）给

[24:45] 一个合适的模型

[24:46] 来帮你minimize（最小化）它的成本

[24:48] 这个理论上所有的提供商都应该有

[24:51] 还有一种方式

[24:51] 就是直接通过一个agent产品的方式

[24:53] 比如说我们看到

[24:55] 像Genspark或者Manus这样

[24:57] 我们知道

[24:57] 他们内部也是会对不同的模型能力

[25:00] 有一个认知

[25:01] 这个是基于他们已经有的

[25:03] Benchmark（基准测试）也好 他们的经验也好

[25:05] 他们会对于不同任务去做一个灵活的分发

[25:08] 我觉得省token是正常的

[25:11] 比如说你先有个用户的定价

[25:13] 你有一个margin（利润率）

[25:14] 但是你一开始的定价

[25:15] 比如说是按照复杂模型的使用量来去定的

[25:18] 比如说30%的margin（利润率）

[25:20] 你先设在那了

[25:21] 之后你再做的一个事情就是

[25:23] 一旦用户已经接受了你这样的价格的时候

[25:25] 你其实是拿便宜的token

[25:27] 在换贵的token给到用户

[25:29] 如果用户感知不出来

[25:31] 用户觉得没有一个体感上的变化

[25:33] 或者是表现上的变化

[25:34] 用户其实还是在付原来高价值的token

[25:37] 我们的嘉宾 知县

[25:38] 也是一个典型的“混合调度”用户

[25:40] 他每天跟AI互动几百次

[25:42] 同时使用Claude、GPT和中国模型

[25:44] 但是给它们分配了完全不同的角色

[25:47] Opus最强的是它的脑洞

[25:50] 我更愿意把Opus当一个产品经理去对待

[25:53] 它想问题的时候会比较发散

[25:56] 我跟它聊的时候就发现

[25:57] 我有些想法跟它一点就透

[26:00] 说我想做一个这样的事情

[26:02] 它基本上就能顺着我没说的话

[26:04] 脑子里想的一些没说的东西

[26:05] 全都能给我列出来

[26:07] GPT就稍微nerd（书呆子）一点

[26:09] 有点像我在跟技术负责人讲产品

[26:12] 收到的都是一些challenge（挑战）

[26:14] Opus适合做设计 天马行空

[26:17] Codex适合做把关、做review（复盘）

[26:19] 中间的执行其实你只要计划写好了

[26:23] 然后把这个计划分得足够精细

[26:25] 其实你需要的主要是什么

[26:26] 就是有一定的智能

[26:27] 并且要快 然后要便宜

[26:29] 因为这是最耗token的时候

[26:31] 真正往外写代码非常非常好的

[26:33] 因为输出是最贵的

[26:34] 其实在这个场景里

[26:36] 国产的这些模型去做执行

[26:39] 把代码写好 写出来

[26:40] 而agent开发者王浩从工程化实现上

[26:43] 帮我们解释了一下应该怎么去做

[26:45] 从最简单的方式入手

[26:47] 我其实就可以拿一个模型

[26:49] 来去分辨用户的问题

[26:51] 因为用户基本上都是在问问题

[26:53] 那我就拿个简单模型

[26:54] 去detect（检测）用户的模型意图

[26:55] 告诉它一定的metrics（指标）怎么去区分

[26:59] 然后再加上不同的threshold（阈值）

[27:00] 其实就是一个最简单的

[27:01] Engineering（工程化）方式

[27:02] 我就可以把一些任务最简单给区分掉

[27:04] 到后期的时候

[27:05] 你可能抓到用户的一些数据

[27:07] 你其实就可以通过一些简单的

[27:10] 比如说RL（强化学习）的方式

[27:11] 或者是某一些训练的方式

[27:13] 可以去优化你的这个小的模型

[27:15] 前期来讲

[27:16] 你就只要用prompt方式去抓数据

[27:18] 抓到一定数据的时候

[27:19] 再去fine-tune（微调）一下这个模型

[27:21] 一步一步

[27:22] 它就会更加高效地去把复杂场景

[27:24] 和便捷场景给区分掉

[27:26] 让用户没有办法区分

[27:29] 最终他可以去付高价值token的钱

[27:32] 去用低价值的token

[27:34] 那问题来了 这种“套利”可持续吗

[27:37] 我觉得短期内是有机会的

[27:40] 但是对于单个模型 比如说像Anthropic

[27:42] 其实把这个能力已经内置到

[27:44] 它的coding agent里面了

[27:46] 它最近加了一个Advisor（顾问）模式

[27:48] 这个Advisor模式

[27:49] 就是先用贵的模型去判断一下

[27:53] 到底哪些任务可以用便宜的模型做

[27:56] 哪些用贵的模型做

[27:58] 大模型厂商它自己会把这个东西

[28:00] 内置到它自己的生态里面

[28:02] 但跨模型的调度空间远没有被穷尽

[28:05] 因为每家大模型公司只优化自己的模型

[28:08] 然而 市场上的模型实在是太多了

[28:11] 跨模型的智能调度不会只是短期机会

[28:14] 这个其实是有创业空间的

[28:17] 但它不仅仅是说

[28:19] 针对你模型的定价去做这个事情

[28:21] 这里其实要做很多的

[28:23] 针对任务跟模型的匹配

[28:25] 除了这种任务的精准度

[28:27] 还有模型的throughput（吞吐量）

[28:30] Latency（延迟）的这种判断

[28:32] 还有对于模型质量的判断

[28:34] 和对于任务完成度的判断

[28:36] 而且它现在还只是做了

[28:38] 可能比较初始的API的聚合

[28:40] 同时做了一些pricing（定价策略）

[28:42] 但还没有做到刚才说的

[28:44] 这种模型质量跟任务的匹配

[28:47] 甚至于模型跟硬件的匹配

[28:50] 那意味着latency（延迟）

[28:52] 跟throughput（吞吐量）的匹配

[28:53] 到底谁会赢

[28:54] 我的判断其实是

[28:55] 最会调度token的这种系统会赢

[28:58] 但是这种系统可能也不仅仅是

[29:01] 止步于OpenRouter这种程度

[29:03] 因为很多还有

[29:05] 比如类似于做prompt压缩

[29:08] 很多功能其实都会做到

[29:11] 大模型厂商他会把这个东西

[29:12] 做到他自己的生态系统里面

[29:15] 如果你做通用的调度token系统的话

[29:18] 一定要做得更深

[29:24] 讲到这里 我们可以把视角再拉大一点

[29:27] 你有没有想过 当一个伦敦的程序员

[29:30] 用MiniMax的API跑OpenClaw的时候

[29:33] 物理层面上发生了什么

[29:35] 他的请求从英国出发 穿过海底光缆

[29:38] 落在贵州的数据中心里

[29:40] GPU开始工作 风扇开始转 电表开始跳

[29:44] 几秒钟之后 结果原路返回

[29:47] 整个过程当中

[29:48] 没有一度电离开过中国的电网

[29:50] 但是这度电的价值 已经通过API账单

[29:53] 以token的形式完成了跨境结算

[29:55] 某种意义上

[29:56] 这是一种全新形态的“出口”对不对

[30:00] 中国过去出口日用品、衬衫、家电

[30:02] 后来是电动车

[30:03] 但这些都是实物 要过海关

[30:06] Token出海不需要集装箱

[30:08] 甚至不需要任何实体商品离开国境

[30:10] 电力在本地消耗 算力在本地运转

[30:13] 但是创造的价值通过互联网

[30:15] 瞬间交付到了全球任何一个开发者手上

[30:18] 有人把这叫做“电力出海”

[30:19] 虽然电没出去 但是电的价值出去了

[30:23] 那么一个自然的问题就是

[30:24] 中国token能够卖得那么便宜

[30:27] 很多人的第一反应就是电价

[30:29] 这种状态会一直持续下去吗

[30:32] 实际情况还挺复杂的

[30:34] GMI Cloud创始人Alex在GTC现场

[30:36] 就给了我们一个很直率的判断

[30:38] 他说美国其实不缺电 缺的是运送能力

[30:41] 最后就是你的bottleneck（瓶颈）

[30:43] 还是在能源供给端

[30:45] 实际上美国不缺电

[30:46] 美国缺的是

[30:47] Distribution power（配电能力）

[30:48] 高压电上面很多电 都是几G的电

[30:51] 你天然气一烧 电就喷出来

[30:53] 问题是distribution（配电）

[30:54] 就是你要传到一个点

[30:58] 这是很多的审批

[31:00] 要建一个变电站等等

[31:04] 从330kV一路降到400V或者800V

[31:08] 这东西事实上是非常冗长的一个过程

[31:10] 光是拿审批你就爆炸了

[31:12] 实际上 中美电力成本的绝对值

[31:14] 差异并不大

[31:15] 中国工业用电在0.4到0.6元/度

[31:18] 美国0.8到1.2元/度

[31:20] 中美两边的工业电价差距

[31:22] 其实没有想象中那么大

[31:24] 真正拉开差距的是基础设施的响应速度

[31:27] 中国可以在西部沙漠里面铺满光伏板

[31:29] 再通过特高压电网

[31:31] 把电送到东部的算力集群

[31:33] 所以从电力的角度来看

[31:34] 美国的token价格

[31:35] 一时半会儿会很难下降很多

[31:37] 同时 Alex认为

[31:38] 从存储等供应链角度来看

[31:41] Token价格短期内更难下降

[31:43] 去年DDR4就是DRAM

[31:45] 现在是过去10倍（价格）

[31:47] 现在CX7也在缺货

[31:49] Power supply（电源供应）也在缺货

[31:50] 我看到OpenClaw起来 agent起来

[31:52] 多模态起来

[31:53] 还有coding（编程）起来

[31:55] 刚好是三个完美的风暴

[31:58] 所有的供应链就跟不上这个节奏

[32:01] 最大的挑战还是建足够多的数据中心

[32:05] 这个是最大的挑战

[32:06] 因为这个是物理上的限制

[32:08] 提效当然是非常重要的

[32:10] 我觉得每一个云服务商

[32:12] 都会紧跟整个技术迭代的步伐

[32:14] 去提升它的token的效率

[32:16] 去降低它的延迟

[32:18] 但是最终我们都被限制在了

[32:21] 我们一共有多少数据中心

[32:23] 有多少卡、通了多少电这件事情

[32:25] 当然这还会牵涉到数据跨境

[32:27] 网络延时、隐私安全等合规问题

[32:30] 但是起码我们正在看到

[32:31] OpenRouter上面的开发者平台出海

[32:34] 还有云平台出海

[32:35] 以及开源模型出海的趋势正在迅速发生

[32:39] 这波出海红利

[32:41] 已经实实在在地反映在了收入上

[32:43] 如今MiniMax海外收入占比超过了七成

[32:46] 月之暗面在Kimi K2.5发布后

[32:48] 短短数周内收入就超过了2025年全年

[32:53] 智谱的模型API收入

[32:54] 也在今年出现了爆发式增长

[32:57] 而token需求的天花板目前根本还看不到

[33:00] 每一个event（事件）

[33:01] 都trigger（触发）了

[33:03] Token消耗的指数型增长

[33:05] 并且目前我们还没有看到

[33:06] 一个明显的天花板

[33:08] 因为首先我们并不是每一个人

[33:10] 都在用OpenClaw

[33:11] 我们并不是把生活中的每一个

[33:13] Vertical（垂直方向）

[33:13] 都已经进行了全部的AI化

[33:16] 所以在我看来

[33:17] 整个token的consumption（消费）

[33:18] 还是会继续增长

[33:20] 就像老黄说的

[33:21] 我觉得未来的潜力还是非常大

[33:24] 目前是看不到天花板的

[33:25] 大家想想看

[33:26] 现在大部分人还只是偶尔用用OpenClaw

[33:29] 这样的agent

[33:29] 大部分行业还远远没有被agent渗透

[33:33] 但是趋势已经很清楚了

[33:34] Token的消耗正在从“人类主动发起”

[33:37] 变成“机器自动运转”

[33:39] 一个程序员手动用AI编程助手

[33:41] 一天可能烧几十万token

[33:43] 但是一旦他配了一个agent

[33:45] 全天候在后台跑

[33:46] 写代码、查资料、跑测试、发部署

[33:49] 消耗量可以直接跳到千万级

[33:51] 当这种使用方式从少数极客

[33:53] 扩散到普通开发者

[33:55] 再扩散到每一个知识工作者

[33:57] Token的需求增长就是指数级别的增长了

[34:00] 如果用一句话来概括这个趋势

[34:02] 上一个时代中国出口的是衬衫和家电

[34:05] 这个时代是电动车

[34:06] 那么下个时代可能就是token了

[34:09] 回到开头那个问题

[34:10] Token到底意味着什么

[34:12] 对Meta员工来说

[34:13] 它是排行榜上的勋章

[34:15] 对创业公司来说

[34:16] 它是每个月最大的一笔开支

[34:18] 对于OpenRouter来说

[34:19] 它是抽5%佣金的流水

[34:21] 而对于中国的云厂商来说

[34:22] 它是把电力变成美元的管道

[34:24] 对于黄仁勋来说 token会变成大宗商品

[34:27] 每一个输入和输出都与芯片挂钩

[34:30] 我觉得这是一个正常的发展方向

[34:32] 就像我说的

[34:33] Token是一种commodity（大宗商品）

[34:35] 任何对于销售commodity（大宗商品）之前

[34:38] 在人类历史上会出现过的销售方式

[34:40] 我们可以预计

[34:41] 都可以在token这件事情上出现

[34:43] 所以最后就是看谁更有创意

[34:45] 谁的市场打得更好

[34:46] 因为最终底层的模型

[34:48] 我觉得只要技术还过硬

[34:51] 它们的acuracy（准确性）

[34:52] 实际上是不会有什么太大区别的

[34:54] 未来 token就会是一种大宗商品

[34:58] 而围绕着这样的大宗商品

[35:00] 人类几千年来发明过的所有商业模式

[35:04] 期货、套利、批发零售、聚合平台

[35:06] 计量计费

[35:07] 都会在token身上重新演一遍

[35:10] 同时 token的定价方式

[35:11] 也可能会发生巨大的变化

[35:13] 比如说业界也正在开始尝试

[35:15] 按“复杂度计费”的

[35:16] Effort-based Pricing模式

[35:18] 或者按任务完成度计费的

[35:19] Task-based Pricing模式

[35:21] 这都使得Token Economy的定价方式

[35:24] 在未来有着巨大的进化空间

[35:26] 这就像原油到汽油 再到续航里程

[35:29] 这中间定价的逻辑

[35:30] 也会在token 到任务 到业务结果

[35:33] 这条进化路径上再复现一遍

[35:35] 我们在这个视频里面

[35:36] 看到的每一个概念和公司

[35:38] 从Token-maxxing到Token套利

[35:40] 从OpenRouter到Metronome

[35:42] 本质上都是这个古老逻辑的AI升级版本

[35:45] 唯一不同的是速度

[35:47] 这一切不是在几十年里面慢慢展开的

[35:50] 而是在几个月内迅速发生的

[35:52] 当你看完这期节目的时候

[35:54] OpenRouter上面

[35:54] 可能又多了一个新模型冲上了榜单

[35:57] 某家云厂商可能又调了一次价

[35:59] 某个开发者可能又发现了一种

[36:01] 新的省token的方法

[36:03] 而这场游戏才刚刚开始

[36:05] 以上就是这期视频的全部内容了

[36:08] 你们的点赞、留言和转发

[36:09] 是支持我们《硅谷101》

[36:10] 做好深度科技和商业内容的最佳动力

[36:12] 我是陈茜

[36:13] 那我们就下期视频再见了 拜