Google最便宜的Gemini来了:Flash-Lite每百万token两毛五,性能够不够用?

Google这次推出的Gemini 3.1 Flash-Lite,核心卖点就一个字:便宜。

每百万输入token只要0.25美元,输出1.5美元。对比一下Gemini 3.1 Pro的每百万输入2美元、输出18美元——价格直接打到了八分之一。

这是Google有史以来最便宜的Gemini模型。

速度和价格都变了

Flash-Lite是3月3日以Preview形式上线的,目前在Google AI Studio和Vertex AI上可以用。定位是高并发、低成本场景——每天要跑几十万次请求的那种。

性能上有几个数字值得注意:

  • 生成速度:比Gemini 2.5 Flash快了45%
  • 首token延迟:缩短了2.5倍
  • 吞吐量:约207 tokens/秒
  • GPQA Diamond(科学推理基准):86.9%,相比2.5 Flash Lite提升了约14个百分点

这个GPQA分数还挺实在的。要知道86.9%已经比不少”旗舰”模型强了,在这个价格点上挂这个分数,是真的有底气。

不过有个地方要说清楚:在HLA这个更极端的推理基准上,Flash-Lite只有16%,而3.1 Pro能到44.4%。高端推理任务还是明显差一个量级的。

技术底子和架构

Flash-Lite底层是基于Gemini 3 Pro架构的混合专家(MoE)设计,同样支持:

  • 上下文窗口:100万token
  • 输入模态:文字、图片、音频、视频全都支持
  • 输出长度:最长64K token

MoE架构是这个价格能跑出这个性能的关键——激活参数少,单次推理成本低。这和DeepSeek V3、Qwen3的思路是一脉相承的。

适合干什么

Google给这个模型定的场景非常务实:

  • 内容审核:批量跑违规检测
  • 数据提取:从非结构化文本里抽字段
  • 意图路由:多agent系统里做第一层分流判断
  • 客服自动化:回复标准化问题
  • 翻译和转录:大量文本的语言处理

简单说就是:不需要深度推理,但量大、对延迟敏感、预算有限的场景。

这个组合在企业里非常普遍。很多公司的AI支出有一半以上是花在这种”没技术含量但必须跑”的任务上。

和竞品比价

模型 输入($/1M tokens) 输出($/1M tokens)
Gemini 3.1 Flash-Lite $0.25 $1.50
Gemini 3.1 Pro $2.00 $18.00
GPT-4o Mini ~$0.15 ~$0.60
Claude 4.5 Haiku ~$0.25 ~$1.25

在这个价位段,竞争其实挺激烈的。GPT-4o Mini更便宜,Claude 4.5 Haiku也在同一价格带。Flash-Lite的优势是速度(2.5x更快的首token)和1M的超长上下文,后者在其他同价位模型里确实罕见。

怎么看这个发布

Google推出Flash-Lite这个动作,本质上是在吃高并发市场的份额。

大量中小开发者和初创公司做产品原型的时候,首选标准是”够用就行+便宜”。Gemini 3.1 Pro的价格对他们来说是实打实的门槛,但Flash-Lite这个定价基本上不构成障碍了。

同时,Google也在用这个低价模型把开发者留在Vertex AI的生态里。先用Flash-Lite把流量拉进来,真正上生产的重度任务再往Pro和Ultra迁移——这个转化路径Google现在已经在很多客户上验证过了。

成本敏感的API场景,现在又多了一个选择。

参考来源:Google launches speedy Gemini 3.1 Flash-Lite model in preview(SiliconANGLE);Gemini 3.1 Flash Lite Review 2026: Pricing, Benchmarks, Features & Best Use Cases(AI/ML API Blog);Gemini 3.1 Flash Lite: Our most cost-effective AI model yet(Google Blog)