Google这次推出的Gemini 3.1 Flash-Lite,核心卖点就一个字:便宜。
每百万输入token只要0.25美元,输出1.5美元。对比一下Gemini 3.1 Pro的每百万输入2美元、输出18美元——价格直接打到了八分之一。
这是Google有史以来最便宜的Gemini模型。
速度和价格都变了
Flash-Lite是3月3日以Preview形式上线的,目前在Google AI Studio和Vertex AI上可以用。定位是高并发、低成本场景——每天要跑几十万次请求的那种。
性能上有几个数字值得注意:
- 生成速度:比Gemini 2.5 Flash快了45%
- 首token延迟:缩短了2.5倍
- 吞吐量:约207 tokens/秒
- GPQA Diamond(科学推理基准):86.9%,相比2.5 Flash Lite提升了约14个百分点
这个GPQA分数还挺实在的。要知道86.9%已经比不少”旗舰”模型强了,在这个价格点上挂这个分数,是真的有底气。
不过有个地方要说清楚:在HLA这个更极端的推理基准上,Flash-Lite只有16%,而3.1 Pro能到44.4%。高端推理任务还是明显差一个量级的。
技术底子和架构
Flash-Lite底层是基于Gemini 3 Pro架构的混合专家(MoE)设计,同样支持:
- 上下文窗口:100万token
- 输入模态:文字、图片、音频、视频全都支持
- 输出长度:最长64K token
MoE架构是这个价格能跑出这个性能的关键——激活参数少,单次推理成本低。这和DeepSeek V3、Qwen3的思路是一脉相承的。
适合干什么
Google给这个模型定的场景非常务实:
- 内容审核:批量跑违规检测
- 数据提取:从非结构化文本里抽字段
- 意图路由:多agent系统里做第一层分流判断
- 客服自动化:回复标准化问题
- 翻译和转录:大量文本的语言处理
简单说就是:不需要深度推理,但量大、对延迟敏感、预算有限的场景。
这个组合在企业里非常普遍。很多公司的AI支出有一半以上是花在这种”没技术含量但必须跑”的任务上。
和竞品比价
| 模型 | 输入($/1M tokens) | 输出($/1M tokens) |
|---|---|---|
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 |
| Gemini 3.1 Pro | $2.00 | $18.00 |
| GPT-4o Mini | ~$0.15 | ~$0.60 |
| Claude 4.5 Haiku | ~$0.25 | ~$1.25 |
在这个价位段,竞争其实挺激烈的。GPT-4o Mini更便宜,Claude 4.5 Haiku也在同一价格带。Flash-Lite的优势是速度(2.5x更快的首token)和1M的超长上下文,后者在其他同价位模型里确实罕见。
怎么看这个发布
Google推出Flash-Lite这个动作,本质上是在吃高并发市场的份额。
大量中小开发者和初创公司做产品原型的时候,首选标准是”够用就行+便宜”。Gemini 3.1 Pro的价格对他们来说是实打实的门槛,但Flash-Lite这个定价基本上不构成障碍了。
同时,Google也在用这个低价模型把开发者留在Vertex AI的生态里。先用Flash-Lite把流量拉进来,真正上生产的重度任务再往Pro和Ultra迁移——这个转化路径Google现在已经在很多客户上验证过了。
成本敏感的API场景,现在又多了一个选择。
参考来源:Google launches speedy Gemini 3.1 Flash-Lite model in preview(SiliconANGLE);Gemini 3.1 Flash Lite Review 2026: Pricing, Benchmarks, Features & Best Use Cases(AI/ML API Blog);Gemini 3.1 Flash Lite: Our most cost-effective AI model yet(Google Blog)