Google最便宜的Gemini来了：Flash-Lite每百万token两毛五，性能够不够用？ - News

Google这次推出的Gemini 3.1 Flash-Lite，核心卖点就一个字：便宜。

每百万输入token只要0.25美元，输出1.5美元。对比一下Gemini 3.1 Pro的每百万输入2美元、输出18美元——价格直接打到了八分之一。

这是Google有史以来最便宜的Gemini模型。

速度和价格都变了

Flash-Lite是3月3日以Preview形式上线的，目前在Google AI Studio和Vertex AI上可以用。定位是高并发、低成本场景——每天要跑几十万次请求的那种。

性能上有几个数字值得注意：

生成速度：比Gemini 2.5 Flash快了45%
首token延迟：缩短了2.5倍
吞吐量：约207 tokens/秒
GPQA Diamond（科学推理基准）：86.9%，相比2.5 Flash Lite提升了约14个百分点

这个GPQA分数还挺实在的。要知道86.9%已经比不少”旗舰”模型强了，在这个价格点上挂这个分数，是真的有底气。

不过有个地方要说清楚：在HLA这个更极端的推理基准上，Flash-Lite只有16%，而3.1 Pro能到44.4%。高端推理任务还是明显差一个量级的。

技术底子和架构

Flash-Lite底层是基于Gemini 3 Pro架构的混合专家（MoE）设计，同样支持：

上下文窗口：100万token
输入模态：文字、图片、音频、视频全都支持
输出长度：最长64K token

MoE架构是这个价格能跑出这个性能的关键——激活参数少，单次推理成本低。这和DeepSeek V3、Qwen3的思路是一脉相承的。

适合干什么

Google给这个模型定的场景非常务实：

内容审核：批量跑违规检测
数据提取：从非结构化文本里抽字段
意图路由：多agent系统里做第一层分流判断
客服自动化：回复标准化问题
翻译和转录：大量文本的语言处理

简单说就是：不需要深度推理，但量大、对延迟敏感、预算有限的场景。

这个组合在企业里非常普遍。很多公司的AI支出有一半以上是花在这种”没技术含量但必须跑”的任务上。

和竞品比价

模型	输入（$/1M tokens）	输出（$/1M tokens）
Gemini 3.1 Flash-Lite	$0.25	$1.50
Gemini 3.1 Pro	$2.00	$18.00
GPT-4o Mini	~$0.15	~$0.60
Claude 4.5 Haiku	~$0.25	~$1.25

在这个价位段，竞争其实挺激烈的。GPT-4o Mini更便宜，Claude 4.5 Haiku也在同一价格带。Flash-Lite的优势是速度（2.5x更快的首token）和1M的超长上下文，后者在其他同价位模型里确实罕见。

怎么看这个发布

Google推出Flash-Lite这个动作，本质上是在吃高并发市场的份额。

大量中小开发者和初创公司做产品原型的时候，首选标准是”够用就行+便宜”。Gemini 3.1 Pro的价格对他们来说是实打实的门槛，但Flash-Lite这个定价基本上不构成障碍了。

同时，Google也在用这个低价模型把开发者留在Vertex AI的生态里。先用Flash-Lite把流量拉进来，真正上生产的重度任务再往Pro和Ultra迁移——这个转化路径Google现在已经在很多客户上验证过了。

成本敏感的API场景，现在又多了一个选择。

参考来源：Google launches speedy Gemini 3.1 Flash-Lite model in preview（SiliconANGLE）；Gemini 3.1 Flash Lite Review 2026: Pricing, Benchmarks, Features & Best Use Cases（AI/ML API Blog）；Gemini 3.1 Flash Lite: Our most cost-effective AI model yet（Google Blog）