核心模型
GLM-5.2GLM-5.1GLM-5GLM-5-TurboGLM-4.7GLM-4.7-FlashXGLM-4.6GLM-4.5-AirGLM-4.5-AirXGLM-4-LongGLM-4-FlashX-250414GLM-4.7-FlashGLM-4-Flash-250414GLM-4-PlusGLM-4-Air-250414GLM-4-AirXGLM-4-AssistantGLM-5V-TurboGLM-4.6VGLM-4.6V-FlashXGLM-4.5VGLM-OCRAutoGLM-PhoneGLM-4.1V-Thinking-FlashXGLM-4.6V-FlashGLM-4.1V-Thinking-FlashGLM-4V-FlashGLM-4V-Plus-0111GLM-ImageCogView-4CogView-3-FlashCogVideoX-3CogVideoX-2Vidu Q1Vidu 2CogVideoX-FlashGLM-TTSGLM-TTS-CloneGLM-ASR-2512GLM-RealtimeGLM-4-VoiceEmbedding-3Embedding-2CharGLM-4EmohaaCodeGeeX-4Rerank
GLM-5.2
新旗舰文本模型,1M 上下文,Coding 能力开源 SOTA,长程任务执行更稳定;支持思考模式、工具调用与 MCP。
GLM-5.1
上一代旗舰文本模型,200K 上下文,支持思考模式、工具调用与 MCP;长程任务与 Coding 能力仍处第一梯队。
GLM-5-Turbo
面向复杂长任务与 Agent 优化的文本基座,200K 上下文,执行连续性好,刊例价略低于 GLM-5.2。
GLM-5V-Turbo
多模态 Coding 基座,支持图像/视频/文件/文本,200K 上下文,适合视觉 Agent 与前端复刻。
GLM-4.7
高智能主力文本模型,200K 上下文,编程、推理与智能体能力均衡,阶梯定价覆盖多档输入/输出组合。
更多模型详情请查看官网
其余核心模型名称仍在上方展示,完整说明以官网最新页面为准。
套餐详情
用量
GLM-5.2 是面向长任务时代的新旗舰,1M 上下文可承载项目级工程上下文,Coding 能力开源 SOTA,长程任务执行更稳定、工程规范遵循更可靠。
模型
刊例价 ¥8/¥28(缓存命中 ¥2/百万 tokens),最大输出 128K;支持思考模式、流式输出、Function Call、上下文缓存与结构化输出。
特点
缓存存储目前限时免费,缓存命中输入可显著低于刊例输入价;长对话、固定 system prompt 与项目级上下文场景应优先设计缓存策略。
适合复杂 Agent、长程 Coding、项目级工程交付与需要最强推理能力的生产后端;Coding Plan 内历史 GLM-5.1/GLM-5 调用会自动路由至此模型。
适合复杂 Agent、长程 Coding、项目级工程交付与需要最强推理能力的生产后端;Coding Plan 内历史 GLM-5.1/GLM-5 调用会自动路由至此模型。
适合人群
长上下文工程、复杂 Agent 与高质量生产后端
用量
GLM-5.1 是智谱最新旗舰,SWE-Bench Pro 58.4、长程任务可自主工作 8 小时,Coding 能力对齐 Claude Opus 4.6,适合 Agentic Engineering 与复杂工程交付。
模型
按输入长度阶梯计费(<32K 与 ≥32K 不同价),支持思考模式、流式输出、Function Call、上下文缓存与结构化输出;200K 上下文、最大 128K 输出。
特点
缓存存储目前限时免费,缓存命中输入可显著低于刊例输入价;长对话、固定 system prompt 场景应优先设计缓存策略。
适合复杂 Agent、长程 Coding、高质量文档/PPT 生产与需要最强推理能力的生产后端。
适合复杂 Agent、长程 Coding、高质量文档/PPT 生产与需要最强推理能力的生产后端。
适合人群
复杂 Agent、长程工程任务与高质量生产后端
用量
GLM-4.7 在通用对话、推理、编程与智能体能力上全面升级,200K 上下文;定价按输入长度与输出占比多档划分,页面 ¥2/¥8 为常见低档代表价。
模型
相比 5.2/5.1 系列刊例价更低,适合高频日常调用、中等复杂度编程与需要稳定性价比的生产流量。
特点
同样支持思考模式、工具调用与缓存;可与 GLM-4.5-Air 搭配做「难任务上 4.7、轻任务下 Air」的路由策略。
Coding Plan 用户日常编码默认主力模型之一,按量 API 用户亦常作为生产默认档。
Coding Plan 用户日常编码默认主力模型之一,按量 API 用户亦常作为生产默认档。
适合人群
高性价比生产调用、日常编程与通用智能体
用量
GLM-4.5-Air 在推理、编码与智能体任务上表现强劲,128K 上下文,是开放平台入门价最低的付费文本模型之一。
模型
按输入长度与输出占比分档,适合轻量问答、批量预处理、分类抽取与成本敏感的高并发接口。
特点
Coding Plan 全档位均可用,按量场景适合作为默认路由或 Flash 之外的稳定低价备选。
若业务以短输入、短输出为主,实际账单可长期维持在极低水平。
若业务以短输入、短输出为主,实际账单可长期维持在极低水平。
适合人群
轻量高频调用、成本敏感接口与批量预处理
用量
GLM-5V-Turbo 是智谱多模态 Agent 基座,兼顾视觉理解与 Coding,200K 上下文,适合视觉编程、UI 复刻与 Agent 工作流。
模型
支持图像、视频、文件与文本输入,按输入长度阶梯计价;复杂视觉推理与前端代码生成场景的首选视觉模型之一。
特点
与纯文本 GLM-5.2/5.1 分工明确:需要看图、看视频再写代码时切 5V,纯文本工程任务用 5.2/4.7 更省。
缓存命中输入 ¥1.2/百万 tokens(<32K 档),长多模态会话同样可受益于缓存设计。
缓存命中输入 ¥1.2/百万 tokens(<32K 档),长多模态会话同样可受益于缓存设计。
适合人群
视觉编程、UI 理解与多模态 Agent 团队
用量
GLM-4.7-Flash 是 GLM-4.7 基座的普惠免费版,200K 上下文,适合原型验证、教学演示与低频试用。
模型
输入、输出、缓存均为免费,但须遵守平台并发与公平使用策略,不适合无限制生产放量。
特点
与 GLM-4-Flash-250414、GLM-4.6V-Flash 等其它免费模型可按场景能力差异做互补路由。
验证通过后应迁移到 GLM-4.7 或 GLM-4.5-Air 等付费档以获得稳定 SLA 与更高并发。
验证通过后应迁移到 GLM-4.7 或 GLM-4.5-Air 等付费档以获得稳定 SLA 与更高并发。
适合人群
原型验证、学习与低频试用
注意事项
- 本页 `entryPrice` 与各 tier 展示价均为最低档代表价,非长上下文最终账单。GLM-5.2:¥8/¥28(缓存命中 ¥2,1M 上下文)。GLM-5.1:<32K 输入 ¥6/¥24(缓存命中 ¥1.3),≥32K 输入 ¥8/¥28(命中 ¥2)。GLM-4.7 另按输出占比分档:<32K 且输出 <20% 为 ¥2/¥8,同输入输出 ≥20% 为 ¥3/¥14,输入 32K–200K 为 ¥4/¥16。GLM-4.5-Air:<32K 低档 ¥0.8/¥2,32K–128K 为 ¥1.2/¥8。单次请求按实际所处档位单价结算。
- GLM-4.7-Flash、GLM-4-Flash-250414、GLM-4.6V-Flash、GLM-4.1V-Thinking-Flash、GLM-4V-Flash、CogView-3-Flash、CogVideoX-Flash 等免费模型仍计入 API 目录;调用须遵守平台速率与公平使用规则。
- 图像生成 GLM-Image ¥0.1/次,CogView-4 ¥0.06/次;视频 CogVideoX-3 ¥1/次。语音 GLM-TTS、GLM-4-Voice 等见定价页语音模型章节。
- Coding Plan 团队版超额按量部分按 API 刊例价 9 折计费,但须使用团队套餐 Key;普通开放平台 API Key 走账户余额实时扣费。
支持的编程工具
OpenAI-compatible APIAnthropic-compatible APIContext CacheBatch APIFunction CallMCP
价格与模型数据均来源于厂商官方网站
常见问题
常见问题7 条