智谱 GLM API

GLM-5.2

GLM-5.2 新旗舰按量 API，阶梯定价含缓存命中，覆盖文本/视觉/语音/图像/视频全模态

Token API

核心模型

GLM-5.2GLM-5.1GLM-5GLM-5-TurboGLM-4.7GLM-4.7-FlashXGLM-4.6GLM-4.5-AirGLM-4.5-AirXGLM-4-LongGLM-4-FlashX-250414GLM-4.7-FlashGLM-4-Flash-250414GLM-4-PlusGLM-4-Air-250414GLM-4-AirXGLM-4-AssistantGLM-5V-TurboGLM-4.6VGLM-4.6V-FlashXGLM-4.5VGLM-OCRAutoGLM-PhoneGLM-4.1V-Thinking-FlashXGLM-4.6V-FlashGLM-4.1V-Thinking-FlashGLM-4V-FlashGLM-4V-Plus-0111GLM-ImageCogView-4CogView-3-FlashCogVideoX-3CogVideoX-2Vidu Q1Vidu 2CogVideoX-FlashGLM-TTSGLM-TTS-CloneGLM-ASR-2512GLM-RealtimeGLM-4-VoiceEmbedding-3Embedding-2CharGLM-4EmohaaCodeGeeX-4Rerank

GLM-5.2

新旗舰文本模型，1M 上下文，Coding 能力开源 SOTA，长程任务执行更稳定；支持思考模式、工具调用与 MCP。

GLM-5.1

上一代旗舰文本模型，200K 上下文，支持思考模式、工具调用与 MCP；长程任务与 Coding 能力仍处第一梯队。

GLM-5-Turbo

面向复杂长任务与 Agent 优化的文本基座，200K 上下文，执行连续性好，刊例价略低于 GLM-5.2。

GLM-5V-Turbo

多模态 Coding 基座，支持图像/视频/文件/文本，200K 上下文，适合视觉 Agent 与前端复刻。

GLM-4.7

高智能主力文本模型，200K 上下文，编程、推理与智能体能力均衡，阶梯定价覆盖多档输入/输出组合。

更多模型详情请查看官网

其余核心模型名称仍在上方展示，完整说明以官网最新页面为准。

前往官网

套餐详情

GLM-5.2

新旗舰推荐

输入价格

¥8

输出价格

¥28

官网

GLM-5.2

新旗舰推荐

输入价格

¥8

输出价格

¥28

官网

用量

GLM-5.2 是面向长任务时代的新旗舰，1M 上下文可承载项目级工程上下文，Coding 能力开源 SOTA，长程任务执行更稳定、工程规范遵循更可靠。

模型

刊例价 ¥8/¥28（缓存命中 ¥2/百万 tokens），最大输出 128K；支持思考模式、流式输出、Function Call、上下文缓存与结构化输出。

特点

缓存存储目前限时免费，缓存命中输入可显著低于刊例输入价；长对话、固定 system prompt 与项目级上下文场景应优先设计缓存策略。
适合复杂 Agent、长程 Coding、项目级工程交付与需要最强推理能力的生产后端；Coding Plan 内历史 GLM-5.1/GLM-5 调用会自动路由至此模型。

适合人群

长上下文工程、复杂 Agent 与高质量生产后端

GLM-5.1

旗舰

输入价格

¥6

输出价格

¥24

官网

GLM-5.1

旗舰

输入价格

¥6

输出价格

¥24

官网

用量

GLM-5.1 是智谱最新旗舰，SWE-Bench Pro 58.4、长程任务可自主工作 8 小时，Coding 能力对齐 Claude Opus 4.6，适合 Agentic Engineering 与复杂工程交付。

模型

按输入长度阶梯计费（<32K 与 ≥32K 不同价），支持思考模式、流式输出、Function Call、上下文缓存与结构化输出；200K 上下文、最大 128K 输出。

特点

缓存存储目前限时免费，缓存命中输入可显著低于刊例输入价；长对话、固定 system prompt 场景应优先设计缓存策略。
适合复杂 Agent、长程 Coding、高质量文档/PPT 生产与需要最强推理能力的生产后端。

适合人群

复杂 Agent、长程工程任务与高质量生产后端

GLM-4.7

高智能主力

输入价格

¥2

输出价格

¥8

官网

GLM-4.7

高智能主力

输入价格

¥2

输出价格

¥8

官网

用量

GLM-4.7 在通用对话、推理、编程与智能体能力上全面升级，200K 上下文；定价按输入长度与输出占比多档划分，页面 ¥2/¥8 为常见低档代表价。

模型

相比 5.2/5.1 系列刊例价更低，适合高频日常调用、中等复杂度编程与需要稳定性价比的生产流量。

特点

同样支持思考模式、工具调用与缓存；可与 GLM-4.5-Air 搭配做「难任务上 4.7、轻任务下 Air」的路由策略。
Coding Plan 用户日常编码默认主力模型之一，按量 API 用户亦常作为生产默认档。

适合人群

高性价比生产调用、日常编程与通用智能体

GLM-4.5-Air

高性价比

输入价格

¥0.8

输出价格

¥2

官网

GLM-4.5-Air

高性价比

输入价格

¥0.8

输出价格

¥2

官网

用量

GLM-4.5-Air 在推理、编码与智能体任务上表现强劲，128K 上下文，是开放平台入门价最低的付费文本模型之一。

模型

按输入长度与输出占比分档，适合轻量问答、批量预处理、分类抽取与成本敏感的高并发接口。

特点

Coding Plan 全档位均可用，按量场景适合作为默认路由或 Flash 之外的稳定低价备选。
若业务以短输入、短输出为主，实际账单可长期维持在极低水平。

适合人群

轻量高频调用、成本敏感接口与批量预处理

GLM-5V-Turbo

多模态 Coding

输入价格

¥5

输出价格

¥22

官网

GLM-5V-Turbo

多模态 Coding

输入价格

¥5

输出价格

¥22

官网

用量

GLM-5V-Turbo 是智谱多模态 Agent 基座，兼顾视觉理解与 Coding，200K 上下文，适合视觉编程、UI 复刻与 Agent 工作流。

模型

支持图像、视频、文件与文本输入，按输入长度阶梯计价；复杂视觉推理与前端代码生成场景的首选视觉模型之一。

特点

与纯文本 GLM-5.2/5.1 分工明确：需要看图、看视频再写代码时切 5V，纯文本工程任务用 5.2/4.7 更省。
缓存命中输入 ¥1.2/百万 tokens（<32K 档），长多模态会话同样可受益于缓存设计。

适合人群

视觉编程、UI 理解与多模态 Agent 团队

GLM-4.7-Flash

免费

输入价格

¥0

输出价格

¥0

官网

GLM-4.7-Flash

免费

输入价格

¥0

输出价格

¥0

官网

用量

GLM-4.7-Flash 是 GLM-4.7 基座的普惠免费版，200K 上下文，适合原型验证、教学演示与低频试用。

模型

输入、输出、缓存均为免费，但须遵守平台并发与公平使用策略，不适合无限制生产放量。

特点

与 GLM-4-Flash-250414、GLM-4.6V-Flash 等其它免费模型可按场景能力差异做互补路由。
验证通过后应迁移到 GLM-4.7 或 GLM-4.5-Air 等付费档以获得稳定 SLA 与更高并发。

适合人群

原型验证、学习与低频试用

注意事项

本页 `entryPrice` 与各 tier 展示价均为最低档代表价，非长上下文最终账单。GLM-5.2：¥8/¥28（缓存命中 ¥2，1M 上下文）。GLM-5.1：<32K 输入 ¥6/¥24（缓存命中 ¥1.3），≥32K 输入 ¥8/¥28（命中 ¥2）。GLM-4.7 另按输出占比分档：<32K 且输出 <20% 为 ¥2/¥8，同输入输出 ≥20% 为 ¥3/¥14，输入 32K–200K 为 ¥4/¥16。GLM-4.5-Air：<32K 低档 ¥0.8/¥2，32K–128K 为 ¥1.2/¥8。单次请求按实际所处档位单价结算。
GLM-4.7-Flash、GLM-4-Flash-250414、GLM-4.6V-Flash、GLM-4.1V-Thinking-Flash、GLM-4V-Flash、CogView-3-Flash、CogVideoX-Flash 等免费模型仍计入 API 目录；调用须遵守平台速率与公平使用规则。
图像生成 GLM-Image ¥0.1/次，CogView-4 ¥0.06/次；视频 CogVideoX-3 ¥1/次。语音 GLM-TTS、GLM-4-Voice 等见定价页语音模型章节。
Coding Plan 团队版超额按量部分按 API 刊例价 9 折计费，但须使用团队套餐 Key；普通开放平台 API Key 走账户余额实时扣费。

支持的编程工具

OpenAI-compatible APIAnthropic-compatible APIContext CacheBatch APIFunction CallMCP

价格与模型数据均来源于厂商官方网站

常见问题

常见问题·7

常见问题

7 条