什么是 API
在开始之前,让我们先搞懂一个概念:什么是模型 API?
简单来说,模型 API 就是别人把大模型(比如 Claude、Gemini、Qwen、DeepSeek、Grok 等)部署在云端服务器上,然后给你一个 HTTPS 地址。你只需要像调用普通网页接口一样,发一个 JSON 过去,带上你的消息内容,它就给你返回模型的回复。
例如在 Cherry Studio 里,你只需要在设置里填上 base URL 和 API Key,选择好模型,就能让你不必忍受本地部署的小模型的弱智,瞬间调用千亿参数的模型。
所以简单来说,就是把跑模型的重活扔给云端,把知识库一类的轻活留给本地。
下面我把目前我使用的免费平台列出,省的大家重复造轮子了。
这里不是指那些注册送几千万 tokens 或者赠费的平台,因为这些本质上只是一种试用,下面列出的都是真正持久免费的。
免费平台盘点
魔搭社区
通过API接口进行标准化,能让开源模型以更加轻量和迅速的方式被开发者使用起来,并集成到不同的AI应用中。魔搭通过API-Inference,支持广大开发者无需本地的GPU和环境设置,就能轻松的依托不同开源模型的能力,展开富有创造力的尝试,与工具结合调用,来构建多种多样的AI应用原型。
支持的模型
覆盖大语言模型、多模态模型、文生图等多个领域。例如:
- GLM-4.5
- GLM-4.6
- DeepSeek-R1-0528
- DeepSeek-V3.1
- DeepSeek-V3.2-Exp
- MiniMax-M1-80k
- QwQ-32B
- QVQ-72B-Preview
- Qwen3-235B-A22B-Thinking-2507
- Qwen3-235B-A22B-Instruct-2507
- Qwen3-VL-235B-A22B-Instruct
- Qwen3-Coder-480B-A35B-Instruct
- Qwen3-Embedding-8B
- …
使用限制
- 每日免费额度为 2000 次 API-Inference 调用,每个单模型额度上限为 500 次。
- 平台未明确限制请求速率,原则上保障开发者单并发正常使用。
NOTE部分热门或大规格模型可能会有更严格的单独限制。例如 deepseek-ai/DeepSeek-V3.2-Exp 目前每天仅限 100 次调用,且该限制会动态调整。
WARNING由于免费推理 API 由阿里云提供算力,所以你的 ModelScope 账号必须首先绑定阿里云账号。对应云账号还需要先通过实名认证后才能使用 API-Inference。
官网
智谱 AI
智谱大模型开放平台 bigmodel.cn,提供功能丰富、灵活易用、高性价比的大模型 API 服务,支持智能体开发与模型精调、推理、评测等,致力于构建高效通用的“一站式模型即服务” AI 开发新范式。
智谱旨在让 AI 技术惠及更广泛的用户群体,提供了一些免费的 flash 模型。
支持的模型
智谱 AI 开放平台支持的模型有:
- GLM-4.5-Flash
- GLM-4.1V-Thinking-Flash
- GLM-4-Flash-250414
- GLM-4V-Flash
- Cogview-3-Flash
- CogVideoX-Flash
使用限制
| 模型名称 | 并发数限制 |
|---|---|
| GLM-4.1V-Thinking-Flash | 5 |
| GLM-4V-Flash | 10 |
| GLM-4.5-Flash | 2 |
| GLM-4-Flash-250414 | 20 |
| CogView-3-Flash | 5 |
| CogVideoX-Flash | 3 |
NOTEGLM-4-Flash 当请求的上下文超过 8K 时,系统将限制并发为标准速率的 1%。
官网
GitHub Models
GitHub Models 是一个降低企业级 AI 采用门槛的工作区。 它通过将 AI 开发直接嵌入到熟悉的 GitHub 工作流,帮助你突破独立试验。 GitHub Models 提供了工具来测试大型语言模型 (LLM)、优化提示、评估输出并根据结构化指标做出明智的决策。
支持的模型
- OpenAI o3
- OpenAI o3-mini
- OpenAI o4-mini
- OpenAI o1-preview
- OpenAI gpt-5
- OpenAI gpt-5-mini
- Llama-3.1-405B-Instruct
- Llama 4 Scout 17B 16E Instruct
- DeepSeek R1 0528
- Grok 3
- Grok 3 Mini
- Phi-4-reasoning
- Phi-4-multimodal-instruct
- Codestral 25.01
- …
使用限制
模型速率限制分为两档:低或高。你可以在GitHub Marketplace 中的模型信息页面查看。但还有部分模型有更加严格的速率限制,如果你拥有Copilot Pro等可以获得更高的配额,具体参考下方表格。
| 速率限制层 | 速率限制 | Copilot 免费版 | Copilot Pro | Copilot Business | Copilot Enterprise |
|---|---|---|---|---|---|
| 低 | 每分钟请求数 | 15 | 15 | 15 | 20 |
| 每天请求数 | 150 | 150 | 300 | 450 | |
| 每个请求的令牌数 | 8000 输入,4000 输出 | 8000 输入,4000 输出 | 8000 输入,4000 输出 | 8000 输入,8000 输出 | |
| 并发请求 | 5 | 5 | 5 | 8 | |
| 高 | 每分钟请求数 | 10 | 10 | 10 | 15 |
| 每天请求数 | 50 | 50 | 100 | 150 | |
| 每个请求的令牌数 | 8000 输入,4000 输出 | 8000 输入,4000 输出 | 8000 输入,4000 输出 | 16000 输入,8000 输出 | |
| 并发请求 | 2 | 2 | 2 | 4 | |
| 嵌入 | 每分钟请求数 | 15 | 15 | 15 | 20 |
| 每天请求数 | 150 | 150 | 300 | 450 | |
| 每个请求的令牌数 | 64000 | 64000 | 64000 | 64000 | |
| 并发请求 | 5 | 5 | 5 | 8 | |
| Azure OpenAI o1-preview | 每分钟请求数 | 不适用 | 1 | 2 | 2 |
| 每天请求数 | 不适用 | 8 | 10 | 12 | |
| 每个请求的令牌数 | 不适用 | 4000 输入,4000 输出 | 4000 输入,4000 输出 | 4000 输入,8000 输出 | |
| 并发请求 | 不适用 | 1 | 1 | 1 | |
| Azure OpenAI o1、o3 和 gpt-5 | 每分钟请求数 | 不适用 | 1 | 2 | 2 |
| 每天请求数 | 不适用 | 8 | 10 | 12 | |
| 每个请求的令牌数 | 不适用 | 4000 输入,4000 输出 | 4000 输入,4000 输出 | 4000 输入,8000 输出 | |
| 并发请求 | 不适用 | 1 | 1 | 1 | |
| Azure OpenAI o1-mini、o3-mini、o4-mini、gpt-5-mini、gpt-5-nano 和 gpt-5-chat | 每分钟请求数 | 不适用 | 2 | 3 | 3 |
| 每天请求数 | 不适用 | 12 | 15 | 20 | |
| 每个请求的令牌数 | 不适用 | 4000 输入,4000 输出 | 4000 输入,4000 输出 | 4000 输入,4000 输出 | |
| 并发请求 | 不适用 | 1 | 1 | 1 | |
| DeepSeek-R1、DeepSeek-R1-0528 和 MAI-DS-R1 | 每分钟请求数 | 1 | 1 | 2 | 2 |
| 每天请求数 | 8 | 8 | 10 | 12 | |
| 每个请求的令牌数 | 4000 输入,4000 输出 | 4000 输入,4000 输出 | 4000 输入,4000 输出 | 4000 输入,4000 输出 | |
| 并发请求 | 1 | 1 | 1 | 1 | |
| xAI Grok-3 | 每分钟请求数 | 1 | 1 | 2 | 2 |
| 每天请求数 | 15 | 15 | 20 | 30 | |
| 每个请求的令牌数 | 4000 输入,4000 输出 | 4000 输入,4000 输出 | 4000 输入,8000 输出 | 4000 输入,16000 输出 | |
| 并发请求 | 1 | 1 | 1 | 1 | |
| xAI Grok-3-Mini | 每分钟请求数 | 2 | 2 | 3 | 3 |
| 每天请求数 | 30 | 30 | 40 | 50 | |
| 每个请求的令牌数 | 4000 输入,8000 输出 | 4000 输入,8000 输出 | 4000 输入,12000 输出 | 4000 输入,12000 输出 | |
| 并发请求 | 1 | 1 | 1 | 1 |
官网
心流开放平台
NOTE我自认为最良心的一个😍
iFlow CLI 是一款终端AI助手,可以分析代码、执行编程任务、处理文件操作。本指南帮您快速上手核心功能。
心流 API 提供与 OpenAI 100% 兼容的接口服务,让您可以无缝切换到我们的 AI 服务,享受更高性能和更具成本效益的解决方案。
支持的模型
- tstars2.0
- qwen3-coder-plus
- qwen3-max
- qwen3-vl-plus
- qwen3-max-preview
- kimi-k2-0905
- glm-4.6
- kimi-k2
- deepseek-v3.2
- deepseek-r1
- deepseek-v3
- qwen3-32b
- qwen3-235b-a22b-thinking-2507
- qwen3-235b-a22b-instruct
- qwen3-235b
使用限制
所有模型完全免费使用,并发请求数为1
官网
硅基流动
NOTE硅基流动的免费模型参数量都较小,对话也就当个快速模型用还行,不过免费的嵌入与重排序模型做知识库不错
作为集合顶尖大模型的一站式云服务平台,SiliconFlow 致力于为开发者提供更快、更全面、体验更丝滑的模型 API,助力开发者和企业聚焦产品创新,无须担心产品大规模推广所带来的高昂算力成本。
支持的模型
- THUDM/GLM-4.1V-9B-Thinking
- deepseek-ai/DeepSeek-R1-0528-Qwen3-8B
- THUDM/GLM-Z1-9B-0414
- THUDM/GLM-4-9B-0414
- deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
- BAAI/bge-m3
- netease-youdao/bce-embedding-base_v1
- …
使用限制
大多数是
| 用量级别 | RPM | TPM |
|---|---|---|
| L0 | 1,000 | 50,000 |