免费的模型API平台盘点

什么是 API#

在开始之前，让我们先搞懂一个概念：什么是模型 API？

简单来说，模型 API 就是别人把大模型（比如 Claude、Gemini、Qwen、DeepSeek、Grok 等）部署在云端服务器上，然后给你一个 HTTPS 地址。你只需要像调用普通网页接口一样，发一个 JSON 过去，带上你的消息内容，它就给你返回模型的回复。

例如在 Cherry Studio 里，你只需要在设置里填上 base URL 和 API Key，选择好模型，就能让你不必忍受本地部署的小模型的弱智，瞬间调用千亿参数的模型。

所以简单来说，就是把跑模型的重活扔给云端，把知识库一类的轻活留给本地。

下面我把目前我使用的免费平台列出，省的大家重复造轮子了。

这里不是指那些注册送几千万 tokens 或者赠费的平台，因为这些本质上只是一种试用，下面列出的都是真正持久免费的。

免费平台盘点#

魔搭社区#

通过API接口进行标准化，能让开源模型以更加轻量和迅速的方式被开发者使用起来，并集成到不同的AI应用中。魔搭通过API-Inference，支持广大开发者无需本地的GPU和环境设置，就能轻松的依托不同开源模型的能力，展开富有创造力的尝试，与工具结合调用，来构建多种多样的AI应用原型。

支持的模型#

覆盖大语言模型、多模态模型、文生图等多个领域。例如：

GLM-4.5
GLM-4.6
DeepSeek-R1-0528
DeepSeek-V3.1
DeepSeek-V3.2-Exp
MiniMax-M1-80k
QwQ-32B
QVQ-72B-Preview
Qwen3-235B-A22B-Thinking-2507
Qwen3-235B-A22B-Instruct-2507
Qwen3-VL-235B-A22B-Instruct
Qwen3-Coder-480B-A35B-Instruct
Qwen3-Embedding-8B
…

使用限制#

每日免费额度为 2000 次 API-Inference 调用，每个单模型额度上限为 500 次。
平台未明确限制请求速率，原则上保障开发者单并发正常使用。

NOTE
部分热门或大规格模型可能会有更严格的单独限制。例如 deepseek-ai/DeepSeek-V3.2-Exp 目前每天仅限 100 次调用，且该限制会动态调整。

WARNING
由于免费推理 API 由阿里云提供算力，所以你的 ModelScope 账号必须首先绑定阿里云账号。对应云账号还需要先通过实名认证后才能使用 API-Inference。

官网#

ModelScope 魔搭社区

智谱 AI#

智谱大模型开放平台 bigmodel.cn，提供功能丰富、灵活易用、高性价比的大模型 API 服务，支持智能体开发与模型精调、推理、评测等，致力于构建高效通用的“一站式模型即服务” AI 开发新范式。

智谱旨在让 AI 技术惠及更广泛的用户群体，提供了一些免费的 flash 模型。

支持的模型#

智谱 AI 开放平台支持的模型有：

GLM-4.5-Flash
GLM-4.1V-Thinking-Flash
GLM-4-Flash-250414
GLM-4V-Flash
Cogview-3-Flash
CogVideoX-Flash

使用限制#

模型名称	并发数限制
GLM-4.1V-Thinking-Flash	5
GLM-4V-Flash	10
GLM-4.5-Flash	2
GLM-4-Flash-250414	20
CogView-3-Flash	5
CogVideoX-Flash	3

NOTE
GLM-4-Flash 当请求的上下文超过 8K 时，系统将限制并发为标准速率的 1%。

官网#

智谱 AI 开放平台

GitHub Models#

GitHub Models 是一个降低企业级 AI 采用门槛的工作区。它通过将 AI 开发直接嵌入到熟悉的 GitHub 工作流，帮助你突破独立试验。 GitHub Models 提供了工具来测试大型语言模型 (LLM)、优化提示、评估输出并根据结构化指标做出明智的决策。

支持的模型#

OpenAI o3
OpenAI o3-mini
OpenAI o4-mini
OpenAI o1-preview
OpenAI gpt-5
OpenAI gpt-5-mini
Llama-3.1-405B-Instruct
Llama 4 Scout 17B 16E Instruct
DeepSeek R1 0528
Grok 3
Grok 3 Mini
Phi-4-reasoning
Phi-4-multimodal-instruct
Codestral 25.01
…

使用限制#

模型速率限制分为两档：低或高。你可以在GitHub Marketplace 中的模型信息页面查看。但还有部分模型有更加严格的速率限制，如果你拥有Copilot Pro等可以获得更高的配额，具体参考下方表格。

速率限制层	速率限制	Copilot 免费版	Copilot Pro	Copilot Business	Copilot Enterprise
低	每分钟请求数	15	15	15	20
	每天请求数	150	150	300	450
	每个请求的令牌数	8000 输入，4000 输出	8000 输入，4000 输出	8000 输入，4000 输出	8000 输入，8000 输出
	并发请求	5	5	5	8
高	每分钟请求数	10	10	10	15
	每天请求数	50	50	100	150
	每个请求的令牌数	8000 输入，4000 输出	8000 输入，4000 输出	8000 输入，4000 输出	16000 输入，8000 输出
	并发请求	2	2	2	4
嵌入	每分钟请求数	15	15	15	20
	每天请求数	150	150	300	450
	每个请求的令牌数	64000	64000	64000	64000
	并发请求	5	5	5	8
Azure OpenAI o1-preview	每分钟请求数	不适用	1	2	2
	每天请求数	不适用	8	10	12
	每个请求的令牌数	不适用	4000 输入，4000 输出	4000 输入，4000 输出	4000 输入，8000 输出
	并发请求	不适用	1	1	1
Azure OpenAI o1、o3 和 gpt-5	每分钟请求数	不适用	1	2	2
	每天请求数	不适用	8	10	12
	每个请求的令牌数	不适用	4000 输入，4000 输出	4000 输入，4000 输出	4000 输入，8000 输出
	并发请求	不适用	1	1	1
Azure OpenAI o1-mini、o3-mini、o4-mini、gpt-5-mini、gpt-5-nano 和 gpt-5-chat	每分钟请求数	不适用	2	3	3
	每天请求数	不适用	12	15	20
	每个请求的令牌数	不适用	4000 输入，4000 输出	4000 输入，4000 输出	4000 输入，4000 输出
	并发请求	不适用	1	1	1
DeepSeek-R1、DeepSeek-R1-0528 和 MAI-DS-R1	每分钟请求数	1	1	2	2
	每天请求数	8	8	10	12
	每个请求的令牌数	4000 输入，4000 输出	4000 输入，4000 输出	4000 输入，4000 输出	4000 输入，4000 输出
	并发请求	1	1	1	1
xAI Grok-3	每分钟请求数	1	1	2	2
	每天请求数	15	15	20	30
	每个请求的令牌数	4000 输入，4000 输出	4000 输入，4000 输出	4000 输入，8000 输出	4000 输入，16000 输出
	并发请求	1	1	1	1
xAI Grok-3-Mini	每分钟请求数	2	2	3	3
	每天请求数	30	30	40	50
	每个请求的令牌数	4000 输入，8000 输出	4000 输入，8000 输出	4000 输入，12000 输出	4000 输入，12000 输出
	并发请求	1	1	1	1

官网#

GitHub Models

心流开放平台#

NOTE
我自认为最良心的一个😍

iFlow CLI 是一款终端AI助手，可以分析代码、执行编程任务、处理文件操作。本指南帮您快速上手核心功能。

心流 API 提供与 OpenAI 100% 兼容的接口服务，让您可以无缝切换到我们的 AI 服务，享受更高性能和更具成本效益的解决方案。

支持的模型#

tstars2.0
qwen3-coder-plus
qwen3-max
qwen3-vl-plus
qwen3-max-preview
kimi-k2-0905
glm-4.6
kimi-k2
deepseek-v3.2
deepseek-r1
deepseek-v3
qwen3-32b
qwen3-235b-a22b-thinking-2507
qwen3-235b-a22b-instruct
qwen3-235b

使用限制#

所有模型完全免费使用，并发请求数为1

官网#

心流开放平台API

硅基流动#

NOTE
硅基流动的免费模型参数量都较小，对话也就当个快速模型用还行，不过免费的嵌入与重排序模型做知识库不错

作为集合顶尖大模型的一站式云服务平台，SiliconFlow 致力于为开发者提供更快、更全面、体验更丝滑的模型 API，助力开发者和企业聚焦产品创新，无须担心产品大规模推广所带来的高昂算力成本。

支持的模型#

THUDM/GLM-4.1V-9B-Thinking
deepseek-ai/DeepSeek-R1-0528-Qwen3-8B
THUDM/GLM-Z1-9B-0414
THUDM/GLM-4-9B-0414
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
BAAI/bge-m3
netease-youdao/bce-embedding-base_v1
…

使用限制#

大多数是

用量级别	RPM	TPM
L0	1,000	50,000

官网#

硅基流动 SiliconFlow