1719 字
9 分钟
免费的模型API平台盘点
2025-12-05
gemini-aiAI 摘要
Gemini 2.5 Pro

什么是 API#

在开始之前,让我们先搞懂一个概念:什么是模型 API?

简单来说,模型 API 就是别人把大模型(比如 Claude、Gemini、Qwen、DeepSeek、Grok 等)部署在云端服务器上,然后给你一个 HTTPS 地址。你只需要像调用普通网页接口一样,发一个 JSON 过去,带上你的消息内容,它就给你返回模型的回复。

例如在 Cherry Studio 里,你只需要在设置里填上 base URL 和 API Key,选择好模型,就能让你不必忍受本地部署的小模型的弱智,瞬间调用千亿参数的模型。

所以简单来说,就是把跑模型的重活扔给云端,把知识库一类的轻活留给本地。

下面我把目前我使用的免费平台列出,省的大家重复造轮子了。

这里不是指那些注册送几千万 tokens 或者赠费的平台,因为这些本质上只是一种试用,下面列出的都是真正持久免费的。


免费平台盘点#

魔搭社区#

通过API接口进行标准化,能让开源模型以更加轻量和迅速的方式被开发者使用起来,并集成到不同的AI应用中。魔搭通过API-Inference,支持广大开发者无需本地的GPU和环境设置,就能轻松的依托不同开源模型的能力,展开富有创造力的尝试,与工具结合调用,来构建多种多样的AI应用原型。

支持的模型#

覆盖大语言模型、多模态模型、文生图等多个领域。例如:

  • GLM-4.5
  • GLM-4.6
  • DeepSeek-R1-0528
  • DeepSeek-V3.1
  • DeepSeek-V3.2-Exp
  • MiniMax-M1-80k
  • QwQ-32B
  • QVQ-72B-Preview
  • Qwen3-235B-A22B-Thinking-2507
  • Qwen3-235B-A22B-Instruct-2507
  • Qwen3-VL-235B-A22B-Instruct
  • Qwen3-Coder-480B-A35B-Instruct
  • Qwen3-Embedding-8B

使用限制#

  • 每日免费额度为 2000 次 API-Inference 调用,每个单模型额度上限为 500 次。
  • 平台未明确限制请求速率,原则上保障开发者单并发正常使用。
NOTE

部分热门或大规格模型可能会有更严格的单独限制。例如 deepseek-ai/DeepSeek-V3.2-Exp 目前每天仅限 100 次调用,且该限制会动态调整。

WARNING

由于免费推理 API 由阿里云提供算力,所以你的 ModelScope 账号必须首先绑定阿里云账号。对应云账号还需要先通过实名认证后才能使用 API-Inference。

官网#

ModelScope 魔搭社区


智谱 AI#

智谱大模型开放平台 bigmodel.cn,提供功能丰富、灵活易用、高性价比的大模型 API 服务,支持智能体开发与模型精调、推理、评测等,致力于构建高效通用的“一站式模型即服务” AI 开发新范式。

智谱旨在让 AI 技术惠及更广泛的用户群体,提供了一些免费的 flash 模型。

支持的模型#

智谱 AI 开放平台支持的模型有:

  • GLM-4.5-Flash
  • GLM-4.1V-Thinking-Flash
  • GLM-4-Flash-250414
  • GLM-4V-Flash
  • Cogview-3-Flash
  • CogVideoX-Flash

使用限制#

模型名称并发数限制
GLM-4.1V-Thinking-Flash5
GLM-4V-Flash10
GLM-4.5-Flash2
GLM-4-Flash-25041420
CogView-3-Flash5
CogVideoX-Flash3
NOTE

GLM-4-Flash 当请求的上下文超过 8K 时,系统将限制并发为标准速率的 1%。

官网#

智谱 AI 开放平台

GitHub Models#

GitHub Models 是一个降低企业级 AI 采用门槛的工作区。 它通过将 AI 开发直接嵌入到熟悉的 GitHub 工作流,帮助你突破独立试验。 GitHub Models 提供了工具来测试大型语言模型 (LLM)、优化提示、评估输出并根据结构化指标做出明智的决策。

支持的模型#

  • OpenAI o3
  • OpenAI o3-mini
  • OpenAI o4-mini
  • OpenAI o1-preview
  • OpenAI gpt-5
  • OpenAI gpt-5-mini
  • Llama-3.1-405B-Instruct
  • Llama 4 Scout 17B 16E Instruct
  • DeepSeek R1 0528
  • Grok 3
  • Grok 3 Mini
  • Phi-4-reasoning
  • Phi-4-multimodal-instruct
  • Codestral 25.01

使用限制#

模型速率限制分为两档:低或高。你可以在GitHub Marketplace 中的模型信息页面查看。但还有部分模型有更加严格的速率限制,如果你拥有Copilot Pro等可以获得更高的配额,具体参考下方表格。

速率限制层速率限制Copilot 免费版Copilot ProCopilot BusinessCopilot Enterprise
每分钟请求数15151520
每天请求数150150300450
每个请求的令牌数8000 输入,4000 输出8000 输入,4000 输出8000 输入,4000 输出8000 输入,8000 输出
并发请求5558
每分钟请求数10101015
每天请求数5050100150
每个请求的令牌数8000 输入,4000 输出8000 输入,4000 输出8000 输入,4000 输出16000 输入,8000 输出
并发请求2224
嵌入每分钟请求数15151520
每天请求数150150300450
每个请求的令牌数64000640006400064000
并发请求5558
Azure OpenAI o1-preview每分钟请求数不适用122
每天请求数不适用81012
每个请求的令牌数不适用4000 输入,4000 输出4000 输入,4000 输出4000 输入,8000 输出
并发请求不适用111
Azure OpenAI o1、o3 和 gpt-5每分钟请求数不适用122
每天请求数不适用81012
每个请求的令牌数不适用4000 输入,4000 输出4000 输入,4000 输出4000 输入,8000 输出
并发请求不适用111
Azure OpenAI o1-mini、o3-mini、o4-mini、gpt-5-mini、gpt-5-nano 和 gpt-5-chat每分钟请求数不适用233
每天请求数不适用121520
每个请求的令牌数不适用4000 输入,4000 输出4000 输入,4000 输出4000 输入,4000 输出
并发请求不适用111
DeepSeek-R1、DeepSeek-R1-0528 和 MAI-DS-R1每分钟请求数1122
每天请求数881012
每个请求的令牌数4000 输入,4000 输出4000 输入,4000 输出4000 输入,4000 输出4000 输入,4000 输出
并发请求1111
xAI Grok-3每分钟请求数1122
每天请求数15152030
每个请求的令牌数4000 输入,4000 输出4000 输入,4000 输出4000 输入,8000 输出4000 输入,16000 输出
并发请求1111
xAI Grok-3-Mini每分钟请求数2233
每天请求数30304050
每个请求的令牌数4000 输入,8000 输出4000 输入,8000 输出4000 输入,12000 输出4000 输入,12000 输出
并发请求1111

官网#

GitHub Models

心流开放平台#

NOTE

我自认为最良心的一个😍

iFlow CLI 是一款终端AI助手,可以分析代码、执行编程任务、处理文件操作。本指南帮您快速上手核心功能。

心流 API 提供与 OpenAI 100% 兼容的接口服务,让您可以无缝切换到我们的 AI 服务,享受更高性能和更具成本效益的解决方案。

支持的模型#

  • tstars2.0
  • qwen3-coder-plus
  • qwen3-max
  • qwen3-vl-plus
  • qwen3-max-preview
  • kimi-k2-0905
  • glm-4.6
  • kimi-k2
  • deepseek-v3.2
  • deepseek-r1
  • deepseek-v3
  • qwen3-32b
  • qwen3-235b-a22b-thinking-2507
  • qwen3-235b-a22b-instruct
  • qwen3-235b

使用限制#

所有模型完全免费使用,并发请求数为1

官网#

心流开放平台API

硅基流动#

NOTE

硅基流动的免费模型参数量都较小,对话也就当个快速模型用还行,不过免费的嵌入与重排序模型做知识库不错

作为集合顶尖大模型的一站式云服务平台,SiliconFlow 致力于为开发者提供更快、更全面、体验更丝滑的模型 API,助力开发者和企业聚焦产品创新,无须担心产品大规模推广所带来的高昂算力成本。

支持的模型#

  • THUDM/GLM-4.1V-9B-Thinking
  • deepseek-ai/DeepSeek-R1-0528-Qwen3-8B
  • THUDM/GLM-Z1-9B-0414
  • THUDM/GLM-4-9B-0414
  • deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
  • BAAI/bge-m3
  • netease-youdao/bce-embedding-base_v1

使用限制#

大多数是

用量级别RPMTPM
L01,00050,000

官网#

硅基流动 SiliconFlow

免费的模型API平台盘点
https://tianhw.top/posts/free-ai-api/
作者
THW
发布于
2025-12-05
许可协议
CC BY-NC-SA 4.0