如果你正在用 LLM 构建任何东西,2026 年你不应该还在为推理成本付钱。
Gemini 免费额度、Groq、Cerebras、OpenRouter 以及十几家小型提供商,足以让你以 $0/月 跑起真实的生产工作负载——聊天机器人、Agent、研究 Pipeline 全都不在话下。
本文是截至 2026 年 4 月所有仍活跃免费 LLM API 的完整地图,涵盖速率限制、模型权限、到期规则,以及哪些甚至不需要信用卡。此外,本文还额外补充了 AI Gateway 高级路由玩法 和 本地模型(Ollama / LM Studio) 方案,帮你把免费额度和私有推理能力结合到极致。
一览对比表
| 提供商 | 可用模型 | 免费额度 | 是否需要信用卡 | 最适合场景 |
|---|---|---|---|---|
| Google Gemini API | Gemini 2.5 Flash(免费层) | 1,500 次/天,10 RPM | 否 | 最易上手的免费基线 |
| Groq | Llama 3.1、Mixtral、Gemma 2 | 30 RPM,6K TPM,1,000 次/天 | 否 | 速度敏感型应用(315 TPS) |
| Cerebras | Llama 3.1 70B / 8B | 30 RPM,60K TPM,1M tokens/天 | 否 | 超长上下文 |
| NVIDIA NIM | 多种开源 + 专有模型 | 免费原型层 | 需要账号,无需信用卡 | 试用新模型架构 |
| OpenRouter | 聚合(50+ 模型) | 多个免费路由模型 | 否 | 一个 Key 多家提供商 |
| OpenAI | GPT-4o、GPT-5 系列 | $5 试用额度,3 个月有效期 | 是 | 一次性评估测试 |
| Anthropic Claude | Claude 3.5/4 系列 | $5 试用;OSS 项目最高 6 个月 Max | 是 | 顶级推理能力 |
| Mistral La Plateforme | Mistral Small / Large | 注册试用积分 | 是 | 欧盟合规场景 |
| Cohere | Command R / R+ | 试用积分,评估较慷慨 | 是 | RAG 优先的技术栈 |
| DeepSeek | DeepSeek V3 / R1 | 慷慨免费层,付费也便宜 | 是 | 低成本高质量推理 |
| xAI Grok | Grok 2 / 3 | 有限免费积分 | 是 | X(Twitter)集成 |
| Hugging Face | 开源模型库 | 限速免费访问 | 否 | 无需自建 GPU 的开源推理 |
| Together AI | 100+ 开源模型 | 少量起始积分 | 是 | 开源模型微调 |
| 本地模型 | Ollama / LM Studio | 完全免费,无限制 | 否 | 离线、隐私、无延迟抖动 |
各提供商详细介绍
1. Google Gemini API
- 可用模型: Gemini 2.5 Pro、Gemini 2.5 Flash、Gemini 2.5 Flash-Lite、Gemini 2.0 系列
- 免费额度: 免费层提供 Gemini 2.5 Flash,每天 1,500 次请求,10 RPM。Google 在 2025 年末大幅削减了免费层配额,使用前请在 ai.google.dev 确认最新限制。
- 是否需要信用卡: 不需要,Google 账号即可
- 快速上手:
ai.google.dev→ 获取 API Key → 立即使用 - 最适合: 不想花钱但需要持续工作负载的场景
Gemini Flash 每天 1,500 次即使在削减之后依然足够原型开发。若需要更大的持续流量,可以将 Gemini Flash 与 Cerebras(每天 1M tokens)和 Groq 叠加使用。
2. Groq
- 可用模型: Llama 3.1 70B / 8B、Mixtral 8x7B、Gemma 2
- 免费额度: 30 RPM、6,000 TPM、1,000 次/天;速度约 315 tokens/秒(Llama 70B,无出其右)
- 核心优势: LPU(语言处理单元)比 GPU 集群推理速度快得多,70B 级别模型可实现亚秒响应
- 是否需要信用卡: 不需要
- 快速上手: console.groq.com → 注册 → 获取 API Key
- 最适合: 实时 UX(语音、流式聊天)、高吞吐批处理任务
对延迟敏感的应用,Groq 免费层本身就足以支撑到真正规模化之前。
3. Cerebras
- 可用模型: Llama 3.1 70B、Llama 3.1 8B
- 免费额度: 30 RPM、60K TPM、每天 1M tokens(最慷慨的无卡免费额度)
- 核心优势: 晶圆级芯片专为推理设计,超长上下文处理能力强,Llama 3.1 70B 吞吐具竞争力
- 是否需要信用卡: 不需要
- 快速上手: cloud.cerebras.ai
- 最适合: 长上下文任务(大文档分析、RAG)、日配额内的批量推理
4. NVIDIA NIM (build.nvidia.com)
- 可用模型: 宽泛——Llama、Mistral、NVIDIA 调优模型、视觉模型、Embedding 模型
- 免费额度: 原型阶段免费,转生产通常需要 NVIDIA Inception 计划或付费层
- 是否需要信用卡: 需要账号,免费层无需信用卡
- 快速上手: build.nvidia.com → 登录 → 获取 API Key
- 最适合: 承诺某个提供商前先试用新模型架构
5. OpenRouter
- 可用模型: 聚合路由到 50+ 模型(主要提供商 + 若干直接免费路由)
- 免费额度: Mistral 7B Free、Gemma 2 9B Free 等,严格限速但可用于评估
- 是否需要信用卡: 免费模型不需要
- 定价: 付费模型按 token 计费,透明定价
- 快速上手: openrouter.ai
- 最适合: 用单个 API Key 替代 5+ 家提供商集成
OpenRouter 是后文 AI Gateway 玩法的重要一环——当主力提供商触发限速时,立即切换到 OpenRouter 免费模型兜底。
6. OpenAI
- 可用模型: GPT-4o、GPT-5 系列、o 系列推理模型、Embedding
- 免费额度: 新账号约 $5 试用积分,激活后 3 个月有效,可用于所有模型
- 是否需要信用卡: 是
- 叠加方案: OpenAI for Startups 计划可申请更大积分(需单独申请)
- 最适合: 一次性评估;不适合免付费的生产场景
7. Anthropic Claude
- 可用模型: Claude 4.x 系列(Opus、Sonnet、Haiku)
- 免费额度: 新账号约 $5 起始积分
- 特别项目: Claude for Open Source(2026 年 2 月启动)——符合条件的开源项目维护者可免费获得 6 个月 Claude Max 20x,价值 $1,200,共 10,000 个名额。这是 2026 年最大的 Claude 免费授予项目。
- 是否需要信用卡: 是(试用之外的 API 访问)
- 快速上手: console.anthropic.com;OSS 申请在 Claude for Open Source 计划页面
- 最适合: 有开源项目资质时获取最高质量推理,或不介意付费的场景
8. Mistral La Plateforme
- 可用模型: Mistral Small、Mistral Large、Codestral、Embed
- 免费额度: 注册时有试用积分,额度适中
- 是否需要信用卡: 是
- 最适合: 欧盟合规场景、多语言生成
9. Cohere
- 可用模型: Command R、Command R+、Embed、Rerank
- 免费额度: 试用积分,评估阶段较慷慨
- 是否需要信用卡: 是
- 最适合: RAG 优先应用(Cohere 的 Rerank 尤为强大)
10. DeepSeek
- 可用模型: DeepSeek V3、DeepSeek R1(推理模型)
- 免费额度: 慷慨的免费层;超出后付费价格也是同类最便宜之一
- 是否需要信用卡: 是
- 最适合: 大批量推理工作负载,追求极低成本
11. xAI Grok
- 可用模型: Grok 2、Grok 3
- 免费额度: 有限免费积分,主要是评估层
- 是否需要信用卡: 是
- 最适合: 集成 X(Twitter)平台、需要 Grok 实时数据的场景
12. Hugging Face Inference API
- 可用模型: Hub 上托管的数千个开源模型
- 免费额度: 限速免费访问;生产使用需要 Inference Endpoints 或 PRO 订阅
- 是否需要信用卡: 不需要
- 最适合: 不搭建自有 GPU 就能试用开源权重模型
13. Together AI
- 可用模型: 100+ 开源模型(Llama、Mixtral、Qwen,支持微调)
- 免费额度: 少量起始积分
- 是否需要信用卡: 是
- 最适合: 在开源权重上微调自己的模型
本地模型方案:Ollama 与 LM Studio
云端免费 API 有速率限制,而本地模型没有。当你的需求涉及隐私数据、离线场景、低延迟内网服务或者只是不想受限速折磨时,本地推理是最终答案。
Ollama
Ollama 是目前最流行的本地 LLM 运行工具,提供类 Docker 的模型管理体验。
快速上手:
# macOS / Linux 一键安装
curl -fsSL https://ollama.com/install.sh | sh
# 拉取并运行模型(类似 docker pull)
ollama pull llama3.1:8b
ollama run llama3.1:8b
# 查看所有本地模型
ollama list本地 API 服务(默认兼容 OpenAI 格式):
# Ollama 默认监听 http://localhost:11434
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "llama3.1:8b",
"messages": [{"role": "user", "content": "你好!"}]
}'推荐模型(按显存分级):
| 模型 | 显存需求 | 适合场景 |
|---|---|---|
| Llama 3.2 3B | ~2 GB | 低端设备、快速响应 |
| Llama 3.1 8B | ~5 GB | 日常对话、代码辅助 |
| Qwen2.5 14B | ~9 GB | 中文优化、复杂推理 |
| Llama 3.1 70B (Q4) | ~40 GB | 高质量,需要好显卡 |
| DeepSeek-R1 7B | ~5 GB | 本地推理任务 |
优点:
- 完全免费,无速率限制
- 数据不离本机,天然隐私保护
- 兼容 OpenAI API 格式,现有代码改一行 base_url 即可切换
- 支持 CPU 推理(慢但可用)
LM Studio
LM Studio 提供图形化界面,适合不想敲命令行的用户,同时支持 GGUF 格式模型的一键下载与运行。
核心功能:
- 内置模型搜索与下载(Hugging Face 直连)
- 图形化对话界面,可直接测试模型
- 本地 OpenAI 兼容服务器,一键启动
- 自动检测 GPU,支持 Metal(macOS)/ CUDA(Windows/Linux)
启动本地服务器:
- 下载并安装 LM Studio
- 在 “Discover” 页面搜索并下载模型(如
Mistral 7B Instruct) - 切换到 “Local Server” 选项卡,点击 “Start Server”
- 默认监听
http://localhost:1234,兼容 OpenAI API
代码集成示例(Python):
from openai import OpenAI
# 只需改 base_url,其余代码不变
client = OpenAI(
base_url="http://localhost:1234/v1",
api_key="lm-studio" # 任意字符串即可
)
response = client.chat.completions.create(
model="mistral-7b-instruct",
messages=[{"role": "user", "content": "解释一下向量数据库"}]
)
print(response.choices[0].message.content)本地模型 vs 云端 API:如何选择
| 维度 | 本地模型 | 云端免费 API |
|---|---|---|
| 成本 | 硬件一次性投入 | $0,但有速率限制 |
| 隐私 | ✅ 数据不出机器 | ⚠️ 数据上传至第三方 |
| 速率限制 | 无 | 有,且随时可能变更 |
| 模型质量 | 受硬件限制 | 可用 GPT-5 / Claude Opus 等顶级模型 |
| 部署难度 | 需要配置本机环境 | 即开即用 |
| 网络依赖 | 无(完全离线) | 需要稳定网络 |
推荐策略:本地 + 云端混用——本地模型处理高频低风险任务(分类、摘要、初稿),云端顶级模型处理高价值关键任务。
快速上手:OmniRoute——零配置 AI Gateway
在进入正式的 AI Gateway 架构之前,先介绍一个面向个人开发者的轻量入门选项:OmniRoute。
OmniRoute 是开源工具,本地运行,Dashboard 图形界面操作,安装一条命令即可把 160+ 家提供商接入统一端点 localhost:20128/v1。它有一套四层自动 Fallback:
Subscription(Claude Code、Codex 等付费订阅)
↓ 额度耗尽
API Key(Groq、Gemini、DeepSeek 等你的 Key)
↓ 超限
Cheap(DeepSeek、SiliconFlow 等极低价付费)
↓ 超限
Free(OpenRouter 35+ 免费模型、Pollinations 等无需 Key)# 安装
npm install -g omniroute
# 启动(默认 20128 端口)
omniroute
# 或 Docker
docker run -d -p 20128:20128 \
-v omniroute-data:/app/data \
diegosouzapw/omniroute:latest打开 Dashboard,添加你的 API Keys,然后把 Claude Code / Cursor / Cline / Codex 的 API base 改为 http://localhost:20128/v1,之后 OmniRoute 自动负责切换——你无需再关心"哪家限速了"。
OmniRoute 额外支持:提示词压缩(节省 15–75% tokens)、MCP Server(29 个工具)、多模态 API(图像/音频/视频)、A2A 协议,以及接入本地 Ollama。
OmniRoute 的定位是"个人开发者的 AI 路由器",适合不想自建服务器的场景。而下面要讲的,是更进一步:把 AI Gateway 真正变成家庭 AI 基础设施的核心。
什么是真正的 AI Gateway
很多人对 AI Gateway 有误解,这里先澄清:
| 误解 | 现实 |
|---|---|
| AI Gateway = API 聚合站 | ❌ 那只是代理转发 |
| AI Gateway = OpenAI Key 中转器 | ❌ 那只是反代 |
| AI Gateway = 托管服务,用别人的 | ❌ 你完全可以自建 |
真正的 AI Gateway 具备以下能力:
- Routing:按延迟、成本、任务类型智能选择模型
- Fallback:主力提供商限速或宕机时自动切换,零停机
- Load Balancing:多个 Key / 多个账号之间均衡流量
- Observability:每次请求的延迟、Token 消耗、成本、成功率全量日志
- Model Abstraction:上层只看到
model: "primary",底层随时换提供商 - Local / Cloud Hybrid:本地 Ollama 和云端 API 在同一个路由里
- Unified OpenAI-Compatible Endpoint:所有设备、所有工具对接同一个地址
- Policy / Quota / Auth:多用户、多 Key、按 Budget 限流、API Key 鉴权
这套能力合在一起,叫做 AI 基础设施,而不是"换个 API 转发地址"。
家庭 AI 中枢:部署到 QNAP NAS
2026 年,最值得个人玩家投入的方案不是订阅更多服务——而是在家里跑一套真正的 AI 基础设施。QNAP NAS 24 小时开机、低功耗、有 Docker 支持,是最理想的家庭 AI 服务器。
为什么 LiteLLM 特别适合 NAS
和同类项目相比,LiteLLM 在 NAS 场景的优势明显:
| 项目 | 内存占用 | 部署难度 | NAS 适配 |
|---|---|---|---|
| Dify | 高(多服务) | 中等 | 一般 |
| Langflow | 中高 | 中等 | 一般 |
| Flowise | 中 | 简单 | 还行 |
| LiteLLM | 极低 | 极简 | 最佳 |
LiteLLM 核心只是一个轻量 Python 代理,单容器运行,配置即 YAML,没有数据库依赖也能跑。对于内存有限的 NAS 来说,这是决定性优势。
目录结构
在 QNAP 的 Container Station 里,按如下结构组织文件:
/share/Container/ai-gateway/
├── docker-compose.yml
├── .env # 所有 API Key 集中管理
├── litellm/
│ └── config.yaml
├── open-webui/ # Web UI 数据持久化
├── qdrant/ # 向量数据库
└── redis/ # 缓存层Docker Compose 完整配置
version: "3.9"
services:
# ── AI Gateway 核心 ──────────────────────────────
litellm:
image: ghcr.io/berriai/litellm:main
container_name: litellm
restart: unless-stopped
ports:
- "4000:4000"
volumes:
- ./litellm/config.yaml:/app/config.yaml
env_file:
- .env
command:
- "--config=/app/config.yaml"
- "--detailed_debug"
healthcheck:
test: ["CMD", "curl", "-f", "http://localhost:4000/health"]
interval: 30s
timeout: 10s
retries: 3
# ── Web UI(所有设备的对话入口)────────────────
open-webui:
image: ghcr.io/open-webui/open-webui:main
container_name: open-webui
restart: unless-stopped
ports:
- "3000:8080"
environment:
- OPENAI_API_BASE_URL=http://litellm:4000/v1
- OPENAI_API_KEY=sk-local # LiteLLM 内部认证 Key
volumes:
- ./open-webui:/app/backend/data
depends_on:
- litellm
# ── 本地推理(隐私 / 无限制)──────────────────
ollama:
image: ollama/ollama
container_name: ollama
restart: unless-stopped
ports:
- "11434:11434"
volumes:
- ./ollama:/root/.ollama
# QNAP 有 GPU 的型号可以加:
# deploy:
# resources:
# reservations:
# devices:
# - capabilities: [gpu]
# ── 向量数据库(RAG / 知识库)──────────────────
qdrant:
image: qdrant/qdrant
container_name: qdrant
restart: unless-stopped
ports:
- "6333:6333"
volumes:
- ./qdrant:/qdrant/storage
# ── Redis 缓存(LiteLLM 语义缓存)─────────────
redis:
image: redis:7-alpine
container_name: redis
restart: unless-stopped
ports:
- "6379:6379"
volumes:
- ./redis:/data.env 文件(所有 Key 集中存放,不要提交到 Git):
GEMINI_API_KEY=your_gemini_key
GROQ_API_KEY=your_groq_key
ANTHROPIC_API_KEY=your_claude_key
OPENROUTER_API_KEY=your_openrouter_key
DEEPSEEK_API_KEY=your_deepseek_key
LITELLM_MASTER_KEY=sk-local # 内部认证,自定义LiteLLM 配置:真正的 AI Gateway 玩法
# /share/Container/ai-gateway/litellm/config.yaml
model_list:
# ── 免费主力:Gemini Flash ─────────────────────
- model_name: primary
litellm_params:
model: gemini/gemini-2.5-flash
api_key: os.environ/GEMINI_API_KEY
rpm: 10 # 告知 LiteLLM 实际限速,自动限流
tpm: 1000000
# ── 极速响应:Groq ─────────────────────────────
- model_name: fast
litellm_params:
model: groq/llama-3.1-70b-versatile
api_key: os.environ/GROQ_API_KEY
rpm: 30
tpm: 6000
# ── 高级推理:Claude(付费,按需触发)──────────
- model_name: smart
litellm_params:
model: anthropic/claude-sonnet-4-5
api_key: os.environ/ANTHROPIC_API_KEY
# ── 低成本推理:DeepSeek R1 ───────────────────
- model_name: reasoning
litellm_params:
model: deepseek/deepseek-r1
api_key: os.environ/DEEPSEEK_API_KEY
# ── 本地隐私:Ollama(NAS 内网,零延迟)───────
- model_name: local
litellm_params:
model: ollama/qwen3:14b
api_base: http://ollama:11434 # Docker 内网直连
# ── 兜底:OpenRouter 免费模型 ─────────────────
- model_name: fallback
litellm_params:
model: openrouter/mistralai/mistral-7b-instruct:free
api_key: os.environ/OPENROUTER_API_KEY
router_settings:
routing_strategy: latency-based-routing # 按实测延迟选最快的
fallbacks:
- {"primary": ["fast", "local", "fallback"]}
- {"fast": ["primary", "local", "fallback"]}
- {"smart": ["reasoning", "primary", "local"]}
- {"reasoning": ["smart", "primary", "local"]}
num_retries: 2
timeout: 30
retry_after: 5
# Redis 语义缓存:相似问题直接命中缓存,不消耗 Token
cache:
type: redis
host: redis
port: 6379
similarity_threshold: 0.85 # 85% 相似就直接返回缓存
# 可观测性:全量请求日志
litellm_settings:
success_callback: ["langfuse"] # 可选,接入 Langfuse 看板
set_verbose: false
store_model_in_db: true
# 多用户 / 多 Key 管理(可选)
general_settings:
master_key: os.environ/LITELLM_MASTER_KEY
database_url: "sqlite:///litellm.db" # 轻量本地数据库启动整套服务:
cd /share/Container/ai-gateway
docker compose up -d
# 查看日志
docker compose logs -f litellm家庭 AI 中枢架构图
┌─────────────────────────────────┐
│ QNAP NAS │
│ │
所有设备 │ ┌──────────┐ ┌─────────────┐ │
──────────► │ │ LiteLLM │ │ Open WebUI │ │
:4000/v1 │ │ Gateway │◄─│ :3000 │ │
│ └────┬─────┘ └─────────────┘ │
│ │ │
│ ┌────▼──────────────────────┐ │
│ │ 智能路由层 │ │
│ │ latency-based-routing │ │
│ │ + auto fallback │ │
│ │ + semantic cache (Redis) │ │
│ └────┬──────────────────────┘ │
│ │ │
│ ┌────┼──────────────────────┐ │
│ │ │ Qdrant 向量数据库 │ │
│ │ │ :6333 (RAG 知识库) │ │
│ └────┼──────────────────────┘ │
└───────┼─────────────────────────┘
│
┌─────────────┼─────────────┐
▼ ▼ ▼
Ollama:11434 Gemini/Groq Claude/DeepSeek
(内网本地) (免费 API) (付费按需)所有设备统一接入
部署完成后,局域网内所有设备对接 http://nas-ip:4000/v1 即可,模型切换、failback、缓存全部透明:
| 设备 / 工具 | 接入配置 |
|---|---|
| VSCode Continue | apiBase: http://nas-ip:4000/v1 |
| Cursor / Cline | OpenAI Compatible → http://nas-ip:4000/v1 |
| Claude Code | ANTHROPIC_BASE_URL=http://nas-ip:4000 |
| 手机 / 平板 | 浏览器打开 http://nas-ip:3000(Open WebUI) |
| Hexo AI 插件 | api_base: http://nas-ip:4000/v1 |
| ComfyUI | OpenAI API Node → http://nas-ip:4000/v1 |
| 任意 MCP 客户端 | http://nas-ip:4000/v1 |
| 自定义脚本 | base_url="http://nas-ip:4000/v1" |
免费 API 叠加策略:$0/月 跑真实产品
通过上面的 NAS Gateway,整体流量架构变成:
[所有设备]
│
▼
[QNAP NAS: LiteLLM :4000]
│
├── Redis 语义缓存(命中则直接返回,零 Token 消耗)
│
├──► 日常对话 → Gemini Flash(免费,1,500 次/天)
├──► 极速任务 → Groq Llama 70B(免费,315 TPS)
├──► 低成本推理→ DeepSeek R1(极便宜付费)
├──► 隐私数据 → Ollama / NAS 本地(零成本,零泄露)
├──► 额度耗尽 → OpenRouter 免费兜底
└──► 关键任务 → Claude Sonnet/Opus(付费,仅 top 10%)推荐叠加顺序(按成本从低到高触发):
- Redis 缓存命中 → 零 Token 成本,相似请求直接返回
- Ollama 本地 → 隐私数据、高频低风险任务,无任何费用
- Gemini Flash → 通用对话,1,500 次/天,不要信用卡
- Groq → 延迟敏感任务,每天 1,000 次,无需信用卡
- OpenRouter 免费 → 以上全部超限时的最后免费兜底
- DeepSeek / Claude → 真正需要高质量推理时才触发付费
实践建议与常见坑
建议做的:
- NAS 挂 SSD 存 Ollama 模型——7B 模型文件 5 GB,HDD 加载慢且频繁读写伤寿命,SSD 是必选
- 配置
num_ctx别用默认值——Ollama 默认上下文 2048 tokens,RAG 场景必须显式设为 8192+ - LiteLLM 的
rpm/tpm字段填真实限速——填了之后 Gateway 会主动限流,不会等到 429 再切换,体验更丝滑 - Redis 缓存的
similarity_threshold不要设太低——低于 0.8 会出现不相关回答命中缓存的情况 - Open WebUI 绑定到内网 IP——不要暴露到公网,或者加 Nginx 反代 + 认证再做外网访问
常见坑:
- API Key 明文写进 docker-compose.yml——一定用
.env文件,.gitignore掉它 - Ollama 冷启动——首次加载模型要时间,可以在 compose 里加
OLLAMA_KEEP_ALIVE=24h让模型常驻内存 - LiteLLM 版本更新频繁——
image: ghcr.io/berriai/litellm:main是滚动更新,生产建议锁定版本号如:v1.40.0 - QNAP Container Station 的网络模式——默认 bridge 模式容器间可互通,但 host 模式在某些 QNAP 固件上有 BUG,出现连不上 Ollama 时检查这里
常见问题解答
Q:有哪些不需要信用卡的 LLM API?
A:Google Gemini API、Groq、Cerebras、NVIDIA NIM 以及大多数 OpenRouter 免费模型——用邮箱或 Google 账号注册即可立即获得 API 访问权限。
Q:2026 年哪家免费 API 额度最慷慨?
A:Cerebras 在每日 Token 量上领先——Llama 3.1 70B 每天 1M tokens,无需信用卡。Gemini Flash 是最易上手的基线(每天 1,500 次请求)。速度上 Groq 无敌,Llama 70B 约 315 tokens/秒。
Q:可以把多家免费 API 叠加使用吗?
A:完全可以,而且强烈建议这样做。各家提供商有独立的速率限制,通过 LiteLLM 的 fallback 配置,多家免费层叠加后可用容量倍增,整套方案几乎不需要付费。
Q:QNAP NAS 配置要求?
A:运行完整这套栈(LiteLLM + Open WebUI + Ollama 7B + Qdrant + Redis)建议至少 16 GB 内存,32 GB 更稳。Ollama 跑 14B 模型需要约 10 GB 内存。CPU 推理够用但慢,有 GPU 的 QNAP 型号(如搭载 NVIDIA 显卡的机型)体验明显更好。
Q:Anthropic Claude 对开源维护者有特别政策吗?
A:有。Claude for Open Source 计划(2026 年 2 月启动)为符合资质的开源项目维护者提供 6 个月 Claude Max 20x 免费访问,价值 $1,200,共 10,000 个名额。
总结
2026 年,真正成熟的 AI 工作流已经不再是"选哪个模型"的问题,而是如何构建自己的 AI 基础设施。
一台 QNAP NAS,加上 LiteLLM + Ollama + 免费 API 叠加,你能得到的是:
- 一个家庭 AI 中枢,所有设备统一接入
- 本地模型处理隐私数据,云端 API 处理高价值任务
- 自动 Fallback,任何一家提供商限速都不影响使用
- 语义缓存大幅降低重复 Token 消耗
- Open WebUI 提供手机、电脑随时可用的对话界面
- Qdrant 向量数据库支撑私有知识库 RAG
- 全量可观测性,知道每次请求花了多少钱、走了哪个模型
这是目前成本最低、稳定性最高、扩展性最强的个人 AI 基础设施方案。90% 的日常请求走免费层,只有最关键的 10% 才触发付费模型——这才是把免费 API 用到极致的正确姿势。
本文持续更新,如有配额变动或新提供商欢迎评论区反馈。
相关阅读:

