2026 年免费 LLM API 完全指南：13 家提供商 + AI 网关高级玩法 + 本地模型

如果你正在用 LLM 构建任何东西，2026 年你不应该还在为推理成本付钱。
Gemini 免费额度、Groq、Cerebras、OpenRouter 以及十几家小型提供商，足以让你以 $0/月 跑起真实的生产工作负载——聊天机器人、Agent、研究 Pipeline 全都不在话下。
本文是截至 2026 年 4 月所有仍活跃免费 LLM API 的完整地图，涵盖速率限制、模型权限、到期规则，以及哪些甚至不需要信用卡。此外，本文还额外补充了 AI Gateway 高级路由玩法 和 本地模型（Ollama / LM Studio） 方案，帮你把免费额度和私有推理能力结合到极致。

一览对比表

提供商	可用模型	免费额度	是否需要信用卡	最适合场景
Google Gemini API	Gemini 2.5 Flash（免费层）	1,500 次/天，10 RPM	否	最易上手的免费基线
Groq	Llama 3.1、Mixtral、Gemma 2	30 RPM，6K TPM，1,000 次/天	否	速度敏感型应用（315 TPS）
Cerebras	Llama 3.1 70B / 8B	30 RPM，60K TPM，1M tokens/天	否	超长上下文
NVIDIA NIM	多种开源 + 专有模型	免费原型层	需要账号，无需信用卡	试用新模型架构
OpenRouter	聚合（50+ 模型）	多个免费路由模型	否	一个 Key 多家提供商
OpenAI	GPT-4o、GPT-5 系列	$5 试用额度，3 个月有效期	是	一次性评估测试
Anthropic Claude	Claude 3.5/4 系列	$5 试用；OSS 项目最高 6 个月 Max	是	顶级推理能力
Mistral La Plateforme	Mistral Small / Large	注册试用积分	是	欧盟合规场景
Cohere	Command R / R+	试用积分，评估较慷慨	是	RAG 优先的技术栈
DeepSeek	DeepSeek V3 / R1	慷慨免费层，付费也便宜	是	低成本高质量推理
xAI Grok	Grok 2 / 3	有限免费积分	是	X（Twitter）集成
Hugging Face	开源模型库	限速免费访问	否	无需自建 GPU 的开源推理
Together AI	100+ 开源模型	少量起始积分	是	开源模型微调
本地模型	Ollama / LM Studio	完全免费，无限制	否	离线、隐私、无延迟抖动

各提供商详细介绍

1. Google Gemini API

可用模型： Gemini 2.5 Pro、Gemini 2.5 Flash、Gemini 2.5 Flash-Lite、Gemini 2.0 系列
免费额度： 免费层提供 Gemini 2.5 Flash，每天 1,500 次请求，10 RPM。Google 在 2025 年末大幅削减了免费层配额，使用前请在 ai.google.dev 确认最新限制。
是否需要信用卡： 不需要，Google 账号即可
快速上手： ai.google.dev → 获取 API Key → 立即使用
最适合： 不想花钱但需要持续工作负载的场景

Gemini Flash 每天 1,500 次即使在削减之后依然足够原型开发。若需要更大的持续流量，可以将 Gemini Flash 与 Cerebras（每天 1M tokens）和 Groq 叠加使用。

2. Groq

可用模型： Llama 3.1 70B / 8B、Mixtral 8x7B、Gemma 2
免费额度： 30 RPM、6,000 TPM、1,000 次/天；速度约 315 tokens/秒（Llama 70B，无出其右）
核心优势： LPU（语言处理单元）比 GPU 集群推理速度快得多，70B 级别模型可实现亚秒响应
是否需要信用卡： 不需要
快速上手： console.groq.com → 注册 → 获取 API Key
最适合： 实时 UX（语音、流式聊天）、高吞吐批处理任务

对延迟敏感的应用，Groq 免费层本身就足以支撑到真正规模化之前。

3. Cerebras

可用模型： Llama 3.1 70B、Llama 3.1 8B
免费额度： 30 RPM、60K TPM、每天 1M tokens（最慷慨的无卡免费额度）
核心优势： 晶圆级芯片专为推理设计，超长上下文处理能力强，Llama 3.1 70B 吞吐具竞争力
是否需要信用卡： 不需要
快速上手： cloud.cerebras.ai
最适合： 长上下文任务（大文档分析、RAG）、日配额内的批量推理

4. NVIDIA NIM (build.nvidia.com)

可用模型： 宽泛——Llama、Mistral、NVIDIA 调优模型、视觉模型、Embedding 模型
免费额度： 原型阶段免费，转生产通常需要 NVIDIA Inception 计划或付费层
是否需要信用卡： 需要账号，免费层无需信用卡
快速上手： build.nvidia.com → 登录 → 获取 API Key
最适合： 承诺某个提供商前先试用新模型架构

5. OpenRouter

可用模型： 聚合路由到 50+ 模型（主要提供商 + 若干直接免费路由）
免费额度： Mistral 7B Free、Gemma 2 9B Free 等，严格限速但可用于评估
是否需要信用卡： 免费模型不需要
定价： 付费模型按 token 计费，透明定价
快速上手： openrouter.ai
最适合： 用单个 API Key 替代 5+ 家提供商集成

OpenRouter 是后文 AI Gateway 玩法的重要一环——当主力提供商触发限速时，立即切换到 OpenRouter 免费模型兜底。

6. OpenAI

可用模型： GPT-4o、GPT-5 系列、o 系列推理模型、Embedding
免费额度： 新账号约 $5 试用积分，激活后 3 个月有效，可用于所有模型
是否需要信用卡： 是
叠加方案： OpenAI for Startups 计划可申请更大积分（需单独申请）
最适合： 一次性评估；不适合免付费的生产场景

7. Anthropic Claude

可用模型： Claude 4.x 系列（Opus、Sonnet、Haiku）
免费额度： 新账号约 $5 起始积分
特别项目： Claude for Open Source（2026 年 2 月启动）——符合条件的开源项目维护者可免费获得 6 个月 Claude Max 20x，价值 $1,200，共 10,000 个名额。这是 2026 年最大的 Claude 免费授予项目。
是否需要信用卡： 是（试用之外的 API 访问）
快速上手： console.anthropic.com；OSS 申请在 Claude for Open Source 计划页面
最适合： 有开源项目资质时获取最高质量推理，或不介意付费的场景

8. Mistral La Plateforme

可用模型： Mistral Small、Mistral Large、Codestral、Embed
免费额度： 注册时有试用积分，额度适中
是否需要信用卡： 是
最适合： 欧盟合规场景、多语言生成

9. Cohere

可用模型： Command R、Command R+、Embed、Rerank
免费额度： 试用积分，评估阶段较慷慨
是否需要信用卡： 是
最适合： RAG 优先应用（Cohere 的 Rerank 尤为强大）

10. DeepSeek

可用模型： DeepSeek V3、DeepSeek R1（推理模型）
免费额度： 慷慨的免费层；超出后付费价格也是同类最便宜之一
是否需要信用卡： 是
最适合： 大批量推理工作负载，追求极低成本

11. xAI Grok

可用模型： Grok 2、Grok 3
免费额度： 有限免费积分，主要是评估层
是否需要信用卡： 是
最适合： 集成 X（Twitter）平台、需要 Grok 实时数据的场景

12. Hugging Face Inference API

可用模型： Hub 上托管的数千个开源模型
免费额度： 限速免费访问；生产使用需要 Inference Endpoints 或 PRO 订阅
是否需要信用卡： 不需要
最适合： 不搭建自有 GPU 就能试用开源权重模型

13. Together AI

可用模型： 100+ 开源模型（Llama、Mixtral、Qwen，支持微调）
免费额度： 少量起始积分
是否需要信用卡： 是
最适合： 在开源权重上微调自己的模型

本地模型方案：Ollama 与 LM Studio

云端免费 API 有速率限制，而本地模型没有。当你的需求涉及隐私数据、离线场景、低延迟内网服务或者只是不想受限速折磨时，本地推理是最终答案。

Ollama

Ollama 是目前最流行的本地 LLM 运行工具，提供类 Docker 的模型管理体验。

快速上手：

# macOS / Linux 一键安装
curl -fsSL https://ollama.com/install.sh | sh

# 拉取并运行模型（类似 docker pull）
ollama pull llama3.1:8b
ollama run llama3.1:8b

# 查看所有本地模型
ollama list

本地 API 服务（默认兼容 OpenAI 格式）：

# Ollama 默认监听 http://localhost:11434
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.1:8b",
    "messages": [{"role": "user", "content": "你好！"}]
  }'

推荐模型（按显存分级）：

模型	显存需求	适合场景
Llama 3.2 3B	~2 GB	低端设备、快速响应
Llama 3.1 8B	~5 GB	日常对话、代码辅助
Qwen2.5 14B	~9 GB	中文优化、复杂推理
Llama 3.1 70B (Q4)	~40 GB	高质量，需要好显卡
DeepSeek-R1 7B	~5 GB	本地推理任务

优点：

完全免费，无速率限制
数据不离本机，天然隐私保护
兼容 OpenAI API 格式，现有代码改一行 base_url 即可切换
支持 CPU 推理（慢但可用）

LM Studio

LM Studio 提供图形化界面，适合不想敲命令行的用户，同时支持 GGUF 格式模型的一键下载与运行。

核心功能：

内置模型搜索与下载（Hugging Face 直连）
图形化对话界面，可直接测试模型
本地 OpenAI 兼容服务器，一键启动
自动检测 GPU，支持 Metal（macOS）/ CUDA（Windows/Linux）

启动本地服务器：

下载并安装 LM Studio
在 “Discover” 页面搜索并下载模型（如 Mistral 7B Instruct）
切换到 “Local Server” 选项卡，点击 “Start Server”
默认监听 http://localhost:1234，兼容 OpenAI API

代码集成示例（Python）：

from openai import OpenAI

# 只需改 base_url，其余代码不变
client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="lm-studio"  # 任意字符串即可
)

response = client.chat.completions.create(
    model="mistral-7b-instruct",
    messages=[{"role": "user", "content": "解释一下向量数据库"}]
)
print(response.choices[0].message.content)

本地模型 vs 云端 API：如何选择

维度	本地模型	云端免费 API
成本	硬件一次性投入	$0，但有速率限制
隐私	✅ 数据不出机器	⚠️ 数据上传至第三方
速率限制	无	有，且随时可能变更
模型质量	受硬件限制	可用 GPT-5 / Claude Opus 等顶级模型
部署难度	需要配置本机环境	即开即用
网络依赖	无（完全离线）	需要稳定网络

推荐策略：本地 + 云端混用——本地模型处理高频低风险任务（分类、摘要、初稿），云端顶级模型处理高价值关键任务。

快速上手：OmniRoute——零配置 AI Gateway

在进入正式的 AI Gateway 架构之前，先介绍一个面向个人开发者的轻量入门选项：OmniRoute。

OmniRoute 是开源工具，本地运行，Dashboard 图形界面操作，安装一条命令即可把 160+ 家提供商接入统一端点 localhost:20128/v1。它有一套四层自动 Fallback：

Subscription（Claude Code、Codex 等付费订阅）
    ↓ 额度耗尽
API Key（Groq、Gemini、DeepSeek 等你的 Key）
    ↓ 超限
Cheap（DeepSeek、SiliconFlow 等极低价付费）
    ↓ 超限
Free（OpenRouter 35+ 免费模型、Pollinations 等无需 Key）

# 安装
npm install -g omniroute

# 启动（默认 20128 端口）
omniroute

# 或 Docker
docker run -d -p 20128:20128 \
  -v omniroute-data:/app/data \
  diegosouzapw/omniroute:latest

打开 Dashboard，添加你的 API Keys，然后把 Claude Code / Cursor / Cline / Codex 的 API base 改为 http://localhost:20128/v1，之后 OmniRoute 自动负责切换——你无需再关心"哪家限速了"。

OmniRoute 额外支持：提示词压缩（节省 15–75% tokens）、MCP Server（29 个工具）、多模态 API（图像/音频/视频）、A2A 协议，以及接入本地 Ollama。

OmniRoute 的定位是"个人开发者的 AI 路由器"，适合不想自建服务器的场景。而下面要讲的，是更进一步：把 AI Gateway 真正变成家庭 AI 基础设施的核心。

什么是真正的 AI Gateway

很多人对 AI Gateway 有误解，这里先澄清：

误解	现实
AI Gateway = API 聚合站	❌ 那只是代理转发
AI Gateway = OpenAI Key 中转器	❌ 那只是反代
AI Gateway = 托管服务，用别人的	❌ 你完全可以自建

真正的 AI Gateway 具备以下能力：

Routing：按延迟、成本、任务类型智能选择模型
Fallback：主力提供商限速或宕机时自动切换，零停机
Load Balancing：多个 Key / 多个账号之间均衡流量
Observability：每次请求的延迟、Token 消耗、成本、成功率全量日志
Model Abstraction：上层只看到 model: "primary"，底层随时换提供商
Local / Cloud Hybrid：本地 Ollama 和云端 API 在同一个路由里
Unified OpenAI-Compatible Endpoint：所有设备、所有工具对接同一个地址
Policy / Quota / Auth：多用户、多 Key、按 Budget 限流、API Key 鉴权

这套能力合在一起，叫做 AI 基础设施，而不是"换个 API 转发地址"。

家庭 AI 中枢：部署到 QNAP NAS

2026 年，最值得个人玩家投入的方案不是订阅更多服务——而是在家里跑一套真正的 AI 基础设施。QNAP NAS 24 小时开机、低功耗、有 Docker 支持，是最理想的家庭 AI 服务器。

为什么 LiteLLM 特别适合 NAS

和同类项目相比，LiteLLM 在 NAS 场景的优势明显：

项目	内存占用	部署难度	NAS 适配
Dify	高（多服务）	中等	一般
Langflow	中高	中等	一般
Flowise	中	简单	还行
LiteLLM	极低	极简	最佳

LiteLLM 核心只是一个轻量 Python 代理，单容器运行，配置即 YAML，没有数据库依赖也能跑。对于内存有限的 NAS 来说，这是决定性优势。

目录结构

在 QNAP 的 Container Station 里，按如下结构组织文件：

/share/Container/ai-gateway/
├── docker-compose.yml
├── .env                    # 所有 API Key 集中管理
├── litellm/
│   └── config.yaml
├── open-webui/             # Web UI 数据持久化
├── qdrant/                 # 向量数据库
└── redis/                  # 缓存层

Docker Compose 完整配置

version: "3.9"

services:

  # ── AI Gateway 核心 ──────────────────────────────
  litellm:
    image: ghcr.io/berriai/litellm:main
    container_name: litellm
    restart: unless-stopped
    ports:
      - "4000:4000"
    volumes:
      - ./litellm/config.yaml:/app/config.yaml
    env_file:
      - .env
    command:
      - "--config=/app/config.yaml"
      - "--detailed_debug"
    healthcheck:
      test: ["CMD", "curl", "-f", "http://localhost:4000/health"]
      interval: 30s
      timeout: 10s
      retries: 3

  # ── Web UI（所有设备的对话入口）────────────────
  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    restart: unless-stopped
    ports:
      - "3000:8080"
    environment:
      - OPENAI_API_BASE_URL=http://litellm:4000/v1
      - OPENAI_API_KEY=sk-local           # LiteLLM 内部认证 Key
    volumes:
      - ./open-webui:/app/backend/data
    depends_on:
      - litellm

  # ── 本地推理（隐私 / 无限制）──────────────────
  ollama:
    image: ollama/ollama
    container_name: ollama
    restart: unless-stopped
    ports:
      - "11434:11434"
    volumes:
      - ./ollama:/root/.ollama
    # QNAP 有 GPU 的型号可以加：
    # deploy:
    #   resources:
    #     reservations:
    #       devices:
    #         - capabilities: [gpu]

  # ── 向量数据库（RAG / 知识库）──────────────────
  qdrant:
    image: qdrant/qdrant
    container_name: qdrant
    restart: unless-stopped
    ports:
      - "6333:6333"
    volumes:
      - ./qdrant:/qdrant/storage

  # ── Redis 缓存（LiteLLM 语义缓存）─────────────
  redis:
    image: redis:7-alpine
    container_name: redis
    restart: unless-stopped
    ports:
      - "6379:6379"
    volumes:
      - ./redis:/data

.env 文件（所有 Key 集中存放，不要提交到 Git）：

GEMINI_API_KEY=your_gemini_key
GROQ_API_KEY=your_groq_key
ANTHROPIC_API_KEY=your_claude_key
OPENROUTER_API_KEY=your_openrouter_key
DEEPSEEK_API_KEY=your_deepseek_key
LITELLM_MASTER_KEY=sk-local   # 内部认证，自定义

LiteLLM 配置：真正的 AI Gateway 玩法

# /share/Container/ai-gateway/litellm/config.yaml

model_list:

  # ── 免费主力：Gemini Flash ─────────────────────
  - model_name: primary
    litellm_params:
      model: gemini/gemini-2.5-flash
      api_key: os.environ/GEMINI_API_KEY
      rpm: 10        # 告知 LiteLLM 实际限速，自动限流
      tpm: 1000000

  # ── 极速响应：Groq ─────────────────────────────
  - model_name: fast
    litellm_params:
      model: groq/llama-3.1-70b-versatile
      api_key: os.environ/GROQ_API_KEY
      rpm: 30
      tpm: 6000

  # ── 高级推理：Claude（付费，按需触发）──────────
  - model_name: smart
    litellm_params:
      model: anthropic/claude-sonnet-4-5
      api_key: os.environ/ANTHROPIC_API_KEY

  # ── 低成本推理：DeepSeek R1 ───────────────────
  - model_name: reasoning
    litellm_params:
      model: deepseek/deepseek-r1
      api_key: os.environ/DEEPSEEK_API_KEY

  # ── 本地隐私：Ollama（NAS 内网，零延迟）───────
  - model_name: local
    litellm_params:
      model: ollama/qwen3:14b
      api_base: http://ollama:11434   # Docker 内网直连

  # ── 兜底：OpenRouter 免费模型 ─────────────────
  - model_name: fallback
    litellm_params:
      model: openrouter/mistralai/mistral-7b-instruct:free
      api_key: os.environ/OPENROUTER_API_KEY


router_settings:
  routing_strategy: latency-based-routing   # 按实测延迟选最快的
  fallbacks:
    - {"primary":   ["fast", "local", "fallback"]}
    - {"fast":      ["primary", "local", "fallback"]}
    - {"smart":     ["reasoning", "primary", "local"]}
    - {"reasoning": ["smart", "primary", "local"]}
  num_retries: 2
  timeout: 30
  retry_after: 5


# Redis 语义缓存：相似问题直接命中缓存，不消耗 Token
cache:
  type: redis
  host: redis
  port: 6379
  similarity_threshold: 0.85   # 85% 相似就直接返回缓存


# 可观测性：全量请求日志
litellm_settings:
  success_callback: ["langfuse"]   # 可选，接入 Langfuse 看板
  set_verbose: false
  store_model_in_db: true


# 多用户 / 多 Key 管理（可选）
general_settings:
  master_key: os.environ/LITELLM_MASTER_KEY
  database_url: "sqlite:///litellm.db"   # 轻量本地数据库

启动整套服务：

cd /share/Container/ai-gateway
docker compose up -d

# 查看日志
docker compose logs -f litellm

家庭 AI 中枢架构图

                  ┌─────────────────────────────────┐
                  │         QNAP NAS                │
                  │                                 │
所有设备           │  ┌──────────┐  ┌─────────────┐ │
──────────►       │  │ LiteLLM  │  │  Open WebUI │ │
:4000/v1          │  │ Gateway  │◄─│  :3000      │ │
                  │  └────┬─────┘  └─────────────┘ │
                  │       │                         │
                  │  ┌────▼──────────────────────┐  │
                  │  │      智能路由层            │  │
                  │  │  latency-based-routing    │  │
                  │  │  + auto fallback          │  │
                  │  │  + semantic cache (Redis) │  │
                  │  └────┬──────────────────────┘  │
                  │       │                         │
                  │  ┌────┼──────────────────────┐  │
                  │  │    │  Qdrant 向量数据库    │  │
                  │  │    │  :6333 (RAG 知识库)  │  │
                  │  └────┼──────────────────────┘  │
                  └───────┼─────────────────────────┘
                          │
            ┌─────────────┼─────────────┐
            ▼             ▼             ▼
      Ollama:11434   Gemini/Groq    Claude/DeepSeek
      (内网本地)     (免费 API)     (付费按需)

所有设备统一接入

部署完成后，局域网内所有设备对接 http://nas-ip:4000/v1 即可，模型切换、failback、缓存全部透明：

设备 / 工具	接入配置
VSCode Continue	`apiBase: http://nas-ip:4000/v1`
Cursor / Cline	OpenAI Compatible → `http://nas-ip:4000/v1`
Claude Code	`ANTHROPIC_BASE_URL=http://nas-ip:4000`
手机 / 平板	浏览器打开 `http://nas-ip:3000`（Open WebUI）
Hexo AI 插件	`api_base: http://nas-ip:4000/v1`
ComfyUI	OpenAI API Node → `http://nas-ip:4000/v1`
任意 MCP 客户端	`http://nas-ip:4000/v1`
自定义脚本	`base_url="http://nas-ip:4000/v1"`

免费 API 叠加策略：$0/月跑真实产品

通过上面的 NAS Gateway，整体流量架构变成：

[所有设备]
    │
    ▼
[QNAP NAS: LiteLLM :4000]
    │
    ├── Redis 语义缓存（命中则直接返回，零 Token 消耗）
    │
    ├──► 日常对话  → Gemini Flash（免费，1,500 次/天）
    ├──► 极速任务  → Groq Llama 70B（免费，315 TPS）
    ├──► 低成本推理→ DeepSeek R1（极便宜付费）
    ├──► 隐私数据  → Ollama / NAS 本地（零成本，零泄露）
    ├──► 额度耗尽  → OpenRouter 免费兜底
    └──► 关键任务  → Claude Sonnet/Opus（付费，仅 top 10%）

推荐叠加顺序（按成本从低到高触发）：

Redis 缓存命中 → 零 Token 成本，相似请求直接返回
Ollama 本地 → 隐私数据、高频低风险任务，无任何费用
Gemini Flash → 通用对话，1,500 次/天，不要信用卡
Groq → 延迟敏感任务，每天 1,000 次，无需信用卡
OpenRouter 免费 → 以上全部超限时的最后免费兜底
DeepSeek / Claude → 真正需要高质量推理时才触发付费

实践建议与常见坑

建议做的：

NAS 挂 SSD 存 Ollama 模型——7B 模型文件 5 GB，HDD 加载慢且频繁读写伤寿命，SSD 是必选
配置 num_ctx 别用默认值——Ollama 默认上下文 2048 tokens，RAG 场景必须显式设为 8192+
LiteLLM 的 rpm/tpm 字段填真实限速——填了之后 Gateway 会主动限流，不会等到 429 再切换，体验更丝滑
Redis 缓存的 similarity_threshold 不要设太低——低于 0.8 会出现不相关回答命中缓存的情况
Open WebUI 绑定到内网 IP——不要暴露到公网，或者加 Nginx 反代 + 认证再做外网访问

常见坑：

API Key 明文写进 docker-compose.yml——一定用 .env 文件，.gitignore 掉它
Ollama 冷启动——首次加载模型要时间，可以在 compose 里加 OLLAMA_KEEP_ALIVE=24h 让模型常驻内存
LiteLLM 版本更新频繁——image: ghcr.io/berriai/litellm:main 是滚动更新，生产建议锁定版本号如 :v1.40.0
QNAP Container Station 的网络模式——默认 bridge 模式容器间可互通，但 host 模式在某些 QNAP 固件上有 BUG，出现连不上 Ollama 时检查这里

常见问题解答

Q：有哪些不需要信用卡的 LLM API？
A：Google Gemini API、Groq、Cerebras、NVIDIA NIM 以及大多数 OpenRouter 免费模型——用邮箱或 Google 账号注册即可立即获得 API 访问权限。

Q：2026 年哪家免费 API 额度最慷慨？
A：Cerebras 在每日 Token 量上领先——Llama 3.1 70B 每天 1M tokens，无需信用卡。Gemini Flash 是最易上手的基线（每天 1,500 次请求）。速度上 Groq 无敌，Llama 70B 约 315 tokens/秒。

Q：可以把多家免费 API 叠加使用吗？
A：完全可以，而且强烈建议这样做。各家提供商有独立的速率限制，通过 LiteLLM 的 fallback 配置，多家免费层叠加后可用容量倍增，整套方案几乎不需要付费。

Q：QNAP NAS 配置要求？
A：运行完整这套栈（LiteLLM + Open WebUI + Ollama 7B + Qdrant + Redis）建议至少 16 GB 内存，32 GB 更稳。Ollama 跑 14B 模型需要约 10 GB 内存。CPU 推理够用但慢，有 GPU 的 QNAP 型号（如搭载 NVIDIA 显卡的机型）体验明显更好。

Q：Anthropic Claude 对开源维护者有特别政策吗？
A：有。Claude for Open Source 计划（2026 年 2 月启动）为符合资质的开源项目维护者提供 6 个月 Claude Max 20x 免费访问，价值 $1,200，共 10,000 个名额。

总结

2026 年，真正成熟的 AI 工作流已经不再是"选哪个模型"的问题，而是如何构建自己的 AI 基础设施。

一台 QNAP NAS，加上 LiteLLM + Ollama + 免费 API 叠加，你能得到的是：

一个家庭 AI 中枢，所有设备统一接入
本地模型处理隐私数据，云端 API 处理高价值任务
自动 Fallback，任何一家提供商限速都不影响使用
语义缓存大幅降低重复 Token 消耗
Open WebUI 提供手机、电脑随时可用的对话界面
Qdrant 向量数据库支撑私有知识库 RAG
全量可观测性，知道每次请求花了多少钱、走了哪个模型

这是目前成本最低、稳定性最高、扩展性最强的个人 AI 基础设施方案。90% 的日常请求走免费层，只有最关键的 10% 才触发付费模型——这才是把免费 API 用到极致的正确姿势。

本文持续更新，如有配额变动或新提供商欢迎评论区反馈。

相关阅读：

系列教程

全部文章RSS订阅

AI系列

AI 分类 RSS 订阅

Hexo系列

HexoRSS分类订阅

[十万字图文教程]基于Hexo的matery主题搭建博客并深度优化完全一站式教程

markdown 各种其它语法插件，latex公式支持，mermaid图表，plant uml图表，URL卡片，bilibili卡片，github卡片，豆瓣卡片，插入音乐和视频，插入脑图，插入PDF，嵌入iframe

Docker系列

Docker 分类 RSS 订阅

夜法之书

https://blog.17lai.site/posts/9h3d325f/

本博客所有文章除特別声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源夜法之书 !

ai llm api 免费 ollama

2026 年免费 LLM API 完全指南：13 家提供商 + AI 网关高级玩法 + 本地模型

一览对比表

各提供商详细介绍

1. Google Gemini API

2. Groq

3. Cerebras

4. NVIDIA NIM (build.nvidia.com)

5. OpenRouter

6. OpenAI

7. Anthropic Claude

8. Mistral La Plateforme

9. Cohere

10. DeepSeek

11. xAI Grok

12. Hugging Face Inference API

13. Together AI

本地模型方案：Ollama 与 LM Studio

Ollama

LM Studio

本地模型 vs 云端 API：如何选择

快速上手：OmniRoute——零配置 AI Gateway

什么是真正的 AI Gateway

家庭 AI 中枢：部署到 QNAP NAS

为什么 LiteLLM 特别适合 NAS

目录结构

Docker Compose 完整配置

LiteLLM 配置：真正的 AI Gateway 玩法

家庭 AI 中枢架构图

所有设备统一接入

免费 API 叠加策略：$0/月 跑真实产品

实践建议与常见坑

常见问题解答

总结

系列教程

AI系列

Hexo系列

Docker系列

免费 API 叠加策略：$0/月跑真实产品