Ollama本地部署AI大模型完全指南：隐私、离线、零成本

📅 2026-06-16 🏷 Ollama · AI工具 · 本地部署 · 开源模型 · 隐私安全 · AI编程

Ollama让你在自己的电脑上跑起ChatGPT级别的AI模型。无需联网、无需付费、数据完全私密。本文手把手教你安装配置、选择模型、调用API，Mac/Windows/Linux全平台支持。

为什么你需要一个本地AI？

云端AI好用，但有两个绕不开的问题：

第一，你的数据要传到别人服务器上。合同、代码、客户信息——这些东西你敢随便发给第三方？

第二，断网就没法用。出差高铁上、偏远地区办公，云AI直接罢工。

Ollama解决了这两个问题。它让你在本地电脑跑起LLM，数据不出本机，随时可用，完全免费。

什么是Ollama？

Ollama是一个开源项目，核心功能就一件事：让本地运行大语言模型变得像装APP一样简单。

它背后封装了 llama.cpp 引擎，自动处理模型量化、内存管理、GPU加速这些底层细节。你只需要一条命令就能跑起来。

支持的平台：macOS、Linux、Windows（WSL2）。

支持的模型：Llama 3.1、Mistral、Gemma、Phi-3、Qwen 2.5 等主流开源模型。

安装Ollama

macOS

终端里执行一行：

curl -fsSL https://ollama.com/install.sh | sh

安装完会自动启动后台服务。验证一下：

ollama --version

看到版本号就说明装好了。

Windows

去官网下载安装包，双击运行就行。安装后会自动在开始菜单创建快捷方式。

命令行验证：

ollama --version

Linux

curl -fsSL https://ollama.com/install.sh | sh

和macOS一样的命令。部分发行版可能需要先安装 CUDA 驱动来启用GPU加速。

拉取并运行模型

Ollama的模型仓库叫"模库"，类似Docker Hub。常用模型一键拉取：

# 拉取Llama 3.1 8B（轻量级，适合大多数电脑）
ollama pull llama3.1

# 拉取Qwen 2.5 7B（中文能力强）
ollama pull qwen2.5

# 拉取Mistral 7B（英文推理强）
ollama pull mistral

# 拉取Phi-3 mini（微软出品，极轻量）
ollama pull phi3

拉取完成后，直接在终端对话：

ollama run llama3.1

你会进入交互式对话界面，输入问题就能得到回答。按 Ctrl+D 退出。

用API调用Ollama

Ollama启动后默认监听 http://localhost:11434，提供完整的OpenAI兼容API。

这意味着你可以直接对接现有工具，不需要改代码。

基本请求

curl http://localhost:1144/api/generate -d '{
  "model": "llama3.1",
  "prompt": "用一句话解释量子计算",
  "stream": false
}'

返回格式：

{
  "model": "llama3.1",
  "response": "量子计算是利用量子力学原理进行信息处理的计算方式...",
  "done": true
}

OpenAI SDK对接

如果你的项目原来用的是OpenAI SDK，只需改一行配置：

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1/",
    api_key="ollama"
)

response = client.chat.completions.create(
    model="llama3.1",
    messages=[
        {"role": "user", "content": "帮我写一段Python快速排序"}
    ]
)
print(response.choices[0].message.content)

就这么简单。不用改业务逻辑，切换后端就行。

流式输出

实时输出更适合做聊天界面：

curl http://localhost:11434/api/chat -d '{
  "model": "llama3.1",
  "messages": [
    {"role": "user", "content": "给我讲个冷笑话"}
  ],
  "stream": true
}'

自定义模型配置

Ollama用 Modelfile 定义模型参数，类似 Dockerfile。

创建一个 Modelfile：

FROM llama3.1
SYSTEM "你是一个专业的Python程序员，回答要简洁准确。"
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
PARAMETER top_p 0.9

然后构建自定义模型：

ollama create my-python-assistant -f Modelfile

之后用 ollama run my-python-assistant 就会带上你的系统提示词和参数设置。

不同电脑怎么选模型？

模型大小和硬件需求对照：

模型	参数量	所需内存	适合场景
Phi-3 mini	3.8B	4GB	笔记本、低配PC
Llama 3.1 8B	8B	6GB	日常对话、写作
Qwen 2.5 14B	14B	10GB	中文任务、编程
Mistral Large	70B	40GB+	专业推理、复杂任务

如果你的电脑有 NVIDIA 显卡，Ollama 会自动利用 GPU 加速。显存越大，跑的模型越大越快。

macOS 用户注意：Apple Silicon 芯片使用统一内存，16GB 内存的 Mac 可以流畅运行 13B 以下的模型。

常见场景实战

场景一：本地编程助手

配合 Cursor 或 VS Code 的 Continue 插件，把后端指向 Ollama：

OLLAMA_BASE_URL=http://localhost:11434
MODEL=llama3.1

代码补全、解释、重构全部本地完成，不花一分钱。

场景二：离线文档问答

结合 RAG 技术，把你的本地文档喂给 Ollama：

# 用 embedding 模型提取文档特征
ollama pull nomic-embed-text

# 然后用 LangChain 或 LlamaIndex 搭建检索问答系统

出差没网？文档在手边，AI随时查。

场景三：批量数据处理

Ollama 支持批量请求，适合做文本分类、信息抽取：

response = client.chat.completions.create(
    model="qwen2.5",
    messages=[{"role": "user", "content": "从这段文字中提取所有公司名称"}],
    format={"type": "object", "properties": {"companies": {"type": "array", "items": {"type": "string"}}}}
)

性能优化技巧

用量化模型：Ollama 默认拉取的就是 4-bit 量化版本，体积缩小 75%，性能损失很小。
调整上下文长度：PARAMETER num_ctx 4096 设太低会截断长对话，设太高消耗更多内存。日常 4096 够用，写长文档可以调到 8192。
开启 GPU 加速：Linux 用户确保安装了 CUDA。macOS 自动使用 Metal 加速，开箱即用。
模型缓存管理：ollama list 查看已下载的模型，ollama rm <模型名> 删除不需要的。磁盘空间紧张时定期清理。

和云端AI比，差距在哪？

实话实说，本地模型的智商确实不如 GPT-4o 或 Claude Opus。8B 参数的模型在处理复杂逻辑推理时会有明显差距。

但差距在缩小。Qwen 2.5 14B 和 Llama 3.1 70B 的质量已经非常接近闭源模型的中档水平。而且本地模型有个云端比不了的优势：没有使用限制。

你想问多少就问多少，不会封号，不会限流，不会因为敏感内容被拦截。

总结

Ollama 是目前最简单的本地AI部署方案。一条命令安装，一条命令跑模型，API 兼容 OpenAI 生态。

适合谁用：

重视数据隐私的开发者和企业
经常出差、网络不稳定的用户
不想为 AI 订阅付费的个人用户
需要定制化 Prompt 和参数的进阶用户