🏠 首页 攻略 Ollama本地部署AI大模型完全指南:隐私、离线、零成本

Ollama本地部署AI大模型完全指南:隐私、离线、零成本

Ollama让你在自己的电脑上跑起ChatGPT级别的AI模型。无需联网、无需付费、数据完全私密。本文手把手教你安装配置、选择模型、调用API,Mac/Windows/Linux全平台支持。

为什么你需要一个本地AI?

云端AI好用,但有两个绕不开的问题:

第一,你的数据要传到别人服务器上。合同、代码、客户信息——这些东西你敢随便发给第三方?

第二,断网就没法用。出差高铁上、偏远地区办公,云AI直接罢工。

Ollama解决了这两个问题。它让你在本地电脑跑起LLM,数据不出本机,随时可用,完全免费。

什么是Ollama?

Ollama是一个开源项目,核心功能就一件事:让本地运行大语言模型变得像装APP一样简单

它背后封装了 llama.cpp 引擎,自动处理模型量化、内存管理、GPU加速这些底层细节。你只需要一条命令就能跑起来。

支持的平台:macOS、Linux、Windows(WSL2)。

支持的模型:Llama 3.1、Mistral、Gemma、Phi-3、Qwen 2.5 等主流开源模型。

安装Ollama

macOS

终端里执行一行:

curl -fsSL https://ollama.com/install.sh | sh

安装完会自动启动后台服务。验证一下:

ollama --version

看到版本号就说明装好了。

Windows

去官网下载安装包,双击运行就行。安装后会自动在开始菜单创建快捷方式。

命令行验证:

ollama --version

Linux

curl -fsSL https://ollama.com/install.sh | sh

和macOS一样的命令。部分发行版可能需要先安装 CUDA 驱动来启用GPU加速。

拉取并运行模型

Ollama的模型仓库叫"模库",类似Docker Hub。常用模型一键拉取:

# 拉取Llama 3.1 8B(轻量级,适合大多数电脑)
ollama pull llama3.1

# 拉取Qwen 2.5 7B(中文能力强)
ollama pull qwen2.5

# 拉取Mistral 7B(英文推理强)
ollama pull mistral

# 拉取Phi-3 mini(微软出品,极轻量)
ollama pull phi3

拉取完成后,直接在终端对话:

ollama run llama3.1

你会进入交互式对话界面,输入问题就能得到回答。按 Ctrl+D 退出。

用API调用Ollama

Ollama启动后默认监听 http://localhost:11434,提供完整的OpenAI兼容API。

这意味着你可以直接对接现有工具,不需要改代码。

基本请求

curl http://localhost:1144/api/generate -d '{
  "model": "llama3.1",
  "prompt": "用一句话解释量子计算",
  "stream": false
}'

返回格式:

{
  "model": "llama3.1",
  "response": "量子计算是利用量子力学原理进行信息处理的计算方式...",
  "done": true
}

OpenAI SDK对接

如果你的项目原来用的是OpenAI SDK,只需改一行配置:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1/",
    api_key="ollama"
)

response = client.chat.completions.create(
    model="llama3.1",
    messages=[
        {"role": "user", "content": "帮我写一段Python快速排序"}
    ]
)
print(response.choices[0].message.content)

就这么简单。不用改业务逻辑,切换后端就行。

流式输出

实时输出更适合做聊天界面:

curl http://localhost:11434/api/chat -d '{
  "model": "llama3.1",
  "messages": [
    {"role": "user", "content": "给我讲个冷笑话"}
  ],
  "stream": true
}'

自定义模型配置

Ollama用 Modelfile 定义模型参数,类似 Dockerfile。

创建一个 Modelfile:

FROM llama3.1
SYSTEM "你是一个专业的Python程序员,回答要简洁准确。"
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
PARAMETER top_p 0.9

然后构建自定义模型:

ollama create my-python-assistant -f Modelfile

之后用 ollama run my-python-assistant 就会带上你的系统提示词和参数设置。

不同电脑怎么选模型?

模型大小和硬件需求对照:

模型参数量所需内存适合场景
Phi-3 mini3.8B4GB笔记本、低配PC
Llama 3.1 8B8B6GB日常对话、写作
Qwen 2.5 14B14B10GB中文任务、编程
Mistral Large70B40GB+专业推理、复杂任务

如果你的电脑有 NVIDIA 显卡,Ollama 会自动利用 GPU 加速。显存越大,跑的模型越大越快。

macOS 用户注意:Apple Silicon 芯片使用统一内存,16GB 内存的 Mac 可以流畅运行 13B 以下的模型。

常见场景实战

场景一:本地编程助手

配合 Cursor 或 VS Code 的 Continue 插件,把后端指向 Ollama:

OLLAMA_BASE_URL=http://localhost:11434
MODEL=llama3.1

代码补全、解释、重构全部本地完成,不花一分钱。

场景二:离线文档问答

结合 RAG 技术,把你的本地文档喂给 Ollama:

# 用 embedding 模型提取文档特征
ollama pull nomic-embed-text

# 然后用 LangChain 或 LlamaIndex 搭建检索问答系统

出差没网?文档在手边,AI随时查。

场景三:批量数据处理

Ollama 支持批量请求,适合做文本分类、信息抽取:

response = client.chat.completions.create(
    model="qwen2.5",
    messages=[{"role": "user", "content": "从这段文字中提取所有公司名称"}],
    format={"type": "object", "properties": {"companies": {"type": "array", "items": {"type": "string"}}}}
)

性能优化技巧

  1. 用量化模型:Ollama 默认拉取的就是 4-bit 量化版本,体积缩小 75%,性能损失很小。

  2. 调整上下文长度PARAMETER num_ctx 4096 设太低会截断长对话,设太高消耗更多内存。日常 4096 够用,写长文档可以调到 8192。

  3. 开启 GPU 加速:Linux 用户确保安装了 CUDA。macOS 自动使用 Metal 加速,开箱即用。

  4. 模型缓存管理ollama list 查看已下载的模型,ollama rm <模型名> 删除不需要的。磁盘空间紧张时定期清理。

和云端AI比,差距在哪?

实话实说,本地模型的智商确实不如 GPT-4o 或 Claude Opus。8B 参数的模型在处理复杂逻辑推理时会有明显差距。

但差距在缩小。Qwen 2.5 14B 和 Llama 3.1 70B 的质量已经非常接近闭源模型的中档水平。而且本地模型有个云端比不了的优势:没有使用限制

你想问多少就问多少,不会封号,不会限流,不会因为敏感内容被拦截。

总结

Ollama 是目前最简单的本地AI部署方案。一条命令安装,一条命令跑模型,API 兼容 OpenAI 生态。

适合谁用:

  • 重视数据隐私的开发者和企业
  • 经常出差、网络不稳定的用户
  • 不想为 AI 订阅付费的个人用户
  • 需要定制化 Prompt 和参数的进阶用户

装好之后你会发现,本地AI就像手机里的备忘录——不一定每次都用到,但知道它在手边,心里踏实。