Ollama本地部署大模型：不花钱也能拥有私人AI助手

📅 2026-06-27 🏷 Ollama · 本地AI · 大模型 · 开源工具 · 隐私安全

Ollama是一个一键部署本地大模型的开源工具。无需API密钥、无需联网，在自家电脑上运行LLM。本文从安装到使用完整教程，支持Mac、Windows和Linux，附带常用模型推荐。

不想把数据传到云端？试试在自己电脑上跑AI

你有没有过这种顾虑：

把公司代码发给ChatGPT，万一泄露怎么办？把客户资料喂给AI助手，合规性怎么保证？

Ollama解决了这个问题。它让你在自己的电脑上运行大语言模型，数据不出本机，完全离线可用。

Ollama是什么？

Ollama是一个开源工具，一行命令就能在本地下载和运行大模型。

开源免费：Apache 2.0协议，随便用
跨平台：macOS、Windows、Linux都支持
模型丰富：内置Llama 3、Mistral、Phi-3等多个主流模型
API兼容：支持OpenAI格式的API接口，可以对接各种AI应用

它背后的原理很简单：把模型文件下载到本地硬盘，用GPU或CPU推理。你得到的效果跟调用云端API差不多，只是速度取决于你的硬件。

安装方法

macOS

brew install ollama

一行搞定。装完会自动启动服务。

Windows

去 ollama.com 下载安装包，双击安装就行。安装器会自动配置环境变量。

Linux

curl -fsSL https://ollama.com/install.sh | sh

脚本会自动检测系统架构并安装对应的二进制文件。

验证安装

安装完成后，终端输入：

ollama --version

看到版本号就说明成功了。

运行第一个模型

Ollama内置了多个预训练模型，不需要自己下载权重文件。

模型	大小	适合场景	最低内存
Llama 3.1 8B	4.7GB	日常对话、代码生成	8GB
Mistral 7B	4.1GB	轻量级任务	8GB
Phi-3 Mini	2.3GB	资源受限设备	4GB
Llama 3.1 70B	40GB	高质量推理	48GB+
Qwen 2.5 72B	47GB	中文理解强	48GB+

启动Llama 3.1

ollama run llama3.1

第一次运行会自动下载模型（约4-5GB）。下载完成后进入对话界面，直接打字就能聊。

试试输入：“用Python写一个快速排序算法”。模型会生成代码，你可以继续追问修改。

启动Qwen（中文更好）

ollama run qwen2.5

Qwen是阿里出的模型，中文理解能力比Llama强不少。做中文问答、翻译、摘要任务推荐用它。

进阶用法

自定义模型

你可以基于已有模型创建自己的变体。比如调整温度参数、修改系统提示词：

ollama create my-assistant -f Modelfile

Modelfile内容示例：

FROM qwen2.5
SYSTEM "你是一个专业的Python工程师，回答要简洁准确。"
PARAMETER temperature 0.7

查看和管理模型

# 列出所有已下载的模型
ollama list

# 删除不需要的模型
ollama rm llama3.1

# 复制一个模型到新名字
ollama cp llama3.1 llama3.1-backup

作为API服务器使用

Ollama默认在后台运行一个API服务，地址是http://localhost:11434。

你可以用任何编程语言调用它：

import requests

response = requests.post("http://localhost:11434/api/generate", json={
    "model": "qwen2.5",
    "prompt": "解释一下什么是闭包",
    "stream": False
})
print(response.json()["response"])

返回格式跟OpenAI API几乎一样，所以很多支持OpenAI接口的工具可以直接切换到Ollama。

配合其他AI工具

Ollama的强大之处在于它能被集成到各种应用中：

Open WebUI：一个网页版聊天界面，支持上传文件、多轮对话
LibreChat：类似ChatGPT的Web前端，可连接Ollama
AI IDE插件：像Continue、Cody等VS Code插件都支持Ollama后端
Home Assistant：智能家居平台可以用Ollama做本地语音助手

安装Open WebUI只需一条命令：

docker run -d --gpus=all -p 3000:8080 --name=open-webui \
  -v open-webui:/app/backend/data \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  ghcr.io/open-webui/open-webui:main

浏览器打开http://localhost:3000就能用了。

硬件要求

CPU模式

任何现代电脑都能跑。8GB内存可以跑7B以下的小模型，速度大概在每秒2-5个token。

GPU加速

有NVIDIA显卡的话体验会好很多：

4GB显存：能跑7B模型，约10-20 token/s
8GB显存：能跑13B模型，约20-40 token/s
24GB显存（RTX 3090/4090）：能跑70B模型，约10-15 token/s

Mac的M系列芯片也很适合跑Ollama，因为统一内存架构让CPU和GPU共享内存，效率很高。

注意事项

模型文件大小：大模型动辄几十GB，确保硬盘空间充足。可以用ollama pull分批下载，用ollama list查看已占用的空间。

推理速度：没有GPU的情况下，生成速度会比较慢。写长篇文章可能需要等几十秒。

隐私安全：虽然数据不离开本机，但模型本身是从Ollama服务器下载的。来源可信，但如果特别在意可以手动下载模型文件离线安装。

总结

Ollama是目前最简单的本地AI部署方案。不需要配置CUDA环境，不需要编译源码，一行命令就能跑起来。

对于开发者来说，它最大的意义是把AI能力从云端拉回到本地。代码分析、文档生成、代码补全——这些场景的数据敏感性没那么高，但本地运行更自由、更省钱。

现在就装一个试试。打开终端输入ollama run qwen2.5，然后问它一个问题。你会发现，AI就在你手边，不需要联网。