不想把数据传到云端?试试在自己电脑上跑AI
你有没有过这种顾虑:
把公司代码发给ChatGPT,万一泄露怎么办?把客户资料喂给AI助手,合规性怎么保证?
Ollama解决了这个问题。它让你在自己的电脑上运行大语言模型,数据不出本机,完全离线可用。
Ollama是什么?
Ollama是一个开源工具,一行命令就能在本地下载和运行大模型。
- 开源免费:Apache 2.0协议,随便用
- 跨平台:macOS、Windows、Linux都支持
- 模型丰富:内置Llama 3、Mistral、Phi-3等多个主流模型
- API兼容:支持OpenAI格式的API接口,可以对接各种AI应用
它背后的原理很简单:把模型文件下载到本地硬盘,用GPU或CPU推理。你得到的效果跟调用云端API差不多,只是速度取决于你的硬件。
安装方法
macOS
brew install ollama
一行搞定。装完会自动启动服务。
Windows
去 ollama.com 下载安装包,双击安装就行。安装器会自动配置环境变量。
Linux
curl -fsSL https://ollama.com/install.sh | sh
脚本会自动检测系统架构并安装对应的二进制文件。
验证安装
安装完成后,终端输入:
ollama --version
看到版本号就说明成功了。
运行第一个模型
Ollama内置了多个预训练模型,不需要自己下载权重文件。
推荐模型选择
| 模型 | 大小 | 适合场景 | 最低内存 |
|---|---|---|---|
| Llama 3.1 8B | 4.7GB | 日常对话、代码生成 | 8GB |
| Mistral 7B | 4.1GB | 轻量级任务 | 8GB |
| Phi-3 Mini | 2.3GB | 资源受限设备 | 4GB |
| Llama 3.1 70B | 40GB | 高质量推理 | 48GB+ |
| Qwen 2.5 72B | 47GB | 中文理解强 | 48GB+ |
启动Llama 3.1
ollama run llama3.1
第一次运行会自动下载模型(约4-5GB)。下载完成后进入对话界面,直接打字就能聊。
试试输入:“用Python写一个快速排序算法”。模型会生成代码,你可以继续追问修改。
启动Qwen(中文更好)
ollama run qwen2.5
Qwen是阿里出的模型,中文理解能力比Llama强不少。做中文问答、翻译、摘要任务推荐用它。
进阶用法
自定义模型
你可以基于已有模型创建自己的变体。比如调整温度参数、修改系统提示词:
ollama create my-assistant -f Modelfile
Modelfile内容示例:
FROM qwen2.5
SYSTEM "你是一个专业的Python工程师,回答要简洁准确。"
PARAMETER temperature 0.7
查看和管理模型
# 列出所有已下载的模型
ollama list
# 删除不需要的模型
ollama rm llama3.1
# 复制一个模型到新名字
ollama cp llama3.1 llama3.1-backup
作为API服务器使用
Ollama默认在后台运行一个API服务,地址是http://localhost:11434。
你可以用任何编程语言调用它:
import requests
response = requests.post("http://localhost:11434/api/generate", json={
"model": "qwen2.5",
"prompt": "解释一下什么是闭包",
"stream": False
})
print(response.json()["response"])
返回格式跟OpenAI API几乎一样,所以很多支持OpenAI接口的工具可以直接切换到Ollama。
配合其他AI工具
Ollama的强大之处在于它能被集成到各种应用中:
- Open WebUI:一个网页版聊天界面,支持上传文件、多轮对话
- LibreChat:类似ChatGPT的Web前端,可连接Ollama
- AI IDE插件:像Continue、Cody等VS Code插件都支持Ollama后端
- Home Assistant:智能家居平台可以用Ollama做本地语音助手
安装Open WebUI只需一条命令:
docker run -d --gpus=all -p 3000:8080 --name=open-webui \
-v open-webui:/app/backend/data \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
ghcr.io/open-webui/open-webui:main
浏览器打开http://localhost:3000就能用了。
硬件要求
CPU模式
任何现代电脑都能跑。8GB内存可以跑7B以下的小模型,速度大概在每秒2-5个token。
GPU加速
有NVIDIA显卡的话体验会好很多:
- 4GB显存:能跑7B模型,约10-20 token/s
- 8GB显存:能跑13B模型,约20-40 token/s
- 24GB显存(RTX 3090/4090):能跑70B模型,约10-15 token/s
Mac的M系列芯片也很适合跑Ollama,因为统一内存架构让CPU和GPU共享内存,效率很高。
注意事项
模型文件大小:大模型动辄几十GB,确保硬盘空间充足。可以用ollama pull分批下载,用ollama list查看已占用的空间。
推理速度:没有GPU的情况下,生成速度会比较慢。写长篇文章可能需要等几十秒。
隐私安全:虽然数据不离开本机,但模型本身是从Ollama服务器下载的。来源可信,但如果特别在意可以手动下载模型文件离线安装。
总结
Ollama是目前最简单的本地AI部署方案。不需要配置CUDA环境,不需要编译源码,一行命令就能跑起来。
对于开发者来说,它最大的意义是把AI能力从云端拉回到本地。代码分析、文档生成、代码补全——这些场景的数据敏感性没那么高,但本地运行更自由、更省钱。
现在就装一个试试。打开终端输入ollama run qwen2.5,然后问它一个问题。你会发现,AI就在你手边,不需要联网。