🏠 首页 攻略 Ollama本地部署大模型:不花钱也能拥有私人AI助手

Ollama本地部署大模型:不花钱也能拥有私人AI助手

Ollama是一个一键部署本地大模型的开源工具。无需API密钥、无需联网,在自家电脑上运行LLM。本文从安装到使用完整教程,支持Mac、Windows和Linux,附带常用模型推荐。

不想把数据传到云端?试试在自己电脑上跑AI

你有没有过这种顾虑:

把公司代码发给ChatGPT,万一泄露怎么办?把客户资料喂给AI助手,合规性怎么保证?

Ollama解决了这个问题。它让你在自己的电脑上运行大语言模型,数据不出本机,完全离线可用。

Ollama是什么?

Ollama是一个开源工具,一行命令就能在本地下载和运行大模型。

  • 开源免费:Apache 2.0协议,随便用
  • 跨平台:macOS、Windows、Linux都支持
  • 模型丰富:内置Llama 3、Mistral、Phi-3等多个主流模型
  • API兼容:支持OpenAI格式的API接口,可以对接各种AI应用

它背后的原理很简单:把模型文件下载到本地硬盘,用GPU或CPU推理。你得到的效果跟调用云端API差不多,只是速度取决于你的硬件。

安装方法

macOS

brew install ollama

一行搞定。装完会自动启动服务。

Windows

ollama.com 下载安装包,双击安装就行。安装器会自动配置环境变量。

Linux

curl -fsSL https://ollama.com/install.sh | sh

脚本会自动检测系统架构并安装对应的二进制文件。

验证安装

安装完成后,终端输入:

ollama --version

看到版本号就说明成功了。

运行第一个模型

Ollama内置了多个预训练模型,不需要自己下载权重文件。

推荐模型选择

模型大小适合场景最低内存
Llama 3.1 8B4.7GB日常对话、代码生成8GB
Mistral 7B4.1GB轻量级任务8GB
Phi-3 Mini2.3GB资源受限设备4GB
Llama 3.1 70B40GB高质量推理48GB+
Qwen 2.5 72B47GB中文理解强48GB+

启动Llama 3.1

ollama run llama3.1

第一次运行会自动下载模型(约4-5GB)。下载完成后进入对话界面,直接打字就能聊。

试试输入:“用Python写一个快速排序算法”。模型会生成代码,你可以继续追问修改。

启动Qwen(中文更好)

ollama run qwen2.5

Qwen是阿里出的模型,中文理解能力比Llama强不少。做中文问答、翻译、摘要任务推荐用它。

进阶用法

自定义模型

你可以基于已有模型创建自己的变体。比如调整温度参数、修改系统提示词:

ollama create my-assistant -f Modelfile

Modelfile内容示例:

FROM qwen2.5
SYSTEM "你是一个专业的Python工程师,回答要简洁准确。"
PARAMETER temperature 0.7

查看和管理模型

# 列出所有已下载的模型
ollama list

# 删除不需要的模型
ollama rm llama3.1

# 复制一个模型到新名字
ollama cp llama3.1 llama3.1-backup

作为API服务器使用

Ollama默认在后台运行一个API服务,地址是http://localhost:11434

你可以用任何编程语言调用它:

import requests

response = requests.post("http://localhost:11434/api/generate", json={
    "model": "qwen2.5",
    "prompt": "解释一下什么是闭包",
    "stream": False
})
print(response.json()["response"])

返回格式跟OpenAI API几乎一样,所以很多支持OpenAI接口的工具可以直接切换到Ollama。

配合其他AI工具

Ollama的强大之处在于它能被集成到各种应用中:

  • Open WebUI:一个网页版聊天界面,支持上传文件、多轮对话
  • LibreChat:类似ChatGPT的Web前端,可连接Ollama
  • AI IDE插件:像Continue、Cody等VS Code插件都支持Ollama后端
  • Home Assistant:智能家居平台可以用Ollama做本地语音助手

安装Open WebUI只需一条命令:

docker run -d --gpus=all -p 3000:8080 --name=open-webui \
  -v open-webui:/app/backend/data \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  ghcr.io/open-webui/open-webui:main

浏览器打开http://localhost:3000就能用了。

硬件要求

CPU模式

任何现代电脑都能跑。8GB内存可以跑7B以下的小模型,速度大概在每秒2-5个token。

GPU加速

有NVIDIA显卡的话体验会好很多:

  • 4GB显存:能跑7B模型,约10-20 token/s
  • 8GB显存:能跑13B模型,约20-40 token/s
  • 24GB显存(RTX 3090/4090):能跑70B模型,约10-15 token/s

Mac的M系列芯片也很适合跑Ollama,因为统一内存架构让CPU和GPU共享内存,效率很高。

注意事项

模型文件大小:大模型动辄几十GB,确保硬盘空间充足。可以用ollama pull分批下载,用ollama list查看已占用的空间。

推理速度:没有GPU的情况下,生成速度会比较慢。写长篇文章可能需要等几十秒。

隐私安全:虽然数据不离开本机,但模型本身是从Ollama服务器下载的。来源可信,但如果特别在意可以手动下载模型文件离线安装。

总结

Ollama是目前最简单的本地AI部署方案。不需要配置CUDA环境,不需要编译源码,一行命令就能跑起来。

对于开发者来说,它最大的意义是把AI能力从云端拉回到本地。代码分析、文档生成、代码补全——这些场景的数据敏感性没那么高,但本地运行更自由、更省钱。

现在就装一个试试。打开终端输入ollama run qwen2.5,然后问它一个问题。你会发现,AI就在你手边,不需要联网。