前言
现在各种AI Chat已经非常好用了,比如御三家Claude、Gemini和ChatGPT,还比如国内的元宝、豆包和Deekseek,完全够用了。但大模型已经不再是云端的专属。得益于 Ollama 和 OpenWebUI 这两个开源项目,你完全可以在自己的电脑上运行 Llama 3、Qwen、Gemma 等主流大模型,且整个部署过程不超过 30 分钟。当然,本地部署大模型主要用来学习或demo,肯定是无法生产的。
本地部署的核心优势:
数据隐私:所有对话数据留在本地,不经过任何第三方服务器。
零成本推理:不依赖 API 计费,无限次调用。
离线可用:部署完成后,断网也能正常对话。
完全可控:自由选择模型、调整参数、决定升级节奏。
本文将带你从零开始,在 Windows 上完成 Ollama + OpenWebUI 的完整部署。
架构概览
整个方案由两部分组成:
┌─────────────────┐ HTTP API ┌──────────────┐ │ Open WebUI │ ◄──── localhost:11434 ──►│ Ollama │ │ (前端界面) │ │ (推理引擎) │ │ localhost:3000 │ │ 本地模型运行 │ └─────────────────┘ └──────────────┘
| 组件 | 组件 | 技术栈 |
|---|---|---|
| Ollama | 模型下载、管理、推理引擎 | Go + llama.cpp |
| OpenWebUI | 浏览器端交互界面 | Python + Svelte |
两者通过 Ollama 暴露的 REST API(默认端口 11434)通信,Open WebUI 提供类 ChatGPT 的使用体验。
硬件要求
在开始之前,先确认你的硬件条件:
| 配置层级 | GPU | 显存 | 内存 | 适合运行的模型 |
|---|---|---|---|---|
| 入门 | 无独显 | — | 16GB | 7B 量化模型(CPU 推理,速度较慢) |
| 推荐 | RTX 4060 | 12GB | 16GB | 7B ~ 14B |
| 理想 | RTX 5060 Ti+ | 16GB+ | 32GB | 14B ~ 70B |
关键指标:模型参数量决定了显存需求。7B 模型(Q4 量化)约需 4~5GB 显存,13B 约需 8~10GB。
安装 Ollama
安装:直接双击安装文件即可成功安装
完成后打开 PowerShell 验证:
ollama --version
验证 Ollama 运行:安装完成后,Ollama 会在 localhost:11434 启动一个 API 服务。验证方式:
curl http://localhost:11434 # 预期输出:Ollama is running
建议配置:在 setting 的模型位置改为 其他盘 以免默认占用C盘空间
下载第一个本地大模型
常用模型推荐
| 模型 | 大小 | 特点 | 推荐场景 |
|---|---|---|---|
| qwen2.5:7b | 4.7GB | 中文能力强,综合表现均衡 | 日常中文对话 |
| llama3:8b | 4.7GB | Meta 出品,英文能力突出 | 英文写作、代码 |
| deepseek-coder-v2:16b | 8.9GB | 代码能力极强 | 编程辅助 |
| phi3:mini | 2.3GB | 微软出品,体积极小 | 低配机器、快速响应 |
| gemma2:9b | 5.4GB | Google 出品,推理能力强 | 逻辑推理任务 |
拉取模型
# 下载 Qwen3.5 9B(中文表现优秀,推荐) ollama pull qwen9.5:9b
安装 OpenWebUI
因为踩过坑,不建议用docker安装,直接pip安装吧
# 建议先创建虚拟环境 python3 -m venv open-webui-env source open-webui-env/bin/activate # Windows: open-webui-env\Scripts\activate # 安装 pip install open-webui # 启动 open-webui serve
默认访问地址:http://localhost:8080
注意:pip 安装需要 Python 3.11+,且部分依赖在 Windows 上可能需要额外配置。
首次访问与注册
- 浏览器打开
http://localhost:8080(pip 部署) - 首次访问需要 注册管理员账号(数据存储在本地,无需邮箱验证)
- 登录后,界面会自动检测 Ollama 中已安装的模型

Ollama 环境变量:通过windows环境变量可以调优 Ollama 的行为
# 监听所有网络接口(允许局域网访问) OLLAMA_HOST=0.0.0.0:11434 # 设置模型加载后在内存中保留的时间(默认 5m) OLLAMA_KEEP_ALIVE=30m # 并发请求数 OLLAMA_NUM_PARALLEL=4 # GPU 层数分配(混合推理时使用) OLLAMA_NUM_GPU=30
当然,Ollama 支持通过 Modelfile 定制模型行为,类似 Dockerfile,这里我就不赘述了。
另外,如果你是个编程爱好者,还可以在 IDE 中使用,许多 IDE 插件支持 Ollama,比如我用的VS Code的Continue
总结
至此,你已经拥有了一套完整的本地大模型运行环境:
- 完全私密的 AI 对话
- 多模型自由切换
- 美观的 Web 界面
- 兼容 OpenAI API
参考资料:
- Ollama 官网:https://ollama.com
- Ollama 模型库:https://ollama.com/library
- Open WebUI 文档:https://docs.openwebui.com
- Open WebUI GitHub:https://github.com/open-webui/open-webui
