前言

现在各种AI Chat已经非常好用了,比如御三家Claude、Gemini和ChatGPT,还比如国内的元宝、豆包和Deekseek,完全够用了。但大模型已经不再是云端的专属。得益于 Ollama 和 OpenWebUI 这两个开源项目,你完全可以在自己的电脑上运行 Llama 3、Qwen、Gemma 等主流大模型,且整个部署过程不超过 30 分钟。当然,本地部署大模型主要用来学习或demo,肯定是无法生产的。

本地部署的核心优势:

数据隐私:所有对话数据留在本地,不经过任何第三方服务器。
零成本推理:不依赖 API 计费,无限次调用。
离线可用:部署完成后,断网也能正常对话。
完全可控:自由选择模型、调整参数、决定升级节奏。

本文将带你从零开始,在 Windows 上完成 Ollama + OpenWebUI 的完整部署。

架构概览

整个方案由两部分组成:

┌─────────────────┐        HTTP API         ┌──────────────┐
│   Open WebUI    │ ◄──── localhost:11434 ──►│    Ollama   │
│  (前端界面)      │                         │  (推理引擎)  │
│  localhost:3000 │                         │  本地模型运行 │
└─────────────────┘                         └──────────────┘
组件组件技术栈
Ollama模型下载、管理、推理引擎Go + llama.cpp
OpenWebUI浏览器端交互界面Python + Svelte

两者通过 Ollama 暴露的 REST API(默认端口 11434)通信,Open WebUI 提供类 ChatGPT 的使用体验。

硬件要求

在开始之前,先确认你的硬件条件:

配置层级GPU显存内存适合运行的模型
入门无独显16GB7B 量化模型(CPU 推理,速度较慢)
推荐RTX 406012GB16GB7B ~ 14B
理想RTX 5060 Ti+16GB+32GB14B ~ 70B

关键指标:模型参数量决定了显存需求。7B 模型(Q4 量化)约需 4~5GB 显存,13B 约需 8~10GB。

安装 Ollama

下载:Download Ollama on Windows

安装:直接双击安装文件即可成功安装

完成后打开 PowerShell 验证:

ollama --version

验证 Ollama 运行:安装完成后,Ollama 会在 localhost:11434 启动一个 API 服务。验证方式:

curl http://localhost:11434
# 预期输出:Ollama is running

建议配置:在 setting 的模型位置改为 其他盘 以免默认占用C盘空间

下载第一个本地大模型

常用模型推荐

模型大小特点推荐场景
qwen2.5:7b4.7GB中文能力强,综合表现均衡日常中文对话
llama3:8b4.7GBMeta 出品,英文能力突出英文写作、代码
deepseek-coder-v2:16b8.9GB代码能力极强编程辅助
phi3:mini2.3GB微软出品,体积极小低配机器、快速响应
gemma2:9b5.4GBGoogle 出品,推理能力强逻辑推理任务

拉取模型

# 下载 Qwen3.5 9B(中文表现优秀,推荐)
ollama pull qwen9.5:9b

安装 OpenWebUI

因为踩过坑,不建议用docker安装,直接pip安装吧

# 建议先创建虚拟环境
python3 -m venv open-webui-env
source open-webui-env/bin/activate  # Windows: open-webui-env\Scripts\activate

# 安装
pip install open-webui

# 启动
open-webui serve

默认访问地址:http://localhost:8080

注意:pip 安装需要 Python 3.11+,且部分依赖在 Windows 上可能需要额外配置。

首次访问与注册

  1. 浏览器打开 http://localhost:8080(pip 部署)
  2. 首次访问需要 注册管理员账号(数据存储在本地,无需邮箱验证)
  3. 登录后,界面会自动检测 Ollama 中已安装的模型

Ollama 环境变量:通过windows环境变量可以调优 Ollama 的行为

# 监听所有网络接口(允许局域网访问)
OLLAMA_HOST=0.0.0.0:11434

# 设置模型加载后在内存中保留的时间(默认 5m)
OLLAMA_KEEP_ALIVE=30m

# 并发请求数
OLLAMA_NUM_PARALLEL=4

# GPU 层数分配(混合推理时使用)
OLLAMA_NUM_GPU=30

当然,Ollama 支持通过 Modelfile 定制模型行为,类似 Dockerfile,这里我就不赘述了。

另外,如果你是个编程爱好者,还可以在 IDE 中使用,许多 IDE 插件支持 Ollama,比如我用的VS Code的Continue

总结

至此,你已经拥有了一套完整的本地大模型运行环境:

  • 完全私密的 AI 对话
  • 多模型自由切换
  • 美观的 Web 界面
  • 兼容 OpenAI API

参考资料:

  • Ollama 官网:https://ollama.com
  • Ollama 模型库:https://ollama.com/library
  • Open WebUI 文档:https://docs.openwebui.com
  • Open WebUI GitHub:https://github.com/open-webui/open-webui