Windows本地部署大模型 Ollama + OpenWebUI 最佳实践指南

孙威 — Tue, 12 May 2026 03:40:36 +0000

前言

现在各种AI Chat已经非常好用了，比如御三家Claude、Gemini和ChatGPT，还比如国内的元宝、豆包和Deekseek，完全够用了。但大模型已经不再是云端的专属。得益于 Ollama 和 OpenWebUI 这两个开源项目，你完全可以在自己的电脑上运行 Llama 3、Qwen、Gemma 等主流大模型，且整个部署过程不超过 30 分钟。当然，本地部署大模型主要用来学习或demo，肯定是无法生产的。

本地部署的核心优势：

数据隐私：所有对话数据留在本地，不经过任何第三方服务器。
零成本推理：不依赖 API 计费，无限次调用。
离线可用：部署完成后，断网也能正常对话。
完全可控：自由选择模型、调整参数、决定升级节奏。

本文将带你从零开始，在 Windows 上完成 Ollama + OpenWebUI 的完整部署。

架构概览

整个方案由两部分组成：

┌─────────────────┐        HTTP API         ┌──────────────┐
│   Open WebUI    │ ◄──── localhost:11434 ──►│    Ollama   │
│  (前端界面)      │                         │  (推理引擎)  │
│  localhost:3000 │                         │  本地模型运行 │
└─────────────────┘                         └──────────────┘

组件	组件	技术栈
Ollama	模型下载、管理、推理引擎	Go + llama.cpp
OpenWebUI	浏览器端交互界面	Python + Svelte

两者通过 Ollama 暴露的 REST API（默认端口 11434）通信，Open WebUI 提供类 ChatGPT 的使用体验。

硬件要求

在开始之前，先确认你的硬件条件：

配置层级	GPU	显存	内存	适合运行的模型
入门	无独显	—	16GB	7B 量化模型（CPU 推理，速度较慢）
推荐	RTX 4060	12GB	16GB	7B ~ 14B
理想	RTX 5060 Ti+	16GB+	32GB	14B ~ 70B

关键指标：模型参数量决定了显存需求。7B 模型（Q4 量化）约需 4~5GB 显存，13B 约需 8~10GB。

安装 Ollama

下载：Download Ollama on Windows

安装：直接双击安装文件即可成功安装

完成后打开 PowerShell 验证：

ollama --version

验证 Ollama 运行：安装完成后，Ollama 会在 localhost:11434 启动一个 API 服务。验证方式：

curl http://localhost:11434
# 预期输出：Ollama is running

建议配置：在 setting 的模型位置改为其他盘以免默认占用C盘空间

下载第一个本地大模型

常用模型推荐

模型	大小	特点	推荐场景
qwen2.5:7b	4.7GB	中文能力强，综合表现均衡	日常中文对话
llama3:8b	4.7GB	Meta 出品，英文能力突出	英文写作、代码
deepseek-coder-v2:16b	8.9GB	代码能力极强	编程辅助
phi3:mini	2.3GB	微软出品，体积极小	低配机器、快速响应
gemma2:9b	5.4GB	Google 出品，推理能力强	逻辑推理任务

拉取模型

# 下载 Qwen3.5 9B（中文表现优秀，推荐）
ollama pull qwen9.5:9b

安装 OpenWebUI

因为踩过坑，不建议用docker安装，直接pip安装吧

# 建议先创建虚拟环境
python3 -m venv open-webui-env
source open-webui-env/bin/activate  # Windows: open-webui-env\Scripts\activate

# 安装
pip install open-webui

# 启动
open-webui serve

默认访问地址：http://localhost:8080

注意：pip 安装需要 Python 3.11+，且部分依赖在 Windows 上可能需要额外配置。

首次访问与注册

浏览器打开 http://localhost:8080（pip 部署）
首次访问需要 注册管理员账号（数据存储在本地，无需邮箱验证）
登录后，界面会自动检测 Ollama 中已安装的模型

Ollama 环境变量：通过windows环境变量可以调优 Ollama 的行为

# 监听所有网络接口（允许局域网访问）
OLLAMA_HOST=0.0.0.0:11434

# 设置模型加载后在内存中保留的时间（默认 5m）
OLLAMA_KEEP_ALIVE=30m

# 并发请求数
OLLAMA_NUM_PARALLEL=4

# GPU 层数分配（混合推理时使用）
OLLAMA_NUM_GPU=30

当然，Ollama 支持通过 Modelfile 定制模型行为，类似 Dockerfile，这里我就不赘述了。

另外，如果你是个编程爱好者，还可以在 IDE 中使用，许多 IDE 插件支持 Ollama，比如我用的VS Code的Continue

总结

至此，你已经拥有了一套完整的本地大模型运行环境：

完全私密的 AI 对话
多模型自由切换
美观的 Web 界面
兼容 OpenAI API

参考资料：

Ollama 官网：https://ollama.com
Ollama 模型库：https://ollama.com/library
Open WebUI 文档：https://docs.openwebui.com
Open WebUI GitHub：https://github.com/open-webui/open-webui

本地大模型 – 孙威的阳光海