58fdb03c30
包含 6 章步骤 + 排错手册: - 01 硬件与基础检查 - 02 Windows 装 Studio 驱动 - 03 WSL2 + CUDA 12.8 - 04 Ollama 装 LLM - 05 PyTorch 验证(待补,依赖实机跑通) - 06 ComfyUI 装出图(待补,依赖实机跑通) - 90 排错手册
2.8 KiB
2.8 KiB
04 Ollama 装 LLM
目标
装 Ollama + 拉 qwen2.5:7b 模型 + 跑通对话。
Ollama 装
1. 让 Ollama 把模型存 D 盘
WSL2 Ubuntu 终端:
echo 'export OLLAMA_MODELS=/mnt/d/ollama_models' >> ~/.bashrc
source ~/.bashrc
2. 装 zstd(解压用)
sudo apt install -y zstd
3. 装 Ollama
WSL2 网络访问国外源(GitHub)通常不通,所以不要用官方一键脚本。直接下二进制:
Windows 浏览器打开下载链接:
- https://github.com/ollama/ollama/releases/latest
- 找
ollama-linux-amd64.tar.zst(约 1.3 GB) - 右键 → 另存为 →
D:\ollama-linux-amd64.tar.zst
WSL2 终端解压:
sudo tar -C /usr --use-compress-program=unzstd -xf /mnt/d/ollama-linux-amd64.tar.zst
ollama --version
应当看到 ollama version 0.x.x(GitHub 上的最新版)。
如果 unzstd 报错,用备用方法:
unzstd -k /mnt/d/ollama-linux-amd64.tar.zst -o /tmp/ollama-linux-amd64.tar
ls -lh /tmp/ollama-linux-amd64.tar
sudo tar -C /usr -xf /tmp/ollama-linux-amd64.tar
ollama --version
4. 启服务
ollama serve &
看到 Listening on 127.0.0.1:11434 后按回车。
拉模型
推荐 16G 显存能跑得动的
| 模型 | 大小 | 用途 |
|---|---|---|
qwen2.5:7b |
4.5G | 中文对话主力(最舒服) |
qwen2.5:14b |
9G | 强一点的中文 |
deepseek-r1:14b |
9G | 推理/代码强 |
qwen2.5-coder:14b |
9G | 写代码辅助 |
D 盘预留 50G 给模型(3-4 个模型)。
拉第一个
ollama pull qwen2.5:7b
等 3-10 分钟(看网络速度,4.5G)。
测试
ollama run qwen2.5:7b "用一句话介绍你自己"
应当看到中文回复。输入 /bye 退出。
常用命令
# 列出已下载的模型
ollama list
# 启服务(开机后或重启后)
ollama serve &
# 进入对话
ollama run qwen2.5:7b
# 停止某个模型(释放显存)
ollama stop qwen2.5:7b
# 删除模型
ollama rm qwen2.5:7b
# 通过 API 调用(端口 11434)
curl http://localhost:11434/api/generate -d '{"model":"qwen2.5:7b","prompt":"你好","stream":false}'
调出 GUI(可选)
LM Studio(图形界面)
WSL2 终端:
cd ~/
wget https://releases.lmstudio.ai/linux/x86/0.3.10/LM-Studio-0.3.10-x64.AppImage -O lmstudio.AppImage
chmod +x lmstudio.AppImage
./lmstudio.AppImage
显存占用参考
| 模型 | 显存 | 速度(7b 量级) |
|---|---|---|
| 7b Q4_K | ~5G | 10-20 tokens/s |
| 14b Q4_K | ~10G | 6-12 tokens/s |
| 32b Q4_K | ~20G | 2-4 tokens/s(16G 跑不了) |
16G 显存上限:14b Q4_K 量化的 32B 模型(勉强能跑但慢),再大就跑不动了。
下一步
✅ 通过后 → 05 PyTorch 验证