Files
gpu-stack-bootstrap/04-ollama-llm.md
T

129 lines
2.8 KiB
Markdown
Raw Normal View History

2026-06-14 12:08:38 +08:00
# 04 Ollama 装 LLM
## 目标
装 Ollama + 拉 qwen2.5:7b 模型 + 跑通对话。
## Ollama 装
### 1. 让 Ollama 把模型存 D 盘
**WSL2 Ubuntu 终端**
```bash
echo 'export OLLAMA_MODELS=/mnt/d/ollama_models' >> ~/.bashrc
source ~/.bashrc
```
### 2. 装 zstd(解压用)
```bash
sudo apt install -y zstd
```
### 3. 装 Ollama
**WSL2 网络访问国外源(GitHub)通常不通**,所以不要用官方一键脚本。直接下二进制:
**Windows 浏览器**打开下载链接:
- https://github.com/ollama/ollama/releases/latest
-`ollama-linux-amd64.tar.zst`(约 1.3 GB
- 右键 → 另存为 → `D:\ollama-linux-amd64.tar.zst`
**WSL2 终端解压**
```bash
sudo tar -C /usr --use-compress-program=unzstd -xf /mnt/d/ollama-linux-amd64.tar.zst
ollama --version
```
**应当看到** `ollama version 0.x.x`GitHub 上的最新版)。
**如果 unzstd 报错**,用备用方法:
```bash
unzstd -k /mnt/d/ollama-linux-amd64.tar.zst -o /tmp/ollama-linux-amd64.tar
ls -lh /tmp/ollama-linux-amd64.tar
sudo tar -C /usr -xf /tmp/ollama-linux-amd64.tar
ollama --version
```
### 4. 启服务
```bash
ollama serve &
```
看到 `Listening on 127.0.0.1:11434` 后按回车。
## 拉模型
### 推荐 16G 显存能跑得动的
| 模型 | 大小 | 用途 |
|------|------|------|
| `qwen2.5:7b` | 4.5G | 中文对话主力(最舒服)|
| `qwen2.5:14b` | 9G | 强一点的中文 |
| `deepseek-r1:14b` | 9G | 推理/代码强 |
| `qwen2.5-coder:14b` | 9G | 写代码辅助 |
**D 盘预留 50G** 给模型(3-4 个模型)。
### 拉第一个
```bash
ollama pull qwen2.5:7b
```
**等 3-10 分钟**(看网络速度,4.5G)。
### 测试
```bash
ollama run qwen2.5:7b "用一句话介绍你自己"
```
**应当看到中文回复**。输入 `/bye` 退出。
## 常用命令
```bash
# 列出已下载的模型
ollama list
# 启服务(开机后或重启后)
ollama serve &
# 进入对话
ollama run qwen2.5:7b
# 停止某个模型(释放显存)
ollama stop qwen2.5:7b
# 删除模型
ollama rm qwen2.5:7b
# 通过 API 调用(端口 11434
curl http://localhost:11434/api/generate -d '{"model":"qwen2.5:7b","prompt":"你好","stream":false}'
```
## 调出 GUI(可选)
### LM Studio(图形界面)
**WSL2 终端**
```bash
cd ~/
wget https://releases.lmstudio.ai/linux/x86/0.3.10/LM-Studio-0.3.10-x64.AppImage -O lmstudio.AppImage
chmod +x lmstudio.AppImage
./lmstudio.AppImage
```
## 显存占用参考
| 模型 | 显存 | 速度(7b 量级) |
|------|------|------|
| 7b Q4_K | ~5G | 10-20 tokens/s |
| 14b Q4_K | ~10G | 6-12 tokens/s |
| 32b Q4_K | ~20G | 2-4 tokens/s**16G 跑不了**|
**16G 显存上限**14b Q4_K 量化的 32B 模型(勉强能跑但慢),再大就跑不动了。
## 下一步
✅ 通过后 → [05 PyTorch 验证](./05-pytorch-verify.md)