# 04 Ollama 装 LLM ## 目标 装 Ollama + 拉 qwen2.5:7b 模型 + 跑通对话。 ## Ollama 装 ### 1. 让 Ollama 把模型存 D 盘 **WSL2 Ubuntu 终端**: ```bash echo 'export OLLAMA_MODELS=/mnt/d/ollama_models' >> ~/.bashrc source ~/.bashrc ``` ### 2. 装 zstd(解压用) ```bash sudo apt install -y zstd ``` ### 3. 装 Ollama **WSL2 网络访问国外源(GitHub)通常不通**,所以不要用官方一键脚本。直接下二进制: **Windows 浏览器**打开下载链接: - https://github.com/ollama/ollama/releases/latest - 找 `ollama-linux-amd64.tar.zst`(约 1.3 GB) - 右键 → 另存为 → `D:\ollama-linux-amd64.tar.zst` **WSL2 终端解压**: ```bash sudo tar -C /usr --use-compress-program=unzstd -xf /mnt/d/ollama-linux-amd64.tar.zst ollama --version ``` **应当看到** `ollama version 0.x.x`(GitHub 上的最新版)。 **如果 unzstd 报错**,用备用方法: ```bash unzstd -k /mnt/d/ollama-linux-amd64.tar.zst -o /tmp/ollama-linux-amd64.tar ls -lh /tmp/ollama-linux-amd64.tar sudo tar -C /usr -xf /tmp/ollama-linux-amd64.tar ollama --version ``` ### 4. 启服务 ```bash ollama serve & ``` 看到 `Listening on 127.0.0.1:11434` 后按回车。 ## 拉模型 ### 推荐 16G 显存能跑得动的 | 模型 | 大小 | 用途 | |------|------|------| | `qwen2.5:7b` | 4.5G | 中文对话主力(最舒服)| | `qwen2.5:14b` | 9G | 强一点的中文 | | `deepseek-r1:14b` | 9G | 推理/代码强 | | `qwen2.5-coder:14b` | 9G | 写代码辅助 | **D 盘预留 50G** 给模型(3-4 个模型)。 ### 拉第一个 ```bash ollama pull qwen2.5:7b ``` **等 3-10 分钟**(看网络速度,4.5G)。 ### 测试 ```bash ollama run qwen2.5:7b "用一句话介绍你自己" ``` **应当看到中文回复**。输入 `/bye` 退出。 ## 常用命令 ```bash # 列出已下载的模型 ollama list # 启服务(开机后或重启后) ollama serve & # 进入对话 ollama run qwen2.5:7b # 停止某个模型(释放显存) ollama stop qwen2.5:7b # 删除模型 ollama rm qwen2.5:7b # 通过 API 调用(端口 11434) curl http://localhost:11434/api/generate -d '{"model":"qwen2.5:7b","prompt":"你好","stream":false}' ``` ## 调出 GUI(可选) ### LM Studio(图形界面) **WSL2 终端**: ```bash cd ~/ wget https://releases.lmstudio.ai/linux/x86/0.3.10/LM-Studio-0.3.10-x64.AppImage -O lmstudio.AppImage chmod +x lmstudio.AppImage ./lmstudio.AppImage ``` ## 显存占用参考 | 模型 | 显存 | 速度(7b 量级) | |------|------|------| | 7b Q4_K | ~5G | 10-20 tokens/s | | 14b Q4_K | ~10G | 6-12 tokens/s | | 32b Q4_K | ~20G | 2-4 tokens/s(**16G 跑不了**)| **16G 显存上限**:14b Q4_K 量化的 32B 模型(勉强能跑但慢),再大就跑不动了。 ## 下一步 ✅ 通过后 → [05 PyTorch 验证](./05-pytorch-verify.md)