Ollama 部署魔塔 (ModelScope) 大模型

Ollama仅支持 GGUF 格式模型,分在线一键拉取(最简)、离线本地 GGUF 导入、原模型转 GGUF 再部署3 种方案,优先选前两种。

一、前置:安装 Ollama

Windows/Mac

官网下载安装:https://ollama.com/download

Linux

curl -fsSL https://ollama.com/install.sh | sh

安装后终端输入ollama --version验证,后台自动启动ollama serve服务。

方案 1:在线一键拉取魔塔 GGUF 模型(推荐,无需下载本地)

魔塔带 GGUF 标签的模型可直接用魔塔仓库地址运行,格式:

ollama run https://www.modelscope.cn/模型作者/模型仓库名

实操示例(千问 3-7B-GGUF)

  1. 魔塔打开模型页:https://www.modelscope.cn/unsloth/Qwen3-7B-Instruct-GGUF
  2. 终端执行:
# 默认Q4_K_M量化版
ollama run https://www.modelscope.cn/unsloth/Qwen3-7B-Instruct-GGUF
# 指定量化规格:Q5_K_M
ollama run https://www.modelscope.cn/unsloth/Qwen3-7B-Instruct-GGUF:Q5_K_M

自动从魔塔下载 + 载入,下载完直接对话。

方案 2:离线部署(本地先下载 GGUF,适合无网)

步骤 1:魔塔下载 GGUF 文件

  1. 魔塔搜索:关键词 GGUF(如 Qwen2、Llama3、DeepSeek),筛选带 GGUF 仓库
  2. 进入模型→模型文件,选择Q4_K_M(平衡速度 / 精度,通用首选)后缀.gguf文件下载。

步骤 2:Modelfile 导入 Ollama

  1. 在 GGUF 同目录新建无后缀文件 Modelfile,写入:
# 相对路径
FROM ./Qwen2-7B-Instruct.Q4_K_M.gguf
# 可选:配置对话模板、上下文窗口(避免乱答)
PARAMETER num_ctx 8192

2. 终端在当前目录创建自定义模型:

# qwen2-7b-local为自定义模型名
ollama create qwen2-7b-local -f Modelfile
# 启动运行
ollama run qwen2-7b-local

方案 3:魔塔原版 safetensors/bin 模型 → 转 GGUF → Ollama 部署

魔塔大部分模型是原生 HF 格式 (safetensors),需要用 llama.cpp 转 GGUF:

在下载前,请先通过如下命令安装ModelScope:

pip install modelscope

1. 下载模型到本地

modelscope download --model qwen/Qwen2-7B-Instruct --local_dir ./qwen2-7b-origin

2. 克隆 llama.cpp 转换工具

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
pip install -r requirements.txt

3. 转 GGUF(Q4_K_M 常用量化)

python convert_hf_to_gguf.py ../qwen2-7b-origin \
--outfile ../qwen2-7b.Q4_K_M.gguf \
--outtype q4_k_m

f16:全精度、体积大;q4_k_m:日常部署最优;q2_k:低配机器极限压缩。

4. 同方案 2,Modelfile+ollama create 导入运行

常用运维命令

ollama list          # 查看已安装模型
ollama stop 模型名    # 停止模型
ollama rm 模型名     # 删除模型
# OpenAI格式API调用(默认端口11434)
curl http://localhost:11434/api/chat -d '{"model":"qwen2-7b-local","messages":[{"role":"user","content":"你好"}]}'

硬件参考(Q4_K_M 量化)

  • 1.5B:≥4G 内存;7B:≥8G 内存;13B:≥16G 内存;34B:≥32G 内存
  • 有 N 卡自动 GPU 加速,Ollama 自动识别 CUDA。

Categories: 系统运维