Ollama 部署魔塔 (ModelScope) 大模型

Ollama仅支持 GGUF 格式模型，分在线一键拉取（最简）、离线本地 GGUF 导入、原模型转 GGUF 再部署3 种方案，优先选前两种。

一、前置：安装 Ollama

Windows/Mac

Linux

curl -fsSL https://ollama.com/install.sh | sh

安装后终端输入ollama --version验证，后台自动启动ollama serve服务。

方案 1：在线一键拉取魔塔 GGUF 模型（推荐，无需下载本地）

魔塔带 GGUF 标签的模型可直接用魔塔仓库地址运行，格式：

ollama run https://www.modelscope.cn/模型作者/模型仓库名

实操示例（千问 3-7B-GGUF）

魔塔打开模型页：https://www.modelscope.cn/unsloth/Qwen3-7B-Instruct-GGUF
终端执行：

# 默认Q4_K_M量化版
ollama run https://www.modelscope.cn/unsloth/Qwen3-7B-Instruct-GGUF
# 指定量化规格:Q5_K_M
ollama run https://www.modelscope.cn/unsloth/Qwen3-7B-Instruct-GGUF:Q5_K_M

自动从魔塔下载 + 载入，下载完直接对话。

方案 2：离线部署（本地先下载 GGUF，适合无网）

步骤 1：魔塔下载 GGUF 文件

魔塔搜索：关键词 GGUF（如 Qwen2、Llama3、DeepSeek），筛选带 GGUF 仓库
进入模型→模型文件，选择Q4_K_M（平衡速度 / 精度，通用首选）后缀.gguf文件下载。

步骤 2：Modelfile 导入 Ollama

在 GGUF 同目录新建无后缀文件 Modelfile，写入：

# 相对路径
FROM ./Qwen2-7B-Instruct.Q4_K_M.gguf
# 可选：配置对话模板、上下文窗口（避免乱答）
PARAMETER num_ctx 8192

2. 终端在当前目录创建自定义模型：

# qwen2-7b-local为自定义模型名
ollama create qwen2-7b-local -f Modelfile
# 启动运行
ollama run qwen2-7b-local

方案 3：魔塔原版 safetensors/bin 模型 → 转 GGUF → Ollama 部署

魔塔大部分模型是原生 HF 格式 (safetensors)，需要用 llama.cpp 转 GGUF：

在下载前，请先通过如下命令安装ModelScope：

pip install modelscope

1. 下载模型到本地

modelscope download --model qwen/Qwen2-7B-Instruct --local_dir ./qwen2-7b-origin

2. 克隆 llama.cpp 转换工具

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
pip install -r requirements.txt

3. 转 GGUF（Q4_K_M 常用量化）

python convert_hf_to_gguf.py ../qwen2-7b-origin \
--outfile ../qwen2-7b.Q4_K_M.gguf \
--outtype q4_k_m

f16：全精度、体积大；q4_k_m：日常部署最优；q2_k：低配机器极限压缩。

4. 同方案 2，Modelfile+ollama create 导入运行

常用运维命令

ollama list          # 查看已安装模型
ollama stop 模型名    # 停止模型
ollama rm 模型名     # 删除模型
# OpenAI格式API调用（默认端口11434）
curl http://localhost:11434/api/chat -d '{"model":"qwen2-7b-local","messages":[{"role":"user","content":"你好"}]}'

硬件参考（Q4_K_M 量化）

1.5B：≥4G 内存；7B：≥8G 内存；13B：≥16G 内存；34B：≥32G 内存
有 N 卡自动 GPU 加速，Ollama 自动识别 CUDA。

Categories: 系统运维

Ollama 部署魔塔 (ModelScope) 大模型

一、前置：安装 Ollama

Windows/Mac

Linux

方案 1：在线一键拉取魔塔 GGUF 模型（推荐，无需下载本地）

实操示例（千问 3-7B-GGUF）

方案 2：离线部署（本地先下载 GGUF，适合无网）

步骤 1：魔塔下载 GGUF 文件

步骤 2：Modelfile 导入 Ollama

方案 3：魔塔原版 safetensors/bin 模型 → 转 GGUF → Ollama 部署

硬件参考（Q4_K_M 量化）

Recent Posts

Recent Comments

Archives

Categories

Ollama 部署魔塔 (ModelScope) 大模型

一、前置：安装 Ollama

Windows/Mac

Linux

方案 1：在线一键拉取魔塔 GGUF 模型（推荐，无需下载本地）

实操示例（千问 3-7B-GGUF）

方案 2：离线部署（本地先下载 GGUF，适合无网）

步骤 1：魔塔下载 GGUF 文件

步骤 2：Modelfile 导入 Ollama

方案 3：魔塔原版 safetensors/bin 模型 → 转 GGUF → Ollama 部署

硬件参考（Q4_K_M 量化）

Related Posts:-

Symantec Endpoint Protection 错误1926 解决方法

Xray生成受nginx支持的SSL证书

Ubuntu 24.04.4 LTS 安装技嘉5060Ti最新版驱动

Recent Posts

Recent Comments

Archives

Categories