本文档适用模型
本文档适用以下模型,只需在部署时修改模型名称即可。以下以 MiniMax-M1-40k 为例说明部署流程。环境要求
- OS: Linux
- Python: 3.9 - 3.12
- GPU:
- compute capability 7.0 or higher
- 显存需求: 权重需要 495 GB,每 1M 上下文 token 需要 38.2 GB
- 以下为推荐配置,实际需求请根据业务场景调整:
- 80G x8 GPU: 支持长达 200 万 token 的上下文输入
- 96G x8 GPU: 支持长达 500 万 token 的上下文输入
- Text01: vllm >= 0.8.3
- M1: vllm >= 0.9.2, 对于 v0.8.3 - v0.9.1 会出现模型不支持和精度丢失问题。精度丢失问题详见 https://github.com/vllm-project/vllm/pull/19592
config.json 里面的 architectures 改成 MiniMaxText01ForCausalLM 即可,详见 https://github.com/MiniMax-AI/MiniMax-M1/issues/21
使用 Python 部署
建议使用虚拟环境 (如 venv、conda、uv) 以避免依赖冲突。建议在全新的 Python 环境中安装 vLLM:使用 Docker 部署
Docker 部署可保证环境一致性和易于迁移。首先获取模型 (请确保系统已经安装 Git LFS):测试部署
启动后,可以通过如下命令测试 vLLM OpenAI 兼容接口:启用 vLLM V1 部署 (实验性)
根据测试结果,V1 相较于 V0 在中高压力场景下的延迟和吞吐均优化了 30-50%,但在单并发场景下性能有所下降,原因已确认是未启用 Full CUDA Graph,后续会进行修复。 该功能尚未 Release,因此需要从源码安装。常见问题
Huggingface 网络问题
如果遇到网络问题,可以设置代理后再进行拉取。No module named ‘vllm._C’
如果遇到以下错误:vllm 的文件夹,和系统中的 vllm 包冲突了,import 命令会优先执行此文件夹中的函数。一个可能导致问题的原因是为了运行 vLLM 的 examples 而从 clone 了该项目。解决只需重命名此文件夹即可。详见 https://github.com/vllm-project/vllm/issues/1814。
MiniMax-M1 model is not currently supported
该 vLLM 版本过旧,需要更新到 v0.9.2+。如果版本在 v0.8.3 - v0.9.1,可以查看环境要求一节的配置。获取支持
如果在部署 MiniMax 模型过程中遇到任何问题:- 通过邮箱 api@minimaxi.com 等官方渠道联系我们的技术支持团队
- 在我们的 GitHub 仓库提交 Issue