1、什么是速率限制
速率限制(Rate Limits)是 API 对用户在指定时间段内可以访问服务器的次数/消耗的 token 数,所作出的限制。其中 MiniMax 的 API 的速率限制分为:RPM 以及 TPM 两种。
- RPM 是指 API 对用户在指定时间段内可以访问服务器的次数所作出的限制
- TPM 是指 API 对用户在指定时间段内可以访问服务器所消耗的 token 数所作出的限制
2、为什么会有速率限制
速率限制是 API 的常见做法,实施速率限制有几个不同的原因:- 有助于防止 API 被滥用和误用。例如,防止有些用户恶意的超载调用 API,试图使其过载或导致服务中断。我们通过设置速率限制可以防止此类恶意使用的发生
- 速率限制有助于确保每个人都可以公平访问 API。防止一个人或组织发出过多的请求,造成可能会使其他人的 API 资源分配不均的情况。通过限制单个用户可以发出的请求数量,可以确保最多的人有机会使用 API,而不会遇到速度变慢的情况
- 通过设置速率限制,MiniMax 可以帮助为所有用户保持流畅一致的体验
3、我们的 API 的限速具体数值
我们会根据您使用的模型、接口以及您拥有的账户类型,对您的账号(包括主账号+子账号)实施相应的速率限制策略。即您的主账号和子账号共同享有以下所有速率限制。例如:当您的账号拥有 120 个 RPM 时,你的账号每分钟内可以发送 120 个请求,当您的主账号每分钟发送了 30 个请求时,您的子账号该时间段内还可以发送 90 个请求。 MiniMax 的速率以两种维度进行限制:
- RPM:每分钟发送的请求数限制
- TPM:每分钟输入+输出的 token 数限制
- 文本接口的速率限制如下:
接口名 | ChatCompletion v2 | ChatCompletion v2 |
---|---|---|
模型 | MiniMax-M1 MiniMax-Text-01 | MiniMax-M1 MiniMax-Text-01 |
客户类型/限制类型 | RPM | TPM |
免费用户 | 6 | 24000 |
充值用户 | 120 | 720000 |
- 语音接口速率限制如下:
接口名 | T2A v2 | T2A v2 | Voice Cloning | Voice Design |
---|---|---|---|---|
模型 | speech-02-hd speech-02-turbo speech-01-hd speech-01-turbo | speech-2.5-hd-preview speech-2.5-turbo-preview | —— | —— |
客户类型/限制类型 | RPM | RPM | RPM | RPM |
免费用户 | 3 | 10 | 60 | 20 |
充值用户 | 20 | 20 | 60 | 20 |
- 视频接口速率限制如下:
接口名 | Video Generation |
---|---|
模型 | 02 系列:MiniMax-Hailuo-02 01 系列:T2V-01、I2V-01、T2V-01-Director、I2V-01-Director、I2V-01-live、S2V-01 |
客户类型/限制类型 | RPM |
免费用户 | 5 |
充值用户 | 20 |
- 图片接口速率限制如下:
接口名 | Image Generation | Image Generation |
---|---|---|
客户类型/限制类型 | RPM | TPM |
免费用户 | 10 | 60 |
付费用户 | 10 | 60 |
- 音乐接口速率限制如下:
接口名 | Music Generation | Music Generation |
---|---|---|
模型 | music-1.5 | music-1.5 |
客户类型\限制类型 | RPM | CONN(最大并行运行任务数) |
免费用户 | 6 | 3 |
充值用户 | 120 | 20 |
4、速率是如何被限制的
如果您是免费用户,在 T2T 的功能场景下,使用任意接口的任意模型时(如 ChatCompletion v2 - MiniMax-Text-01),此时您的速率限制为 RPM=6,TPM=12000,即:您的速率限制为每分钟 6 个请求和每分钟 12000 个 token 数(输入+输出)。5、如果遇到限速的报错返回会怎样
如果您收到速率限制的返回报错,则表示您在短时间内发出了太多请求,或者短时间发出了太多的字符,那么 API 将会拒绝满足进一步的请求,直到经过指定的时间。6、速率限制和 tokens_to_generate、max_tokens
因无法在请求输入时得到输入+输出的总 token,因此在请求输入时,会首先参考接口里设置的tokens_to_generate
和 max_tokens
数值作为该请求的总 token 和 TPM 限流参考,当该条请求生成完所有 token 后,会使用实际的输入+输出总 token 修正该条请求所对应的 TPM。所以您可以尝试将
tokens_to_generate
和 max_tokens
的值设置为尽可能符合预期的响应值,从而减少 TPM 限流报错。
7、如何更好的在限速策略下进行 API 的使用
由于 API 对每分钟请求数和每分钟 token 数有单独的限制,所以我们建议您集中处理请求。如果您的每分钟请求数量已经达到了限制,但是每分钟的 token 数量仍然具有可用容量,则建议您可以通过将多个任务批量放到每个请求来提高 token 的吞吐量。这样将允许您每分钟处理更多的 token 数。
8、如何提高速率限制
我们的默认限速是为了帮助最大限度的提高 API 调用的稳定性,以及更公平合理的将相应资源进行分配。如果您认为您拥有必要的流量数据以来申请提高速率限制时,您可以通过您这边的商务经理向我们进行提高速率限制的申请。
如果您这边没有对接的商务经理,请发送邮件到 api@minimaxi.com ,我们会 2 个工作日内与您联系。 需要您知悉的是,提高限速有时可能需要 3-5 个工作日,因此如果您有确定数据支持您的申请时,为了不影响您的产品的正常上线发布,请务必尽早提交限速提升申请。