部署AI网关

部署带有 Fallback（故障回退）功能的 AI 网关主要分为两个核心阶段：

配置后端LLM大模型

针对 openai-api-compatible 类型的健康检查，需根据推理环境动态调整探测逻辑：

检查类型二选一：必须在“存活检查（L7 连通性）”与“模型就绪检查（模型加载状态）”中至少选择一项。
多推理框架适配：若后端混合部署了 Ollama、vLLM 等不同引擎，其 API 路径（如 /v1/models 或 /api/tags）不一致，应勾选 “跟随模型访问策略中的协议” 以实现自动适配。
模型名称动态校验：若开启“模型就绪检查”，系统将验证推理组是否已加载指定模型。
- 模糊匹配：模型名称支持包含关系。
- 动态策略驱动：若不同推理组承载的模型名称不同，请勾选 “校验模型访问策略中配置的模型名称”。
频率调优：大模型推理对算力消耗极大，健康检查间隔不宜过频，以免影响正常业务。详细参数请参考配置健康检查

模型访问策略决定了网关如何“改写”或“透传”发往后端推理组的请求。 openai-api-compatible健康检查

参数覆盖原则：策略中的非必填项若留空，网关将透传客户端请求中的参数；若填写，则网关会强行覆盖请求参数。
典型应用：Fallback 场景下的异构模型替换
- 场景实例：客户端请求的目标是 qwen3:32b，由推理组 A 提供服务。
- 故障切换：当推理组 A 宕机，网关自动将请求切换至备份推理组 B（模型为 glm5:32b）。
- 自动修补：由于后端模型名称不一致，必须在推理组 B 的“模型访问策略”中将模型名称强制配置为 glm5:32b。这样，网关在转发时会自动修正请求体，确保备份节点能正确响应。
- 模型访问策略定义了访问某一个模型推理组的方式，如下图所示：

在创建服务器池时，需开启 “AI 模式”，系统将自动激活模型推理组配置面板。 openai-api-compatible健康检查在完成健康检查策略、负载均衡算法等基础参数设定后，可根据业务需求添加多个模型推理组。其核心调度逻辑如下：

成员与配置单位
- 每个推理组可关联多个服务器节点（支持 IP、端口及权重配置）。通常一个大模型实例对应一个监听地址。
策略共享机制
- 每个推理组需绑定一个“模型访问策略”，组内所有服务器节点将共用该策略进行请求改写或透传。
优先级调度（Fallback 核心）
- 逻辑：优先级数字越大，等级越高。
- 行为：网关接收请求后，会自动筛选当前健康的推理组并按优先级排序，流量将优先流向等级最高的推理组。
等价路由均衡
- 逻辑：当存在多个优先级相同的健康推理组时。
- 行为：系统将依据预设的负载均衡算法（如轮询、加权最小连接数），结合各节点权重进行流量分发。

模型转发策略侧重于对提示词（Prompt）的二次加工与安全治理：

openai-api-compatible健康检查

在虚拟服务配置流程中（其余步骤与标准业务一致），需执行以下关键操作：

创建完成后，点击“变更执行”即完成。