使用 Lina 和本地 HY-MT1.5-1.8B 翻译本地化词条
AI 员工社区版+本文介绍一种本地化翻译实践:在本地部署翻译专用小模型,将其作为 OpenAI 兼容服务接入 NocoBase,再配置给 Lina 执行本地化词条翻译任务。
这个方案适合需要批量翻译大量系统词条、插件文案、菜单、数据表和字段标题的场景。相比在线模型,本地模型不会受到外部 API RPM、TPM 或并发限流影响,可以根据机器性能和模型能力调整并发数,整体任务耗时更可控。
方案概览
本方案使用:
- 翻译模型:
tencent/HY-MT1.5-1.8B-GGUF - 推理服务:
llama-server - 接入方式:OpenAI 兼容接口
- AI 员工:Lina
- 应用入口:本地化管理页面
HY-MT1.5-1.8B 是翻译专用小模型,更适合短词条、界面文案和批量翻译场景。对于本地化任务,不建议优先使用普通聊天模型。
前置条件
开始前,需要准备:
- 已安装并启用 本地化管理 插件。
- 已启用目标语言。
- 已同步本地化词条。
- 本机或服务器可以运行
llama-server. - NocoBase 服务可以访问
llama-server的 HTTP 地址。
部署 HY-MT GGUF 模型
安装 llama.cpp
在 macOS 上,可以通过 Homebrew 安装:
也可以使用 llama.cpp 的预编译二进制或从源码构建。只要最终能使用 llama-server 即可。
启动 OpenAI 兼容服务
使用 Hugging Face 上的 GGUF 模型启动服务:
参数说明:
如果服务器资源有限,可以先使用 -np 1 或 -np 2 验证可用性,再逐步增加并发。
测试模型服务
llama-server 启动后,先检查服务状态:
服务就绪后,可以通过 OpenAI 兼容接口测试翻译:
如果使用本地模型文件启动,也可以将请求中的 model 改为服务实际返回或配置的模型名称。
如果请求长时间无响应,通常说明模型推理速度不足、并发过高或上下文配置过大。先降低 -np 和 NocoBase 侧翻译并发,再观察响应时间。
在 NocoBase 中配置 LLM 服务
进入 系统设置 -> AI 员工 -> LLM service,新增一个 LLM 服务。
参考配置如下:
配置完成后,建议先使用 Test flight 测试模型是否可用。
如果 NocoBase 运行在 Docker 容器中,127.0.0.1 指向容器内部,不一定能访问宿主机服务。需要改成宿主机 IP、容器网络地址,或使用 host.docker.internal。

