Meng-Yuan Huang's Blog

「大語言模型 App 的保護模型 – LLM Guard」

通用的大語言模型 app 要上線給一般人使用，就要考量一些保護問題，避免被濫用（例如之前發生的捷運的 AI 客服被使用者要求寫程式😆）、甚至生成危險訊息（暴力、恐怖、負面思想）😱

有一門 AI 研究就是在訓練一種 LLM, 專門推論使用者輸入，並作出危險呈度分類，它叫 LLM Guard.

有了 LLM Guard, 我們可以用它來保護助理型的 LLM，避免它被下達使用者輸入的不安全的指令。所以整個 AI 後端程式的設計，最前端用 LLM Guard 對使用者輸入作審合，安全的輸入才交給下一級助理 LLM，不安全的就直接擋掉、回覆拒絕處理訊息。

我花了一點時間，完成上述的 demo 全端程式，其中保護型 LLM 使用阿里巴巴開放的千問 Qwen3Guard-Gen-0.6B，助理型 LLM 使用 DeepSeek-R1-Distill-Qwen-1.5B. 請看 demo 影片。

程式原始碼：
https://github.com/MrMYHuang/demo_llm_guard

November 2, 2025

myh

Leave a Reply Cancel reply

You must be logged in to post a comment.