「大語言模型 App 的保護模型 – LLM Guard」


通用的大語言模型 app 要上線給一般人使用,就要考量一些保護問題,避免被濫用(例如之前發生的捷運的 AI 客服被使用者要求寫程式😆)、甚至生成危險訊息(暴力、恐怖、負面思想)😱

有一門 AI 研究就是在訓練一種 LLM, 專門推論使用者輸入,並作出危險呈度分類,它叫 LLM Guard.

有了 LLM Guard, 我們可以用它來保護助理型的 LLM,避免它被下達使用者輸入的不安全的指令。所以整個 AI 後端程式的設計,最前端用 LLM Guard 對使用者輸入作審合,安全的輸入才交給下一級助理 LLM,不安全的就直接擋掉、回覆拒絕處理訊息。

我花了一點時間,完成上述的 demo 全端程式,其中保護型 LLM 使用阿里巴巴開放的千問 Qwen3Guard-Gen-0.6B,助理型 LLM 使用 DeepSeek-R1-Distill-Qwen-1.5B. 請看 demo 影片。

程式原始碼:
https://github.com/MrMYHuang/demo_llm_guard


Leave a Reply