Meng-Yuan Huang's Blog

「自架文字生成影片 AI – ComfyUI + Wan 2.2」

昨天本來在研究 AI 文字生成語音的應用，意外看到阿里巴巴開源的文字生成影片 (text to video, T2V) 模型 – 通義萬相 Wan 2.2，畫質很不錯，就來研究看看要如何在本機使用。T2V AI 就是輸入文字提示詞，AI 就依提示詞的描述生成影片。我發現有一款 app – ComfyUI 可以使用 Wan 2.2，我就在我的 MacBook M1 Pro MAX 64GB (MPS GPU 加速）筆電上架設。不過一開始沒有很順利，遇到 3 個較大的問題。問題 1，生成跑一半出現 MPS 不支援 fp8 e4m3fn 的錯誤：這是因為現今主流運行 AI model 加速的 GPU 是 nVIDIA，而不是 Apple MPS. 例如 PyTorch 這個 GPU 加速軟體，目前僅部分實作 MPS…

November 7, 2025
「自架 (self-hosted) AI Coding 代理人伺服器 – llama.cpp server」

今天又在 reddit 上研究 AI 新技術，看有什麼新東西可學，看到一套 LLM 工具 – llama.cpp 又有新東西推出，我就來研究一下。然而我已一段時間沒觀注 llama.cpp 的發展，所以有一些資訊落後。我才知道 llama.cpp 也有 API server，相容 OpenAI API。這令我感興趣，因為目前 AI 工具之間主流的串接方式之一就是 OpenAI API。比如我之前看一份教學，學會使用 LM Studio API server (相容 OpenAI API) 與 qwen-code 串接，在本機執行自架的 AI coding agent，它可以幫我在本機上生成程式，作程式碼的新增、修改，而且免付費使用一些 AI coding 服務商的 API。那 LM Studio 已經有 LLM API server 的功能，還有需要其它類似的工具嗎？還是有！因為多一種選擇，較有彈性。特別是我在用 LM Studio 作 AI coding 時，遇到一個寫檔…

November 5, 2025
「語音轉文字 AI – Whisper」

又完成一支 AI app 作品 – 「使用 Whisper 作語音轉文字 (speech to text, STT)」。或許大部分人對語音轉文字的應用已用得習以為常，覺得不是什麼新技術，但對我這開發者而言是頗興奮的。因為過去常用的語音轉文字服務大多是閉源 (close source) 的，也就是某一家公司用非公開的語音轉文字模型在提供轉換服務，如此就可能會有一些限制，比如串接服務須付費使用、有隱私洩漏的疑慮（因為語音資料要傳給某公司的服務作處理）。 Whisper 是 OpenAI 開源的 STT AI 模型，可以在自己的電腦上運作，避開上述閉源 STT 服務的限制👍 我用它寫了一支全端 app，前端是 web 介面，作為語音輸入，再用 WebSocket 傳輸語音串流給後端 Python 程式。停止錄音後，後端會將整個音檔交給 Whisper 作轉寫 (transcribe) 文字，再透過 WebSocket 將轉寫文字傳回前端顯示。如 demo 影片（有聲音）所示。（目前僅測試英語辨識，中文還要再研究😅）之所以會想練習寫這支 app，是因為我發覺現在 AI 語言模型 (LLM, VLM) 的應用愈來愈廣，但要讓這些用到文字輸入的應用使用起來更好用，「語音輸入」相對於「文字輸入」更具親和力！所以值得學會如何打通語音輸入這個環節。程式原始碼：https://github.com/MrMYHuang/audio_transcriber

November 4, 2025
「大語言模型 App 的保護模型 – LLM Guard」

通用的大語言模型 app 要上線給一般人使用，就要考量一些保護問題，避免被濫用（例如之前發生的捷運的 AI 客服被使用者要求寫程式😆）、甚至生成危險訊息（暴力、恐怖、負面思想）😱 有一門 AI 研究就是在訓練一種 LLM, 專門推論使用者輸入，並作出危險呈度分類，它叫 LLM Guard. 有了 LLM Guard, 我們可以用它來保護助理型的 LLM，避免它被下達使用者輸入的不安全的指令。所以整個 AI 後端程式的設計，最前端用 LLM Guard 對使用者輸入作審合，安全的輸入才交給下一級助理 LLM，不安全的就直接擋掉、回覆拒絕處理訊息。我花了一點時間，完成上述的 demo 全端程式，其中保護型 LLM 使用阿里巴巴開放的千問 Qwen3Guard-Gen-0.6B，助理型 LLM 使用 DeepSeek-R1-Distill-Qwen-1.5B. 請看 demo 影片。程式原始碼：https://github.com/MrMYHuang/demo_llm_guard

November 2, 2025
「視覺語言模型 – Vision LM」

我之前接觸的 AI 語言模型應用，限於文字輸入/輸出類型，也就是 LLM (large language model). 但我認為多學一些語言模型類型，對於未來要做更多樣的應用會有所幫助，比如我這次挑戰的視覺語言模型 (vision LM)。有此動機，是看到別人設計的 AI workflow 利用非文字輸入的語音轉文字 AI 作前端，再與 LLM 串接，如此一來就能用語音操縱 LLM! 因此激勵我學習不同輸入類型的 LM。我這次挑戰的項目，是用圖片作為輸入AI 助理語言模型，再依指示輸出文字。我選的 VLM 是許多人在用的阿里巴巴開放模型 – 千問 (Qwen3 VL)，前後端程式則是由我之前寫的另一個全端專案 demo_langchain_vec 改寫而成。在開發過程，有使用 ChatGPT 輔助開發，不過一開始跑不起來，記憶體不足。後來上網研究才知道是輸入圖片解析度太高，要 downscale，所以程式要設限制。修正後就能跑了。後來我將前後端程式依舊打包成 docker images，再使用 docker compose 一鍵啟動所有 containers。結果後端的 VLM 執行卻異常緩慢，根本不能用。後來才想起 container 要存取 nVIDIA GPU 要有特殊設定這件事，但我的電腦是 MacBook Pro 的 Apple Silicon MPS…

November 2, 2025
「程式可觀察性 – Observability」

最近在看了一些 AI 文章，注意到有一件事出現多次，就是在探討 AI 應用程式 (apps) 的可觀察性，它是軟體工程的一部分。身為一位什麼都要懂的軟體工程師，來挑戰這個主題吧。應用程式的可觀察性就是是否能觀察程式運作時的各項數值。比如一項功能是由多個元件串聯執行，若想分析各項元件的執行順序、消耗時間，就需在程式加上記錄這些資訊的程式，上述是一種觀察類型 – trace. 還有 2 種常見的觀察類型：metric, log. 可觀察性在軟體工程中是建議早期規劃的。因為一旦程式上線，使用者開始使用，那麼可能一些開發、測試階段沒遇到的 bugs/issues 就開始出現，這時若沒有任何可觀察的程式運作訊息，對 bugs/issues 就束手無策。接下來只能再補回觀察程式碼，重新上線，但如此一來就會花較多時間，因為需要第 2 批使用者觸發新版程式 bugs/issues，產生觀察訊息，才有除錯的線索但如此一來可能就會流失較多客戶。 AI apps 也需面臨上線後才出現的 bugs/issues，比如有部分使用者反應 apps 運作很慢。這時有 traces 可查的話，就能分析是 AI apps 的哪一個元件太耗時。AI apps 還有一些要考量的 issues，如 model drift, token count. 接著我就動手實作將我之前寫的一支語意搜尋 backend app https://github.com/MrMYHuang/demo_langchain_vec 加入 trace 觀察，使用的 trace 標準是 OpenTelemetry OTLP，並使用 Jaeger UI 呈現…

October 31, 2025
「AI 工作流自動化工具 – n8n」

最近跟朋友聊 AI 發展，說我要轉行做 AI。他建議我可以去學一套 AI 工作流自動化工具 (AI workflow automation) – n8n. 我就研究了一下。 n8n 是一套開發流程圖式工作流工具，如擷圖所示。它不僅只是畫流程圖而已，而且還是可執行的程式，達成自動化執行的工作流。這類工具在 AI 還沒爆紅時就存在了。但 n8n 特別在於它有許多現成的 AI 與應用工具可用，又有免費版可在本機運作，所以在 AI 界滿紅的。這種流程圖式的寫程式方式非常好上手，不必像寫程式語言一樣要記很多語法，只要加一加程式方塊圖，再連線它們的輸入輸出資料，就像在畫畫一樣，就能寫出一支程式。而最近幾年進入 AI 科技奇異點，使得「AI 程式」開始能作為工作流 / 程式的一部分！n8n 就內建許多 AI 方塊（程式），比如有串接 OpenAI, Gemini, OpenRouter AI 服務的方塊，可以整合到工作流中，人們就可以發揮創意做出自己的 AI 應用程式。現代 LLM AI 因為夠聰明，會推測別的工具 (tools) 要怎麼使用，這使得我們能用它來操作這些工具。例如擷圖示範的是透過 Telegram 傳訊將使用者用自然語言所下的指令傳給 LLM AI 代理人 (agent)，agent 就能選取最合適的工具執行，比如新增 Google 行事曆項目、寄信。 n8n…

October 30, 2025
PDF 向量式語意搜尋 Demo App

這是我花了 1 天的時間寫的 1 支「語意搜尋」全端 app，主要是自己練功、做做作品，證明自己在 AI 這領域所學。雖不是現在 AI 領域很了不起的東西，但起碼是在往 AI 領域發展的路上😅 「向量式語意搜尋」本身雖然不是直接的 AI 的應用，但卻是一項 AI 應用 – RAG (retrieval augmented generation) 的重要的一部分。現在 LLM 很強大，可以應用在問答。但訓練一個 LLM 很吃算力 (CPU, GPU)，不是普通的電腦硬體能完成的，所以想訓練一個使用自己的資料集的 LLM 有困難。幸好有人研究出可以在輸入提示詞 (prompt) 給 LLM 前，加上一些上下文 (context) 資訊，LLM 就能輸出高品質的生成內容，如此一來就不一定要去訓練 LLM。而 RAG 就是一種利用此類所謂的提示詞工程 (prompt engineering) 的方式。首先它將特定領域文字知識庫轉成多維向量的庫，再利用相近向量有相近「語意」的特性，做到「語意搜尋」。比如給一個句子，將它轉成向量，再從向量庫找相近向量其對應的語句，就是找出相近語意的搜尋！所以，RAG 的使用者輸入了一個問題，然後 RAG 程式利用語意搜尋先找出相關資料，再將原問題與相關資料一併輸入 LLM，讓它輸出高品質的答案！因此「向量式語意搜尋」是 RAG 重要的一部分。…

October 28, 2025
又双叒叕拿證照 – Oracle Cloud Infrastructure 2025 Data Science Professional

是一張 AI 訓練開發、部署、應用的證照。考試 50 題，大多單選，難度我認為是常態分佈，有很難的 model explanation 題，也有秒殺題（比如問某個需求要用使用什麼服務），也有中等難度的流程題（這種流程題如果之前有看過就變秒殺題，沒看過就要推理出合理的流程😅）。我拿的這 7 張 Oracle 證照，是趁著 Oracle 每年的一項證照競賽活動，有幾次免費考證照的機會而拿的： https://education.oracle.com/race-to-certification-2025 今年活動是 07/01-10/31. 我是 10/09 才看到這項活動，發現時間只剩一個月，就拼了😅 本來這次拿的這張，有些難度、而時間又剩 1 週，我想拼另一張較好拿的證照（課程時數較短）。但我想起過去做事太求安全牌，反而浪費一些機會，所以就跟這張 Data Science Professional 含金量較高的證照拼了！拼的過程其實有幾次想放棄、覺得時間可能來不及，因為課程中的一些章節太硬核。但還是靜下來分析，這課程的安排是”上山再下山”，就是中間有一小段章節很硬，而前後章節難度適中，所以只要撐過中間章節，就是舒適的下坡。結果我成功突破！這課程中有相對我來說較簡易的部分（例如我已很熟 Git），也有超硬核的 machine learning 知識，如 data exploration, preprocessing (clean, impute, feature engineering (selection, scale)), modeling (algoritm selection, evaluation, hyperparameters turning)。另外還有一些 Oracle 很有意思的技術，如 AutoML (meta-learning), MLOps (continuous traning)…

October 27, 2025
叕拿證照 – Oracle AI Vector Search Professional

也是一張 AI 證照，考試有 50 題，我考 86 分，算最近幾次考的稍好的分數🙂 這證照的主題是 vector embedding, vector search (exact, approximate, multi-vector, filtering), vector index 與 AI retrieval augmented generation (RAG) 應用與 Oracle 的產品 Oracle DB, AI Verctor Search, Generative AI Service 的 PL/SQL, Python 實作、還有 Select AI 產品。這證照課除了學到一些一般性的 AI 知識，也學了不少 Oracle AI 產品。我覺得學特定某家公司的產品沒什麼不好，特別是它如果真的好用的話，未來再設計自己的東西時或許就可以用上該技巧，多學一點技術不吃虧👍

October 25, 2025