Illustration of a bird flying.
  • 「自架文字生成影片 AI – ComfyUI + Wan 2.2」

    昨天本來在研究 AI 文字生成語音的應用,意外看到阿里巴巴開源的文字生成影片 (text to video, T2V) 模型 – 通義萬相 Wan 2.2, 畫質很不錯,就來研究看看要如何在本機使用。T2V AI 就是輸入文字提示詞,AI 就依提示詞的描述生成影片。 我發現有一款 app – ComfyUI 可以使用 Wan 2.2,我就在我的 MacBook M1 Pro MAX 64GB (MPS GPU 加速) 筆電上架設。不過一開始沒有很順利,遇到 3 個較大的問題。 問題 1,生成跑一半出現 MPS 不支援 fp8 e4m3fn 的錯誤:這是因為現今主流運行 AI model 加速的 GPU 是 nVIDIA,而不是 Apple MPS. 例如 PyTorch 這個 GPU 加速軟體,目前僅部分實作 MPS…

    November 7, 2025
  • 「自架 (self-hosted) AI Coding 代理人伺服器 – llama.cpp server」

    今天又在 reddit 上研究 AI 新技術,看有什麼新東西可學,看到一套 LLM 工具 – llama.cpp 又有新東西推出,我就來研究一下。 然而我已一段時間沒觀注 llama.cpp 的發展,所以有一些資訊落後。我才知道 llama.cpp 也有 API server,相容 OpenAI API。這令我感興趣,因為目前 AI 工具之間主流的串接方式之一就是 OpenAI API。 比如我之前看一份教學,學會使用 LM Studio API server (相容 OpenAI API) 與 qwen-code 串接,在本機執行自架的 AI coding agent,它可以幫我在本機上生成程式,作程式碼的新增、修改,而且免付費使用一些 AI coding 服務商的 API。 那 LM Studio 已經有 LLM API server 的功能,還有需要其它類似的工具嗎?還是有!因為多一種選擇,較有彈性。特別是我在用 LM Studio 作 AI coding 時,遇到一個寫檔…

    November 5, 2025
  • 「語音轉文字 AI – Whisper」

    又完成一支 AI app 作品 – 「使用 Whisper 作語音轉文字 (speech to text, STT)」。或許大部分人對語音轉文字的應用已用得習以為常,覺得不是什麼新技術,但對我這開發者而言是頗興奮的。因為過去常用的語音轉文字服務大多是閉源 (close source) 的,也就是某一家公司用非公開的語音轉文字模型在提供轉換服務,如此就可能會有一些限制,比如串接服務須付費使用、有隱私洩漏的疑慮(因為語音資料要傳給某公司的服務作處理)。 Whisper 是 OpenAI 開源的 STT AI 模型,可以在自己的電腦上運作,避開上述閉源 STT 服務的限制👍 我用它寫了一支全端 app,前端是 web 介面,作為語音輸入,再用 WebSocket 傳輸語音串流給後端 Python 程式。停止錄音後,後端會將整個音檔交給 Whisper 作轉寫 (transcribe) 文字,再透過 WebSocket 將轉寫文字傳回前端顯示。如 demo 影片(有聲音)所示。(目前僅測試英語辨識,中文還要再研究😅) 之所以會想練習寫這支 app,是因為我發覺現在 AI 語言模型 (LLM, VLM) 的應用愈來愈廣,但要讓這些用到文字輸入的應用使用起來更好用,「語音輸入」相對於「文字輸入」更具親和力!所以值得學會如何打通語音輸入這個環節。 程式原始碼:https://github.com/MrMYHuang/audio_transcriber

    November 4, 2025
  • 「大語言模型 App 的保護模型 – LLM Guard」

    通用的大語言模型 app 要上線給一般人使用,就要考量一些保護問題,避免被濫用(例如之前發生的捷運的 AI 客服被使用者要求寫程式😆)、甚至生成危險訊息(暴力、恐怖、負面思想)😱 有一門 AI 研究就是在訓練一種 LLM, 專門推論使用者輸入,並作出危險呈度分類,它叫 LLM Guard. 有了 LLM Guard, 我們可以用它來保護助理型的 LLM,避免它被下達使用者輸入的不安全的指令。所以整個 AI 後端程式的設計,最前端用 LLM Guard 對使用者輸入作審合,安全的輸入才交給下一級助理 LLM,不安全的就直接擋掉、回覆拒絕處理訊息。 我花了一點時間,完成上述的 demo 全端程式,其中保護型 LLM 使用阿里巴巴開放的千問 Qwen3Guard-Gen-0.6B,助理型 LLM 使用 DeepSeek-R1-Distill-Qwen-1.5B. 請看 demo 影片。 程式原始碼:https://github.com/MrMYHuang/demo_llm_guard

    November 2, 2025
  • 「視覺語言模型 – Vision LM」

    我之前接觸的 AI 語言模型應用,限於文字輸入/輸出類型,也就是 LLM (large language model). 但我認為多學一些語言模型類型,對於未來要做更多樣的應用會有所幫助,比如我這次挑戰的視覺語言模型 (vision LM)。 有此動機,是看到別人設計的 AI workflow 利用非文字輸入的語音轉文字 AI 作前端,再與 LLM 串接,如此一來就能用語音操縱 LLM! 因此激勵我學習不同輸入類型的 LM。 我這次挑戰的項目,是用圖片作為輸入AI 助理語言模型,再依指示輸出文字。我選的 VLM 是許多人在用的阿里巴巴開放模型 – 千問 (Qwen3 VL),前後端程式則是由我之前寫的另一個全端專案 demo_langchain_vec 改寫而成。 在開發過程,有使用 ChatGPT 輔助開發,不過一開始跑不起來,記憶體不足。後來上網研究才知道是輸入圖片解析度太高,要 downscale,所以程式要設限制。修正後就能跑了。 後來我將前後端程式依舊打包成 docker images,再使用 docker compose 一鍵啟動所有 containers。結果後端的 VLM 執行卻異常緩慢,根本不能用。後來才想起 container 要存取 nVIDIA GPU 要有特殊設定這件事,但我的電腦是 MacBook Pro 的 Apple Silicon MPS…

    November 2, 2025
  • 「程式可觀察性 – Observability」

    最近在看了一些 AI 文章,注意到有一件事出現多次,就是在探討 AI 應用程式 (apps) 的可觀察性,它是軟體工程的一部分。身為一位什麼都要懂的軟體工程師,來挑戰這個主題吧。 應用程式的可觀察性就是是否能觀察程式運作時的各項數值。比如一項功能是由多個元件串聯執行,若想分析各項元件的執行順序、消耗時間,就需在程式加上記錄這些資訊的程式,上述是一種觀察類型 – trace. 還有 2 種常見的觀察類型:metric, log. 可觀察性在軟體工程中是建議早期規劃的。因為一旦程式上線,使用者開始使用,那麼可能一些開發、測試階段沒遇到的 bugs/issues 就開始出現,這時若沒有任何可觀察的程式運作訊息,對 bugs/issues 就束手無策。接下來只能再補回觀察程式碼,重新上線,但如此一來就會花較多時間,因為需要第 2 批使用者觸發新版程式 bugs/issues,產生觀察訊息,才有除錯的線索 但如此一來可能就會流失較多客戶。 AI apps 也需面臨上線後才出現的 bugs/issues,比如有部分使用者反應 apps 運作很慢。這時有 traces 可查的話,就能分析是 AI apps 的哪一個元件太耗時。AI apps 還有一些要考量的 issues,如 model drift, token count. 接著我就動手實作將我之前寫的一支語意搜尋 backend app https://github.com/MrMYHuang/demo_langchain_vec 加入 trace 觀察,使用的 trace 標準是 OpenTelemetry OTLP,並使用 Jaeger UI 呈現…

    October 31, 2025
  • 「AI 工作流自動化工具 – n8n」

    最近跟朋友聊 AI 發展,說我要轉行做 AI。他建議我可以去學一套 AI 工作流自動化工具 (AI workflow automation) – n8n. 我就研究了一下。 n8n 是一套開發流程圖式工作流工具,如擷圖所示。它不僅只是畫流程圖而已,而且還是可執行的程式,達成自動化執行的工作流。這類工具在 AI 還沒爆紅時就存在了。但 n8n 特別在於它有許多現成的 AI 與應用工具可用,又有免費版可在本機運作,所以在 AI 界滿紅的。 這種流程圖式的寫程式方式非常好上手,不必像寫程式語言一樣要記很多語法,只要加一加程式方塊圖,再連線它們的輸入輸出資料,就像在畫畫一樣,就能寫出一支程式。 而最近幾年進入 AI 科技奇異點,使得「AI 程式」開始能作為工作流 / 程式的一部分!n8n 就內建許多 AI 方塊(程式),比如有串接 OpenAI, Gemini, OpenRouter AI 服務的方塊,可以整合到工作流中,人們就可以發揮創意做出自己的 AI 應用程式。 現代 LLM AI 因為夠聰明,會推測別的工具 (tools) 要怎麼使用,這使得我們能用它來操作這些工具。例如擷圖示範的是透過 Telegram 傳訊將使用者用自然語言所下的指令傳給 LLM AI 代理人 (agent),agent 就能選取最合適的工具執行,比如新增 Google 行事曆項目、寄信。 n8n…

    October 30, 2025
  • PDF 向量式語意搜尋 Demo App

    這是我花了 1 天的時間寫的 1 支「語意搜尋」全端 app,主要是自己練功、做做作品,證明自己在 AI 這領域所學。雖不是現在 AI 領域很了不起的東西,但起碼是在往 AI 領域發展的路上😅 「向量式語意搜尋」本身雖然不是直接的 AI 的應用,但卻是一項 AI 應用 – RAG (retrieval augmented generation) 的重要的一部分。 現在 LLM 很強大,可以應用在問答。但訓練一個 LLM 很吃算力 (CPU, GPU),不是普通的電腦硬體能完成的,所以想訓練一個使用自己的資料集的 LLM 有困難。 幸好有人研究出可以在輸入提示詞 (prompt) 給 LLM 前,加上一些上下文 (context) 資訊,LLM 就能輸出高品質的生成內容,如此一來就不一定要去訓練 LLM。 而 RAG 就是一種利用此類所謂的提示詞工程 (prompt engineering) 的方式。首先它將特定領域文字知識庫轉成多維向量的庫,再利用相近向量有相近「語意」的特性,做到「 語意搜尋」。比如給一個句子,將它轉成向量,再從向量庫找相近向量其對應的語句,就是找出相近語意的搜尋! 所以,RAG 的使用者輸入了一個問題,然後 RAG 程式利用語意搜尋先找出相關資料,再將原問題與相關資料一併輸入 LLM,讓它輸出高品質的答案!因此「向量式語意搜尋」是 RAG 重要的一部分。…

    October 28, 2025
  • 又双叒叕拿證照 – Oracle Cloud Infrastructure 2025 Data Science Professional

    是一張 AI 訓練開發、部署、應用的證照。考試 50 題,大多單選,難度我認為是常態分佈,有很難的 model explanation 題,也有秒殺題(比如問某個需求要用使用什麼服務),也有中等難度的流程題(這種流程題如果之前有看過就變秒殺題,沒看過就要推理出合理的流程😅)。 我拿的這 7 張 Oracle 證照,是趁著 Oracle 每年的一項證照競賽活動,有幾次免費考證照的機會而拿的: https://education.oracle.com/race-to-certification-2025 今年活動是 07/01-10/31. 我是 10/09 才看到這項活動,發現時間只剩一個月,就拼了😅 本來這次拿的這張,有些難度、而時間又剩 1 週,我想拼另一張較好拿的證照(課程時數較短)。但我想起過去做事太求安全牌,反而浪費一些機會,所以就跟這張 Data Science Professional 含金量較高的證照拼了!拼的過程其實有幾次想放棄、覺得時間可能來不及,因為課程中的一些章節太硬核。但還是靜下來分析,這課程的安排是”上山再下山”,就是中間有一小段章節很硬,而前後章節難度適中,所以只要撐過中間章節,就是舒適的下坡。結果我成功突破! 這課程中有相對我來說較簡易的部分(例如我已很熟 Git),也有超硬核的 machine learning 知識,如 data exploration, preprocessing (clean, impute, feature engineering (selection, scale)), modeling (algoritm selection, evaluation, hyperparameters turning)。另外還有一些 Oracle 很有意思的技術,如 AutoML (meta-learning), MLOps (continuous traning)…

    October 27, 2025
  • 叕拿證照 – Oracle AI Vector Search Professional

    也是一張 AI 證照,考試有 50 題,我考 86 分,算最近幾次考的稍好的分數🙂 這證照的主題是 vector embedding, vector search (exact, approximate, multi-vector, filtering), vector index 與 AI retrieval augmented generation (RAG) 應用與 Oracle 的產品 Oracle DB, AI Verctor Search, Generative AI Service 的 PL/SQL, Python 實作、還有 Select AI 產品。 這證照課除了學到一些一般性的 AI 知識,也學了不少 Oracle AI 產品。我覺得學特定某家公司的產品沒什麼不好,特別是它如果真的好用的話,未來再設計自己的東西時或許就可以用上該技巧,多學一點技術不吃虧👍

    October 25, 2025
1 2 3 4
Next Page→

Meng-Yuan Huang's Blog

Proudly powered by WordPress