Vibe Coding:影片自動摘要與字幕圖片生成器
一個將影片內容轉化為結構化頁面,提升資訊獲取效率的 AI 工具。
項目概述
在資訊(跟會議)爆炸的時代,快速從影片中獲取關鍵資訊至關重要。手動觀看、記錄、整理影片內容不僅耗時費力,也容易遺漏重點。
為了解決這個痛點,我用嘴巴開發了這個工具。它能夠自動處理指定的影片,搭配包含時間軸的逐字稿,並進一步用 AI 提煉出核心摘要,讓使用者能在最短時間內掌握影片精華。
核心做法與亮點
-
Vibe Coding 快速開發使用 Vibe Coding 精神,專注於核心功能實現,在半小時內完成雛形開發,全程沒有看過半秒 Debug 訊息。
-
100% 本地端運行,確保隱私整個流程完全在本地端 (localhost) 運行,影片與資料無需上傳,最大程度保障資料安全與使用者隱私。
-
高效語音轉文字 (OpenAI Whisper)整合 OpenAI Whisper 模型,在本地端即可實現高精度的語音辨識,並生成帶有時間軸的逐字稿。
-
輕量級 AI 摘要 (MediaTek Breeze)採用聯發科開源的 Breeze 小型語言模型,在有限的硬體資源下,快速提煉逐字稿內容,生成結構化摘要。
-
用鍵盤左右鍵就可以切換上下句,保護工程師脆弱的手腕。在大圖瀏覽模式下,直接用鍵盤就可以換頁,讓苟延殘喘的手腕、拇指跟食指暫時休息一下。
技術取捨與挑戰
-
硬體依賴
由於 AI 模型皆在本地端運行,需要具備一定等級的 GPU 才能流暢使用,這也帶來了較高的功耗。
-
模型精度與效能的平衡
選用 Breeze 這類小型語言模型是為了在多數個人電腦上也能運行,但其摘要的精準度與細膩度,與大型商用模型 (如 GPT-4) 相比仍有差距。儘管如此,對於日常會議記錄、教學影片等內容的整理,其表現已足夠應付。
成果展示
以下為工具實際運行的截圖,有請山姆奧特曼先生友情(?)展示了從影片到逐字稿與摘要的成品。


價值與影響
-
大幅提升效率 將數以小時計的影片觀看與筆記整理工作,縮短至幾分鐘的閱讀與校對時間。
-
強化資訊可搜索性 將非結構化的影音資訊轉化為可搜索、可複製的文字,便於歸檔與再利用。
-
加速內容再創作 快速產生的逐字稿與摘要,可直接作為團隊內部分享的資源。