Vibe Coding：影片自動摘要與字幕圖片生成器

一個將影片內容轉化為結構化頁面，提升資訊獲取效率的 AI 工具。

「影片內容難以檢索，手動整理逐字稿耗時費力。且商業會議涉及機密，上傳雲端 AI 服務存在資安疑慮。」

「開發 100% 本地端運行的 AI 工具。整合 OpenAI Whisper 與 MediaTek Breeze 模型，在不聯網的情況下實現語音轉文字與重點摘要，兼顧效率與隱私。」

項目概述

在資訊(跟會議)爆炸的時代，快速從影片中獲取關鍵資訊至關重要。手動觀看、記錄、整理影片內容不僅耗時費力，也容易遺漏重點。

為了解決這個痛點，我用嘴巴開發了這個工具。它能夠自動處理指定的影片，搭配包含時間軸的逐字稿，並進一步用 AI 提煉出核心摘要，讓使用者能在最短時間內掌握影片精華。

硬體依賴

由於 AI 模型皆在本地端運行，需要具備一定等級的 GPU 才能流暢使用，這也帶來了較高的功耗。
模型精度與效能的平衡

選用 Breeze 這類小型語言模型是為了在多數個人電腦上也能運行，但其摘要的精準度與細膩度，與大型商用模型 (如 GPT-4) 相比仍有差距。儘管如此，對於日常會議記錄、教學影片等內容的整理，其表現已足夠應付。

以下為工具實際運行的截圖，有請山姆奧特曼先生友情(?)展示了從影片到逐字稿與摘要的成品。

Vibe Coding OpenAI Whisper MediaTek Breeze

返回作品