技術解析：Auto Universe 測試自動化 AI Agent 協作生態系

演進歷程

從 Prompt 工程到 Agent Skill 的三個階段

這是一段持續摸索與驗證的苦行，耗費了無數的 Token 額度跟時間。

Phase 1

傳統 Prompt 工程

將團隊架構規範寫進 ChatGPT / Gemini 的對話框。開發者需要來回複製貼上程式碼。

痛點：AI 無法感知專案全貌（Context Missing）。模型記不住所有規範，產生大量「能動但不符合團隊標準」的 Spaghetti Code。

Phase 2

System Prompt 規範化

將大量架構規則寫入 .cursorrules 或 System Prompt，依賴 AI CLI 工具讀取本地專案。

痛點（Context 爆炸）：規則互相衝突、Token 消耗暴增。當 Context Window 過長時，AI 會自動壓縮並遺失關鍵規範。

Phase 3 — 現行架構

Agent Skill 架構突破（Vibe Coding）

將通用 AI 轉換為懂人話、按 SOP 工作的「Agent 代理工程師」。捨棄單一巨大的 System Prompt，轉為建立「結構化、模組化、按需載入」的 Skill 生態系。

成本效益

ROI 分析

將沉重的「人力維護成本」轉化為極高 ROI 的算力投資。

+30%

開發加速

減少 10–20 小時的人工開發時間

~87%

效率提升

單腳本平均各環節效率總和

>700%

投資報酬率

每節省 1 小時人工，算力投資約 $1.4

生態系組成

核心技能解析（The 8+1 Planets）

Auto Universe 涵蓋自動化測試的完整生命週期。

SKILL-01

Script Generator

腳本自動組裝引擎

可直接產出公版腳本，或結合工具匯出檔產出高完整度腳本。確保產出符合四大保證：Flat Pattern（禁止內嵌函數）、Explicit Config（明確參數）、Cross-Module（正確跨模組呼叫）、No XPath in Spec。

5-Phase 標準模板：強制遵循 Setup → Login → Patient → Logic → Validation 結構。
按需載入：動態引用 templates.md、actions_index.json 等索引。
650+ 內建 Actions：涵蓋完整程式碼索引供 Agent 查詢並正確調用 50+ Widgets。

SKILL-02

Code Reviewer

架構糾察隊

在工程師發起 PR 前的代碼審查專家，預先減少一半的來回修改浪費。按需逐級載入審核模塊，僅載入當前任務所需的規則集。

跨模組呼叫驗證：嚴格控制各目錄的 import 權限，禁止高階特化模組向下污染核心元件。
13 項自動化檢查：揪出硬編碼的 XPath/CSS Selector、直接呼叫原生 Selenium 及 Magic Number 等違規。
歷史技術債豁免：智慧區分新增違規與既有歷史共業，避免冤枉開發者。

SKILL-03

Log Analyst

AI 除錯分析師

深入 Log 檔案爬取並分析錯誤根因，提升除錯效率。具備雙軌處理機制與自回饋能力。

Fast Path：內建 5 大類已知錯誤模式資料庫，遇到已知 Pattern 即可秒級匹配並給出解答。
Deep Path：當 Fast Path 未命中時，AI 自主進行「定位 → 收集 → 推理 → 建議」深度分析。
自回饋迴路：發現新錯誤模式後，向工程師提出建議更新 Pattern DB，由人工確認後納入知識庫，讓 Fast Path 持續進化。

SKILL-04

PR Report

PR 報告助手

基於 git diff，在準備合併分支時，為開發者代勞繁瑣的說明文件撰寫工作。

自動生成符合 Conventional Commits 標準的 Commit Message 與 PR Title。
智慧解析程式碼變動，一鍵產出格式化、易讀的繁體中文 PR Description 與變更總結。

SKILL-05

Doc Updater

文檔同步防護牆

為了解決「程式碼快速迭代，但開發文件腐化發霉」的問題而誕生。

掃描程式碼變更，自動同步並更新 Developer Handbook 與內部 Wiki。
主動識別並清理過時的操作內容，確保新人依賴的 Walkthrough 永遠與當前 codebase 一致。

SKILL-06

Side-to-Testcase

反向測試案例轉換器

實踐「測試左移」，不需要再花費人力手寫測試步驟文件。

將自動化開發階段輸出的 .side 檔案，智慧轉換成人類可讀的測試案例文檔。
AI 自動執行步驟提取與邏輯分層，達成從程式碼逆向生成測試案例的零誤差產出。

SKILL-07

Skill Reviewer

Agent 提示詞品管機制

因應大語言模型智商漂移（Model Drift）與降級問題而設立的最高防禦層。

依據 Claude 官方標準，對自製的 Agent Skills 進行 5 大類別、34 項檢查點的嚴格掃描。
強制規範複雜流程必須加入「理解檢查點」（Checkpoint），防堵 AI 遺忘步驟或產生幻覺。

SKILL-08

Skill Developer

開發 Skill 的 Meta-Skill

創造 Agent 的 Agent，用於快速擴充 Auto Universe 生態系。

自動生成符合團隊標準的 SKILL.md 結構。
協助定義明確的 Action 與 I/O 規範，確保所有新建立的技能都符合生態系介接標準。

THE +1

xTools

外圍輔助開發生態系

作為自動化生態系的外掛模組，提供靈活的戰術支援。第九行星，獨立運行。

獨立運作，不依賴 Auto 核心架構，專門填補純依賴 AI 難以完美處理的工程領域。
為人類工程師提供批量資料處理、環境狀態重置等輕量型腳本，形成「人機混編」協力狀態。

架構亮點

設計決策解析

兩個讓整個生態系比「規則堆砌」更具競爭力的核心機制。

按需載入與 Token 預算控制

每個 Skill 的知識庫分為「常駐核心」與「按需引用」兩層。呼叫時透過 <LOAD_INSTRUCTIONS> 標記動態拉取特定模塊，避免一次性載入全部上下文。

對於需要多步驟迭代的任務（如逐步生成腳本），Token 消耗採 Snowball 模型累積：

Snowball = Base × (Steps × (Steps+1) / 2)

這個公式說明為什麼「不必要的步驟數」是最值得最佳化的槓桿點，而非壓縮單次 Prompt 的字數。

為什麼不用 RAG？

本系統的知識庫是高度結構化的 Markdown + JSON 索引，查詢模式可預期。RAG 的 embedding + 向量搜尋會引入延遲與不確定性，且在明確路徑的按需載入場景中沒有優勢。

被動進化（Passive Evolution）

整個生態系不需要人工重寫 Skill——它會隨著底層模型升級而自動提升品質。

產出品質 = 知識品質 × LLM 執行能力

兩個因子皆單調遞增：Skill 文件透過自回饋迴路持續精化；LLM 能力隨模型迭代提升。系統的上限會持續成長，而不需要重新設計架構。

Log Analyst 的 Pattern DB 自回饋、Skill Reviewer 的品質掃描，都是這個機制的具體體現——每次執行既是生產行為，也是一次潛在的知識精化機會。

與傳統規則引擎的差異

傳統規則引擎需要人工維護每一條規則的版本。被動進化架構的維護成本集中在「知識結構設計」，而非「規則內容更新」。

踩坑筆記

Lessons Learned

兩個真實發生、迫使架構決策改變的工程問題。

問題 01 — Human in the Loop

過度自動化翻車

曾嘗試授權 Agent 擁有 git commit 及 push 權限，結果因大模型幻覺（Hallucination）產生的問題代碼混入了主分支，且 AI 會「自信地掩飾錯誤」。

修正：嚴格切斷 Agent 的提交權限。AI 負責生成與建議，最後一哩路的確認與 git commit 必須由人類工程師親自執行。

問題 02 — Model Drift Defense

模型智商漂移

原先在 Claude Opus 上完美執行的複合指令，切換到較小的模型（如 Gemini Pro / Claude Sonnet）執行時，出現了指代不明、遺忘前半段步驟的現象。

修正：將長步驟解耦，建立 Skill Reviewer 掃描所有 Skill 的結構，強制加入確認檢查點（Checkpoint），要求 AI 輸出目前的理解狀態後才繼續。

Auto Universe架構解析