系統設計11：AI Agent 系統（以 DeepSeek-R1 為啟發）

前言

如果說 Chatbot 的核心是「回答問題」，那 AI Agent 的核心就是「完成任務」。

當使用者輸入「幫我找出這週銷售異常、整理成報表，最後寄信給團隊」，系統不再是吐一句答案，而是要自行規劃步驟、呼叫工具、處理失敗重試，並在限制條件下安全地交付結果。

本篇用五維度分析法，拆解一套參考 DeepSeek-R1 思路的 AI Agent 系統：它如何思考、如何行動、如何在高不確定任務中保持可控與可觀測。

這篇你可以帶走什麼

為什麼 Agent 必須切分成 Planner、Executor、Memory 三層
ReAct 與 Plan-and-Execute 在實務上的取捨
工具調用（Tool Calling）如何做權限隔離與參數驗證
長鏈任務常見失敗型態與補救策略
觀測性（Observability）在 Agent 系統中的必要性

維度一、可直接觀察的事實：Agent 不只是加了工具的 LLM

AI Agent 的輸入輸出型態，和一般問答系統完全不同。

任務跨步驟：一次任務往往包含搜尋、整理、計算、寫入外部系統。
決策在執行中發生：Agent 會根據中途結果動態改寫下一步。
錯誤會累積：只要某一步假設錯誤，後續步驟就可能整串偏離。
外部副作用真實存在：像寄信、下單、改資料庫，都是不可逆操作。

重點：Agent 系統本質是帶有副作用的決策流程引擎，不是單回合文字生成器。

維度二、條件檢查：架構最佳解與可控邊界

標準分層：Planner / Executor / Memory

在可維運的 Agent 系統裡，最常見也最穩健的切法是三層分離：

Planner：負責把高階目標拆成可執行子任務，並維持步驟狀態機。
Executor：負責執行具體動作（查 API、跑 SQL、呼叫內部服務）。
Memory：保存任務上下文、過去決策與中間產物，避免每步都重算。

這種切法的價值在於可以獨立優化與隔離風險。Planner 追求策略品質，Executor 追求可靠執行，Memory 追求一致性與檢索效率。

推理策略：ReAct vs Plan-and-Execute

ReAct：每一步邊想邊做，回應靈活，但長鏈任務容易漂移。
Plan-and-Execute：先產生全局計畫，再逐步執行，整體更可控。

在企業場景中，通常採混合模式：先產生粗粒度計畫，再在每個子步驟使用 ReAct 微調。

重點：先有可審計的計畫，再做局部彈性決策，才能兼顧穩定與適應性。

維度三、反證檢查：常見直覺方案為何會失敗

盲點一：只要給模型更多工具，成功率就會上升？

工具數量增加，不一定代表能力提升。實務上常見的是選錯工具、參數格式錯誤、工具間循環呼叫。若缺乏工具選擇約束，Agent 反而更容易陷入無效探索。

更穩定的做法是：

用任務類型綁定白名單工具。
以 JSON Schema 驗證工具輸入。
對高風險工具加入人工確認（Human-in-the-loop）。

盲點二：把完整對話歷史全丟給模型最保險？

上下文越長，成本越高，模型也越容易被舊訊息干擾。長任務應該採摘要記憶（Summarized Memory）與檢索記憶（Retrieval Memory）分層：

近期關鍵狀態放短上下文。
歷史細節存外部記憶庫，按需檢索。

這樣才能在成本、延遲與品質間取得平衡。

維度四、不確定性分析：可靠性、安全與觀測性

可靠性：長鏈任務的失敗控制

Agent 的失敗通常不是「報錯結束」，而是「看起來在做事，但越做越偏」。

建議至少落地三種防線：

Step Budget：限制最大步數與最大工具調用次數，避免無限迴圈。
Retry Policy：區分可重試錯誤（暫時性 5xx）與不可重試錯誤（參數無效）。
Checkpoint：每完成關鍵步驟就快照，失敗可回朔到最近安全點。

安全性：工具權限與資料邊界

Agent 真正的風險來自工具副作用，不是生成文字本身。

權限最小化：每個任務 Token 只開必要 scope。
沙箱隔離：程式執行工具應跑在隔離環境，限制網路與檔案存取。
輸入清洗：避免 Prompt Injection 透過外部內容劫持工具行為。

觀測性：把思考與行動都變成可追蹤事件

若沒有完整 tracing，你會無法回答三個核心問題：

這次任務為何失敗？
失敗發生在哪一步？
失敗是模型問題、工具問題，還是資料問題？

因此需要統一事件模型，至少記錄：任務 ID、步驟 ID、模型輸入摘要、工具參數雜湊、回應延遲、最終結果碼。

維度五、最終結論與行動建議

可落地的 Agent 架構藍圖：

Gateway：接收任務、驗證身份、套用配額與速率限制。
Planner Service：生成任務計畫與步驟狀態機。
Execution Runtime：調用工具、管理重試、執行安全策略。
Memory Layer：短期上下文快取 + 長期向量/文件記憶。
Observability Stack：集中化 tracing、metrics、task replay。

破關路線圖（信心度 90%）

第一階段：先做單 Agent + 少量白名單工具，建立任務狀態機與完整日志。
第二階段：導入摘要記憶與檢索記憶，降低上下文成本並提升長任務穩定性。
第三階段：加入人機協作節點、風險分級審批與多 Agent 協同流程。

脆弱點提示

若觀測性設計不足，系統即使成功率提升，也會在故障時無法定位根因，導致修復時間拉長且風險持續擴散。

此時必須優先補齊任務級 tracing 與 replay 機制，否則無法支撐正式上線。

一句話總結

設計 AI Agent 系統的關鍵，不在於讓模型看起來更聰明，而在於把規劃、執行、記憶與安全做成一個可審計、可回朔、可持續優化的工程系統。