系統設計03：「延遲優化（Optimize Latency）」與時間線架構

前言

系統擴展到一定程度後，雖然資料庫沒有崩潰，但因為資料被分片（Sharding）散落在不同伺服器，使用者每次打開首頁都要跨多台伺服器撈資料再重新排序，導致延遲（Latency）非常高。

這篇文章延續前兩篇，同樣透過五維度分析法，拆解如何利用快取（Cache）與推拉模型（Push/Pull Model）打造低延遲時間線架構。

在分片後，生成單一使用者時間線通常需要：

這個流程會放大延遲，尤其在高峰流量時更明顯。

再看快取空間估算。若假設：

可得到約 36GB 的快取需求，現代伺服器或小型快取叢集通常可承受。

另外，為了追求極低延遲，可以預先構建時間線（Pre-computing Timeline Cache）：

重點：Sharding 解決的是容量與寫入分攤；時間線延遲問題往往要靠快取與查詢策略一起解。

一般使用者發文時，最常見做法是：

這能兼顧發文 API 響應與讀取速度。

如果發文者是超級大 V（例如 1 億粉絲），Push 會在單篇貼文觸發 1 億次快取寫入：

結果是整體時間線服務延遲反而惡化。

重點：Push 對一般場景很有效，但對極端粉絲規模會失效。

只選單一模型通常都會出問題。

因此實務上常採混合模型（Hybrid Model）：

區分觀察事實與經驗推論：

觀察事實：Push 模型在寫入時消耗資源，Pull 模型在讀取時消耗資源。
經驗推論：假設 20% 的貼文貢獻了 80% 的流量（八二法則）。這個比例在不同性質的平台（如 Twitter 偏向公域廣播、Facebook 偏向私域社交）會有很大的差異，直接影響 Cache Size 的估算。

核心假設：整個 Timeline Cache 架構的成立，依賴於「記憶體（Memory）足夠便宜且容量夠大」這個硬體發展事實，才能用空間換取時間（Latency）。

這套混合架構正是早期 Twitter 解決「小賈斯汀發文導致系統崩潰」的真實解決方案。

混合模型最脆弱的地方在閥值設定與結構演化：

時間線優化不是 Push 或 Pull 二選一，而是用混合模型在讀取速度、寫入成本與擴展性之間取得平衡。