改善 ETL 工作效率問題

企業組織常使用 ETL 來進行資料擷取、轉換、彙整、篩選或連結資料等工作,用於採集特定或多個系統的資料,然後落地到特定資料存放區以供應用進行使用。所以一條 ETL 管線所要完成的工作往往很複雜,執行時間往往也不短,當發生結果資料有問題時,所有工作必須重新來過,相當費時且不經濟。不只如此,大量的 ETL 工作常會造成整體的壓力,甚至嚴重影響資料源的業務系統效能,進一步拖垮 ETL 的工作效率。

ETL 造成資料源極大壓力,甚至容易拖垮整體系統效率

常見的 ETL 效率問題

跨系統的資料蒐集、擷取,必然需要 ETL 管線的幫助,但粗暴的 ETL 實作會帶來許多常見的問題:

  1. 程式執行期間,資料源承受巨大壓力
  2. 資料不即時
  3. 效能考量,一個資料源一次只能容許執行少數 ETL 工作
  4. 佔用資料源運算資源的時間太長
  5. 若過程有任何意外,重新執行成本高

以 GRAVITY 進行改善後

GRAVITY 的資料代理節點,能避免任何外部系統在獲取資料時,直接碰觸資料源的資料庫系統,因此可以完全阻隔 ETL 對資料源造成影響的問題。由於 GRAVITY 會進行即時的資料事件收集,因此也能讓 ETL 取得即時的資料後進行處理,不再有資料時間落差的問題。

以 GRAVITY 代理節點打造即時快取機制,讓 ETL 平行處理得以實現

這種架構下,因為可以同時供應資料、落地成多份副本給多個 ETL 程式使用,資料處理的工作量,可以被分散出去到不同獨立系統處理,而且可以藉由快取副本的擴展,容許更多的 ETL 工作同時執行。