集成整個組織的數(shù)據(jù)可以讓您更好地了解客戶、簡化運營并幫助團隊做出更好、更快的決策。但整合數(shù)據(jù)并不容易。
通常,組織使用各種工具和系統(tǒng)(例如數(shù)據(jù)攝取服務)從不同來源收集數(shù)據(jù)。數(shù)據(jù)通常存儲在孤島中,這意味著必須將其移至數(shù)據(jù)湖或數(shù)據(jù)倉庫中,然后才能運行分析、人工智能 (AI) 或機器學習 (ML) 工作負載。在數(shù)據(jù)準備好進行分析之前,需要對其進行組合、清理和規(guī)范化,這一過程也稱為提取、轉換、加載 (ETL),這可能非常費力且容易出錯。
在 AWS,我們的目標是讓組織更輕松地連接到所有數(shù)據(jù),并以客戶所需的速度和敏捷性實現(xiàn)這一點。我們基于以下目標開發(fā)了實現(xiàn)零 ETL 未來的開創(chuàng)性方法:打破數(shù)據(jù)孤島,使數(shù)據(jù)集成更容易,并加快數(shù)據(jù)驅動創(chuàng)新的步伐。
合并來自不同來源的數(shù)據(jù)就像將一堆礫石從一個地方移動到另一個地方一樣,這是一項困難、耗時且常常令人不滿意的工作。首先,ETL 經(jīng)常要求數(shù)據(jù)工程師編寫自定義代碼。然后,DevOps 工程師或 IT 管理員必須部署和管理基礎設施,以確保數(shù)據(jù)管道的擴展。當數(shù)據(jù)源發(fā)生變化時,數(shù)據(jù)工程師必須手動更改代碼并重新部署。
此外,當數(shù)據(jù)工程師遇到數(shù)據(jù)復制滯后、架構更新中斷以及源和目標之間的數(shù)據(jù)不一致等問題時,他們必須花費時間和資源來調試和修復數(shù)據(jù)管道。在準備數(shù)據(jù)時(這個過程可能需要幾天時間),數(shù)據(jù)分析師無法運行交互式分析或構建儀表板,數(shù)據(jù)科學家無法構建機器學習模型或運行預測,較終用戶(例如供應鏈經(jīng)理)也無法做出數(shù)據(jù)驅動的決策。
這個漫長的過程扼殺了任何實時用例的機會,例如根據(jù)交通狀況將司機分配到路線、放置在線廣告或向乘客提供列車狀態(tài)更新。在這些情況下,可能會失去改善客戶體驗或解決新業(yè)務前景的機會。
零 ETL 支持通過聯(lián)合查詢就地查詢數(shù)據(jù),并以零工作量自動將數(shù)據(jù)從源移動到目標。這意味著您可以近乎實時地對事務數(shù)據(jù)進行分析、連接到軟件應用程序中的數(shù)據(jù)以及從數(shù)據(jù)存儲中生成 ML 預測以更快地獲得業(yè)務洞察,而不必將數(shù)據(jù)移動到 ML 工具。您還可以跨數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)湖查詢多個數(shù)據(jù)源,而移動數(shù)據(jù)。為了完成這些任務,我們在服務之間構建了各種零 ETL 集成,以解決許多不同的用例。
例如,假設一家在十幾個國家/地區(qū)設有工廠的制造公司使用數(shù)據(jù)庫集群來存儲每個國家/地區(qū)的訂單和庫存數(shù)據(jù)。為了實時查看所有訂單和庫存,該公司必須在每個集群與中央數(shù)據(jù)倉庫之間構建單獨的數(shù)據(jù)管道,以便跨組合數(shù)據(jù)集進行查詢。為此,數(shù)據(jù)集成團隊必須編寫代碼來連接到 12 個不同的集群并管理和測試 12 個生產(chǎn)管道。團隊部署代碼后,必須不斷監(jiān)控和擴展管道以優(yōu)化性能,當發(fā)生任何變化時,他們必須在 12 個不同的地方進行更新。通過使用Amazon Aurora 零 ETL 與 Amazon Redshift 集成,數(shù)據(jù)集成團隊可以消除構建和管理自定義數(shù)據(jù)管道的工作。
另一個例子是銷售和運營經(jīng)理正在尋找公司銷售團隊應重點關注的領域。使用完全托管的無代碼集成服務 Amazon AppFlow,數(shù)據(jù)分析師可以將銷售機會記錄從 Salesforce 提取到 Amazon Redshift 中,并將其與來自不同來源(例如計費系統(tǒng)、ERP 和營銷數(shù)據(jù)庫)的數(shù)據(jù)相結合。通過分析所有這些系統(tǒng)中的數(shù)據(jù)進行銷售分析,銷售經(jīng)理能夠無縫更新銷售儀表板,并為團隊提供正確的銷售機會。
在一個現(xiàn)實世界的用例中, Magellan Rx Management (現(xiàn)在是 Prime Therapeutics 的一部分)。使用數(shù)據(jù)和分析來提供改善患者護理、優(yōu)化成本和改善結果的臨床解決方案。該公司通過其 MRx Predict 解決方案開發(fā)和提供這些分析,該解決方案使用各種數(shù)據(jù)(包括藥房和醫(yī)療索賠以及人口普查數(shù)據(jù))來優(yōu)化預測模型的開發(fā)和部署,并較大限度地提高預測準確性。
在 Magellan Rx Management 開始使用 Redshift ML 之前,其數(shù)據(jù)科學家通過使用各種工具執(zhí)行一系列步驟得出了預測。他們必須在 SageMaker 中確定適當?shù)?ML 算法或使用 Amazon SageMaker Autopilot,從數(shù)據(jù)倉庫導出數(shù)據(jù),并準備訓練數(shù)據(jù)以使用這些模型。部署模型后,科學家們使用新數(shù)據(jù)進行了各種迭代以進行預測(也稱為推理)。這涉及通過一系列手動步驟在 Amazon Redshift 和 SageMaker 之間來回移動數(shù)據(jù)。
借助 Redshift ML,該公司的分析師可以通過輕松創(chuàng)建和使用 ML 模型來對新藥進行市場分類。通過利用 Redshift ML 支持此流程所獲得的效率提高了生產(chǎn)力、優(yōu)化了資源并產(chǎn)生了高度的預測準確性。
我們的使命是讓客戶輕松地從他們的數(shù)據(jù)中獲得較大價值,而集成服務是此過程的關鍵。這就是我們今天致力于構建零 ETL 未來的原因。通過數(shù)據(jù)工程師可以自由地專注于從數(shù)據(jù)中創(chuàng)造價值,組織可以加速數(shù)據(jù)的使用,以簡化運營并推動業(yè)務增長。