Bill Inmon認為DW的目的在於整合及運用資料。
這種系統存在的目的,就是將所有資料儲存在同一個地方,管理這些資料的進出,並且透過各種分析方法。
如線上分析處理(OLAP)、資料採礦(Data Mining)對這些資料進行分析,
再應用在決策輔助系統(Decision Support System,DSS)、主管資訊系統(Executive Information System,EIS),
幫助決策者能從大量的資料中,分析出有價值的資訊,以利擬定策略與快速回應,建構出商業智慧(Business Intelligence,BI)。
資料倉儲的定義
有資料倉儲之父(Father of Data Warehouse) Bill Inmon在1990年首次對資料倉儲做了一個定義:
以主題導向的(Subject-Oriented)、整合的(Integrated)、隨時間變異的(Time-Variant),以及非暫存性(Nonvolatile)的資料蒐集,來支援管理的決策。(註1)
資料倉儲系統(Data Warehouse System)是從多個分散式(Distributed)﹑自主性(Autonomous)﹑異質性(Heterogeneous)的資料來源中﹐搜集、組織並維護相關的資訊。此系統為整合性資料的儲存體﹐其內部儲存的資訊不但可供查詢亦可進行分析。且當資料來源被修改時﹐資料倉儲中所對應的資料可由來源擷取﹑轉換成內部型態後﹐再與已存在的資訊相互整合。因此在資料倉儲系統中﹐由於資訊已存在於系統﹐查詢及資料分析皆可有效率地反應。
資料倉儲系統主要的概念在於輔助高階查詢、擷取﹑篩選並整合相關資訊。相對於傳統資料庫系統,除了內部儲存資料更具歷史性(資料的數量及時間涵蓋面增加)之外,其於資料查詢的層面,亦不同於傳統的被動式查詢(當查詢來臨時才做運算)﹐而強調主動式查詢(當來源資料更動時﹐隨即做出反應)﹐因此當執行查詢時並不需要在資料來源處重新計算﹐而是直接由資料倉儲系統中取出資訊。(註2)
資料倉儲的興起
在90年代初期,當主從架構技術開展之後,許多企業中既有的資料庫科技架構在一時無法更新的情況下,為了兼顧現有資訊設備的投資,並為未來的資訊系統奠定穩固的基石,資料倉儲中能兼顧主從架構線上即時查詢功能及現有Host/Terminal舊系統的資訊運作方式隨即受到重視,進而漸由一種學術性的理論衍生為廣被接受的技術。(註3)
資料倉儲的興起主要是受到兩股驅動力的影響,其一是企業組織體認了資料庫系統中線上分析處理(On-line Analytical Processing, OLAP)所帶來的成效與利益,亦即企業組織可經由OLAP將從日常作業與活動所搜集之龐大資料,做更進一步的洞察與分析,以令企業組織達成策略性的決策。其二則是主從架構(Client/Server)的成長,使得今日伺服端和客戶端無論在軟、硬體的功能與效率大大提升,因此在這樣的環境之下,才可因應處理數以兆計資料量的資料倉儲。(註4)
----------------------------------------------------------
資料倉儲的特性
主題導向(Subject-Oriented)
一般資料庫的架構大多以業務來區分,如人事、財務、生產等即分屬不同的資料庫,而於資料倉儲中,所收錄組織的資料則打破業務分界的藩籬,以主題(subject)來區分。若將某商品視為一subject,在此主題下,不但有此商品的名稱、銷售量資料(原屬於銷售部門的資料庫內容),還有其生產量、生產成本(原屬生產部門的資料),由於資料在資料倉儲中做有機的整合,所以其可以支援一「整體性觀點」的洞察需求,這對於決策者而言,亦可以較快較有效率的方式來取得所要的資訊。
收錄於資料倉儲中的資料雖是整合原本散佈於各部門的資料,但也非毫無取捨地將所有資料完全納入資料倉儲中,而是在建構資料倉儲之前即針對企業決策的需要而選擇性地存入。因此,決定那些主題、那些資料該屬於那些主題、那些主題可提供何種決策資訊等等,都得事先作詳細的分析與規劃。
整合性(Integrated)
由於原始資料是由各個分散的資料庫收錄而來,可能來自不同的單位或不同的應用系統,所以無論資料中使用的單位(如英制或公制)或是資料所採用的編碼(如性別是以1/2或M/F表示)都要整合為一致。
時間變化性(Time-Variant)
在一般資料庫中通常只反映目前企業組織業務與活動之即時性資料,例如人事資料庫中所記載的公司員工總數,只記載公司目前的員工數,但於資料倉儲的設計上,其所提供的資訊著重於支援趨勢分析,例如資料倉儲中的「員工總數」這個資料值即表達過去5-10年間公司的員工總數,所以資料倉儲中的資料是依時間序列累積公司各時期的資料而來,也因此在資料倉儲中,可有不同時間的相同資訊提供予比較與分析。另外,在資料倉儲中,時間是資訊的一部分,即資料倉儲中的資料元素中含有時間屬性。
非暫存性(Non-Volatile)
一般資料庫系統中所收錄的資料要反映公司的現況,新資料的存入即取代舊資料,但資料倉儲中的資料則是要保存公司在每一個時期的「現況」,所以資料一旦存入資料倉儲即被保留,不因新資料的加入而被取代或改變。