2、數據倉庫和數據挖掘的olap技術_第1頁
已閱讀1頁,還剩63頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據倉庫和數據挖掘的OLAP技術數據倉庫-數據挖掘的有效平臺數據倉庫中的數據清理和數據集成,是數據挖掘的重要數據預處理步驟數據倉庫提供OLAP工具,可用于不同粒度的數據分析很多數據挖掘功能都可以和OLAP操作集成,以提供不同概念層上的知識發(fā)現(xiàn)分類預測關聯(lián)聚集什么是數據倉庫數據倉庫的定義很多,但卻很難有一種嚴格的定義它是一個提供決策支持功能的數據庫,它與公司的操作數據庫分開維護。為統(tǒng)一的歷史數據分析提供堅實的平臺,對信息處理提供支持數據倉

2、庫區(qū)別于其他數據存儲系統(tǒng)“數據倉庫是一個面向主題的、集成的、隨時間而變化的、不容易丟失的數據集合,支持管理部門的決策過程.”—W.H.Inmon數據倉庫關鍵特征一——面向主題面向主題,是數據倉庫顯著區(qū)別于關系數據庫系統(tǒng)的一個特征圍繞一些主題,如顧客、供應商、產品等關注決策者的數據建模與分析,而不是集中于組織機構的日常操作和事務處理。排除對于決策無用的數據,提供特定主題的簡明視圖。數據倉庫關鍵特征二——數據集成一個數據倉庫是通過集成多個異

3、種數據源來構造的。關系數據庫,一般文件,聯(lián)機事務處理記錄使用數據清理和數據集成技術。確保命名約定、編碼結構、屬性度量等的一致性。當數據被移到數據倉庫時,它們要經過轉化。數據倉庫關鍵特征三——隨時間而變化數據倉庫是從歷史的角度提供信息數據倉庫的時間范圍比操作數據庫系統(tǒng)要長的多。操作數據庫系統(tǒng):主要保存當前數據。數據倉庫:從歷史的角度提供信息(比如過去510年)數據倉庫中的每一個關鍵結構都隱式或顯式地包含時間元素,而操作數據庫中的關鍵結構可

4、能就不包括時間元素。數據倉庫關鍵特征四——數據不易丟失盡管數據倉庫中的數據來自于操作數據庫,但他們卻是在物理上分離保存的。操作數據庫的更新操作不會出現(xiàn)在數據倉庫環(huán)境下。不需要事務處理,恢復,和并發(fā)控制等機制只需要兩種數據訪問:數據的初始轉載和數據訪問(讀操作)數據倉庫的構建與使用數據倉庫的構建包括一系列的數據預處理過程數據清理數據集成數據變換數據倉庫的使用熱點是商業(yè)決策行為,例如:增加客戶聚焦產品重定位尋找獲利點客戶關系管理數據倉庫與異

5、種數據庫集成異種數據庫的集成方法傳統(tǒng)的異種數據庫集成:(查詢驅動)在多個異種數據庫上建立包裝程序(wrappers)和中介程序(mediats)查詢驅動方法——當從客戶端傳過來一個查詢時,首先使用元數據字典將查詢轉換成相應異種數據庫上的查詢;然后,將這些查詢映射和發(fā)送到局部查詢處理器數據倉庫:(更新驅動)將來自多個異種源的信息預先集成,并存儲在數據倉庫中,供直接查詢和分析查詢驅動方法和更新驅動方法的比較查詢驅動的方法需要負責的信息過濾和

6、集成處理與局部數據源上的處理競爭資源對于頻繁的查詢,尤其是涉及聚集(匯總)操作的查詢,開銷很大(決策支持中常見的查詢形式)更新驅動的方法(帶來高性能)數據經預處理后單獨存儲,對聚集操作提供良好支持不影響局部數據源上的處理集成歷史信息,支持負責的多維查詢數據倉庫與操作數據庫系統(tǒng)操作數據庫系統(tǒng)的主要任務是聯(lián)機事務處理OLTP日常操作:購買,庫存,銀行,制造,工資,注冊,記帳等數據倉庫的主要任務是聯(lián)機分析處理OLAP數據分析和決策支持,支持以

7、不同的形式顯示數據以滿足不同的用戶需要OLAPVS.OLTP(1)用戶和系統(tǒng)的面向性面向顧客(事務)VS.面向市場(分析)數據內容當前的、詳細的數據VS.歷史的、匯總的數據數據庫設計實體-聯(lián)系模型(ER)和面向應用的數據庫設計VS.星型雪花模型和面向主題的數據庫設計OLAPVS.OLTP(2)數據視圖當前的、企業(yè)內部的數據VS.經過演化的、集成的數據訪問模式事務操作VS.只讀查詢(但很多是復雜的查詢)任務單位簡短的事務VS.復雜的查詢訪

8、問數據量數十個VS.數百萬個OLAPVS.OLTP(3)用戶數數千個VS.數百個數據庫規(guī)模100M數GBVS.100GB數TB設計優(yōu)先性高性能、高可用性VS.高靈活性、端點用戶自治度量事務吞吐量VS.查詢吞吐量、響應時間更多的區(qū)別見教科書P28,表21為什么需要一個分離的數據倉庫提高兩個系統(tǒng)的性能DBMS是為OLTP而設計的:存儲方式索引并發(fā)控制恢復數據倉庫是為OLAP而設計:復雜的OLAP查詢多維視圖,匯總不同的功能和不同的數據:歷史

9、數據:決策支持需要歷史數據,而這些數據在操作數據庫中一般不會去維護數據匯總:決策支持需要將來自異種源的數據統(tǒng)一(如聚集和匯總)數據質量:不同的源使用不一致的數據表示、編碼和格式,對這些數據進行有效的分析需要將他們轉化后進行集成多維數據模型(1)數據倉庫和OLAP工具基于多維數據模型在多維數據模型中,數據以數據立方體(datacube)的形式存在數據立方體允許以多維數據建模和觀察。它由維和事實定義維是關于一個組織想要記錄的視角或觀點。每個

10、維都有一個表與之相關聯(lián),稱為維表。多維數據模型圍繞中心主題組織,該主題用事實表表示事實表包括事實的名稱或度量以及每個相關維表的關鍵字事實指的是一些數字度量多維數據模型(2)——示例time_keydayday_of_the_weekmonthquarteryeartime維表location_keystreetcitystate__provincecountrylocation事實表Sales事實表time_keyitem_keybra

11、nch_keylocation_keyunits_solddollars_soldavg_sales度量item_keyitem_namebrtypesupplier_typeitem維表branch_keybranch_namebranch_typebranch維表多維數據模型(3)在數據倉庫中,數據立方體是nD的(n維)(關系表和電子表格是幾維的?)示例AllElectronics的銷售數據按維timeitem的2D視圖(P30表2

12、2)AllElectronics的銷售數據按維timeitem和location的3D視圖(P30表23)AllElectronics的銷售數據按維timeitem和location的3D視圖的3D數據立方體表示(P31圖21)銷售數據的4D立方體表示(P31圖22)多維數據模型為不同角度上的數據建模和觀察提供了一個良好的基礎多維數據模型(4)在數據倉庫的研究文獻中,一個n維的數據的立方體叫做基本方體。給定一個維的集合,我們可以構造一個

13、方體的格,每個都在不同的匯總級或不同的數據子集顯示數據,方體的格稱為數據立方體。0維方體存放最高層的匯總,稱作頂點方體;而存放最底層匯總的方體則稱為基本方體。數據立方體——一個方體的格alltimeitemlocationsuppliertimeitemtimelocationtimesupplieritemlocationitemsupplierlocationsuppliertimeitemlocationtimeitemsuppl

14、iertimelocationsupplieritemlocationsuppliertimeitemlocationsupplier0D(頂點)方體1D方體2D方體3D方體4D(基本)方體數據倉庫的概念模型最流行的數據倉庫概念模型是多維數據模型。這種模型可以以星型模式、雪花模式、或事實星座模式的形式存在。星型模式(Starschema):事實表在中心,周圍圍繞地連接著維表(每維一個),事實表含有大量數據,沒有冗余。雪花模式(Snowf

15、lakeschema):是星型模式的變種,其中某些維表是規(guī)范化的,因而把數據進一步分解到附加表中。結果,模式圖形成類似于雪花的形狀。事實星座(Factconstellations):多個事實表共享維表這種模式可以看作星型模式集,因此稱為星系模式(galaxyschema),或者事實星座(factconstellation)星型模式實例SalesFactTabletime_keyitem_keybranch_keylocation_key

16、units_solddollars_soldavg_salesMeasures雪花模式實例SalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasures事實星座模式實例SalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldav

17、g_salesMeasuresShippingFactTabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shipped一種數據挖掘查詢語言:DMQLDMQL首先包括定義數據倉庫和數據集市的語言原語,這包括兩種原語定義:一種是立方體定義,一種是維定義立方體定義(事實表)definecube[]:維定義(維表)definedimensionas

18、()特殊案例(共享維表的定義)第一次作為維表定義“cubedefinition”然后:definedimensionasincube實例:使用DMQL定義星型模式definecubesales_star[timeitembranchlocation]:dollars_sold=sum(sales_in_dollars)avg_sales=avg(sales_in_dollars)units_sold=count()definedimen

19、siontimeas(time_keydayday_of_weekmonthquarteryear)definedimensionitemas(item_keyitem_namebrtypesupplier_type)definedimensionbranchas(branch_keybranch_namebranch_type)definedimensionlocationas(location_keystreetcityprovin

20、ce__statecountry)實例:使用DMQL定義雪花模式definecubesales_snowflake[timeitembranchlocation]:dollars_sold=sum(sales_in_dollars)avg_sales=avg(sales_in_dollars)units_sold=count()definedimensiontimeas(time_keydayday_of_weekmonthquarte

21、ryear)definedimensionitemas(item_keyitem_namebrtypesupplier(supplier_keysupplier_type))definedimensionbranchas(branch_keybranch_namebranch_type)definedimensionlocationas(location_keystreetcity(city_keyprovince__statecoun

22、try))實例:使用DMQL定義事實星座模式definecubesales[timeitembranchlocation]:dollars_sold=sum(sales_in_dollars)avg_sales=avg(sales_in_dollars)units_sold=count()definedimensiontimeas(time_keydayday_of_weekmonthquarteryear)definedimensio

23、nitemas(item_keyitem_namebrtypesupplier_type)definedimensionbranchas(branch_keybranch_namebranch_type)definedimensionlocationas(location_keystreetcityprovince__statecountry)definecubeshipping[timeitemshipperfrom_location

24、to_location]:dollar_cost=sum(cost_in_dollars)unit_shipped=count()definedimensiontimeastimeincubesalesdefinedimensionitemasitemincubesalesdefinedimensionshipperas(shipper_keyshipper_namelocationaslocationincubesalesshippe

25、r_type)definedimensionfrom_locationaslocationincubesalesdefinedimensionto_locationaslocationincubesales度量的分類一個數據立方體的度量是一個數值函數,該函數可以對數據立方體的每一個點求值。(剛才的示例中用的是什么函數?)度量可以根據其所用的聚集函數分為三類:分布的(distributive):將函數用于n個聚集值得到的結果和將函數用于所

26、有數據得到的結果一樣。比如:count(),sum(),min(),max()等代數的(algebraic):函數可以由一個帶M個參數的代數函數計算(M為有界整數),而每個參數值都可以有一個分布的聚集函數求得。比如:avg(),min_N(),stard_deviation()整體的(holistic):描述函數的子聚集所需的存儲沒有一個常數界。比如:median(),mode(),rank()56王燦數據挖掘.0703004概念分層(

27、1)一個概念分層(concepthierarchy)定義一個映射序列,將低層概念映射到更一般的高層概念E.g.表示location的概念:杭州?浙江?中國?亞洲概念分層允許我們在各種抽象級審查和處理數據概念分層可以由系統(tǒng)用戶、領域專家、知識工程師人工的提供,也可以根據數據分布的統(tǒng)計分析自動的產生概念分層(2):location維的一個概念分層allEuropeNth_AmericaMexicoCanadaSpainGermanyVanc

28、ouverM.WindL.Chan..................allregionofficecountryTontoFrankfurtcity許多概念分層的定義隱含在數據庫的模式中。比如:location維的定義,officecitycountryregion;這些屬性按一個全序相關,形成一個層次結構:yeardayquartermonthweek維的屬性也可以組成一個偏序,形成一個格:概念分層(3)——使用概念分層為不同級別上

29、的數據匯總提供了一個良好的基礎綜合概念分層和多維數據模型的潛力,可以對數據獲得更深入的洞察力通過在多維數據模型中,在不同的維上定義概念分層,使得用戶在不同的維上從不同的層次對數據進行觀察成為可能。多維數據模型(數據立方體)使得從不同的角度對數據進行觀察成為可能,而概念分層則提供了從不同層次對數據進行觀察的能力;結合這兩者的特征,我們可以在多維數據模型上定義各種OLAP操作,為用戶從不同角度不同層次觀察數據提供了靈活性:多維數據模型上的O

30、LAP操作(1)上卷(rollup):匯總數據通過一個維的概念分層向上攀升或者通過維規(guī)約當用維歸約進行上卷時,一個或多個維由給定的數據立方體刪除下鉆(drilldown):上卷的逆操作由不太詳細的數據到更詳細的數據,可以通過沿維的概念分層向下或引入新的維來實現(xiàn)(為給定數據添加更多細節(jié))切片和切塊(slicedice)切片操作在給定的數據立方體的一個維上進行選擇,導致一個子方切塊操作通過對兩個或多個維進行選擇,定義子方P40圖210多維數

31、據模型上的OLAP操作(2)轉軸(pivot)立方體的重定位,可視化,或將一個3維立方體轉化為一個2維平面序列轉軸是一種可視化操作,通過轉動當前數據的視圖來提供一個數據的替代表示其他OLAP操作鉆過(drill_across):執(zhí)行涉及多個事實表的查詢鉆透(drill_through):使用關系SQL機制,鉆到數據立方體的底層,到后端關系表其他OLAP操作可能包括列出表中最高或最低的N項,以及計算移動平均值、增長率、利潤、統(tǒng)計函數等等P

32、40圖210數據倉庫設計:一個商務分析框架(1)數據倉庫給商業(yè)分析專家提供了什么?通過提供相關數據與信息,獲得競爭優(yōu)勢通過有效的收集精確的描述組織的數據,獲得生產力的提高通過提供不同級別(部門、市場、商業(yè))的客戶視圖,協(xié)助客戶關系管理通過追蹤長期趨勢、異常等,降低成本有效構建數據倉庫的關鍵:理解和分析商業(yè)需求通過提供一個商業(yè)分析框架,綜合各種不同的數據使用者的視圖數據倉庫設計:一個商務分析框架(2)數據倉庫設計的四種視圖自頂向下視圖允許

33、我們選擇數據倉庫所需的相關信息數據源視圖揭示被操作數據庫系統(tǒng)所捕獲、存儲和管理的信息數據倉庫視圖由事實表和維表所組成商務查詢視圖從最終用戶的角度透視數據倉庫中的數據數據倉庫設計:一個商務分析框架(3)數據倉庫的構建與使用涉及多種技能商業(yè)技能理解系統(tǒng)如何存儲和管理數據數據如何提取數據如何刷新技術方面的技能如何通過使用各種數據或量化的信息,到處可以提供決策支持的模式、趨勢、判斷等如何通過審查歷史數據,分析發(fā)展趨勢等計劃管理技能如何通過與不同

34、的技術、廠商、用戶交互,來及時、有效、經濟的提交結果數據倉庫的設計過程(1)自頂向下法、自底向上法或者兩者的混合方法自頂向下法:由總體設計和規(guī)劃開始在技術成熟、商業(yè)理解透徹的情況下使用自底向上法:以實驗和原型開始常用在模型和技術開發(fā)的初期,可以有效的對使用的技術和模型進行評估,降低風險混合方法:上述兩者的結合從軟件過程的觀點瀑布式方法:在進行下一步前,每一步都進行結構化和系統(tǒng)的分析螺旋式方法:功能漸增的系統(tǒng)的快速產生,相繼版本之間間隔很

35、短數據倉庫的設計過程(2)典型的數據倉庫設計過程選取待建模的商務過程找到所構建的數據倉庫的主題,比如:銷售、貨運、訂單等等選取商務過程的顆粒度數據起始于多細的顆粒度,比如:記錄每條詳細訂單,或是開始于每日的匯總數據選取用于每個事實表記錄的維常用的維有:時間、貨物、客戶、供應商等選取將安放在事實表中的度量常用的數字度量包括:售價、貨物數量等三層數據倉庫架構(1)數據倉庫OLAP服務器查詢報告分析數據挖掘監(jiān)控、整合元數據存儲數據源前端工具輸

36、出數據集市數據倉庫服務器OLAP服務器三層數據倉庫架構(2)底層:數據倉庫的數據庫服務器關注的問題:如何從這一層提取數據來構建數據倉庫(通過Gateway(ODBCJDBCOLEDB等)來提取)中間層:OLAP服務器關注的問題:OLAP服務器如何實施(關系型OLAP,多維OLAP等)前端客戶工具層關注的問題:查詢工具、報表工具、分析工具、挖掘工具等三種數據倉庫模型從體系結構的角度去看,數據倉庫模型可以有以下三種:企業(yè)倉庫搜集關于跨越整個

37、組織的主題的所有信息數據集市企業(yè)范圍數據的一個子集,對于特定的客戶是有用的。其范圍限于選定的主題,比如一個商場的數據集市獨立的數據集市VS.非獨立的數據集市(數據來自于企業(yè)數據倉庫)虛擬倉庫操作數據庫上的一系列視圖只有一些可能的匯總視圖被物化數據倉庫開發(fā):困難與方法數據倉庫開發(fā)上的困難自頂向下的開發(fā)方法從全系統(tǒng)的角度提供解決方案,使得(模塊)集成的問題最??;但是該方法十分昂貴,需要對組織進行長期研究和建模分析。自底向上方法提供了更多的開

38、發(fā)靈活性,價格便宜;但往往會遇到集成問題(每個模塊單獨運行都沒有問題,但是一集成就出異常)解決方法:使用遞增性、演化性的開發(fā)方法高層數據模型?企業(yè)倉庫和數據集市并行開發(fā)?通過分布式模型集成各數據集市?多層數據倉庫數據倉庫開發(fā)——一個推薦的方法定義高層數據模型數據集市數據集市分布式數據集市多層數據倉庫企業(yè)數據倉庫模型提煉模型提煉OLAP服務器類型(1)邏輯上,OLAP服務器從數據倉庫或數據集市中給商業(yè)用戶提供多維數據物理上,OLAP的底層

39、數據存儲實現(xiàn)可以有多種不同的方式關系OLAP服務器(ROLAP)使用關系數據庫或擴展的關系數據庫存放并管理數據倉庫的數據,而用OLAP中間件支持其余部分包括每個DBMS后端優(yōu)化,聚集導航邏輯的實現(xiàn),附加的工具和服務較大的可擴展性OLAP服務器類型(2)多維OLAP服務器(MOLAP)基于數組的多維存儲引擎(稀疏矩陣技術)能對預計算的匯總數據快速索引混合OLAP服務器(HOLAP)結合上述兩種技術,更大的使用靈活性特殊的SQL服務器在星型

40、和雪花模型上支持SQL查詢數據倉庫的實現(xiàn)——數據立方體的有效計算數據倉庫中的OLAP查詢是一種海量數據計算(想象一下對過去10年各地區(qū)的軟件產品銷售的匯總查詢)用戶卻希望這個計算能在數秒鐘內完成解決方法在于給出一種有效的計算數據立方體的方法數據立方體可以被看成是一個方體的格最底層的方體是基本方體最頂端的方體(頂點)只包含一個單元的值一個n維的數據立方體,每維L層,可能產生的方體總數是多少?方體的操作DMQL中的方體定義和計算define

41、cubesales[itemcityyear]:sum(sales_in_dollars)computecubesales上述的computecube子句可以轉化為一個類似于SQL的語句itemcityyearSUM(amount)FROMSALESCUBEBYitemcityyear這個相當于SQL中以下的groupby子句(itemcityyear)–3D(itemcity)(itemyear)(cityyear)—2D(item)

42、(city)(year)—1D()0D數據立方體的物化數據立方體的物化可以有以下三種選擇:全物化預先計算所有方體不物化不預先計算任何“非基本”方體部分物化有選擇的計算一個所有方體的適當子集考慮因素:(1)確定要物化的方體;(2)在查詢時利用物化的方體;(3)在裝載和刷新時,有效的更新物化的方體確定物化哪些方體考慮工作負荷下的查詢、它們的頻率和它們的開銷等等方體計算:ROLAPvs.MOLAP方體計算的挑戰(zhàn):海量數據,有限的內存和時間基于

43、ROLAP的方法(底層使用關系模型存儲數據)將排序、散列(hashing)和分組操作應用于維的屬性,以便對相關元組重新排序和聚類在某些子聚集上分組,作為“部分分組步驟”??梢杂梢郧坝嬎愕木奂嬎阈碌木奂?,而不必有基本事實表計算基于MOLAP方法(底層使用多維數組存儲數據)多路數組聚集的計算方法將數組切成塊(每個塊都可以整個裝入內存)通過訪問各個塊來計算匯總值方體計算的多路數組聚集方法(1)將數組分成塊(chunk一個可以裝入內存的小子方

44、)通過訪問立方體單元,計算聚集??梢詢?yōu)化訪問單元組的次序,使得每個單元被訪問的次數最小化,從而減少內存訪問和磁盤IO的開銷。A(month)40個值B29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C(item)4000個值B(city)400個值442856402452362060哪個是多路數組聚集的最佳遍歷次序?方體計算的多路數組聚集方法(2)B(city)

45、400方體計算的多路數組聚集方法(3)AB29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C442856402452362060B方體計算的多路數組聚集方法(4)方法:各平面要按他們大小的升序排列進行排序和計算詳見書P50例2.12(P52圖216有誤)思想:將最小的平面放在內存中,對最大的平面每次只是取并計算一塊方體計算的多路數組聚集方法(5)根據1到64的掃

46、描次序,在塊內存中保存所有相關的2D平面所需的最小存儲為:40400(用于整個AB平面)+401000(用于AC平面一行)+1001000(用于BC平面一塊)=156,000這種方法的限制:只有在維數比較小的情況下,效果才比較理想(要計算的立方體隨維數指數增長)如果維的數目比較多,可以考慮使用“自底向上的計算”或者時“冰山方體”計算OLAP查詢的有效處理確定哪些操作應當在可利用的方體上執(zhí)行:將查詢中的選擇、投影、上卷和下鉆等操作轉化為對

47、應的SQL或和OLAP操作,如:dice=ionprojection確定相關操作應當使用哪些物化的方體找尋MOLAP中可以利用的索引結構以及壓縮的或是稠密的數組結構有效處理OLAP查詢(示例)立方體的定義為:sales[timeitemlocation]:sum(sales_in_dollar)time的維層次dayweekmonthquateryearlocation的維層次streetcityprovince__statecount

48、ryitem的維層次item_namebrtype現(xiàn)在要處理一個year=2000,定位在br和province__state級別的查詢,現(xiàn)有四個可用的已經物化的方體:item_namecityyearbrcountryyearbrprovince__stateyearitem_nameprovince__state其中year=2000Question:以上四個方體,選那個來處理查詢?(要考慮計算的量,以及可以使用的索引等因素)元數據

49、存儲在數據倉庫中,元數據就是定義數據倉庫對象的數據。有以下幾種:數據倉庫結構的描述倉庫模式、視圖、維、層次結構、導出數據的定義,以及數據集市的位置和內容操作元數據包括數據血統(tǒng)(datalineage)、數據類別(currencyofdata),以及監(jiān)視信息匯總用的算法由操作環(huán)境到數據倉庫的映射關于系統(tǒng)性能的數據索引,profiles,數據刷新、更新或復制事件的調度和定時商務元數據商務術語和定義、數據擁有者信息、收費政策等元數據的使用元數

50、據與數據一起,構成了數據倉庫中的數據模型,元數據所描述的更多的是這個模型的結構方面的信息。在數據倉庫中,元數據的主要用途包括:用作目錄,幫助決策支持系統(tǒng)分析者對數據倉庫的內容定義作為數據倉庫和操作性數據庫之間進行數據轉換時的映射標準用于指導當前細節(jié)數據和稍加綜合的數據之間的匯總算法,指導稍加綜合的數據和高度綜合的數據之間的匯總算法。數據倉庫后端工具和程序數據倉庫后端工具主要指的是用來裝入和刷新數據的工具,包括:數據提?。簭亩鄠€外部的異構

51、數據源收集數據數據清理檢測數據種的錯誤并作可能的訂正數據變換將數據由歷史或主機的格式轉化為數據倉庫的格式裝載排序、匯總、合并、計算視圖,檢查完整性,并建立索引和分區(qū)刷新將數據源的更新傳播到數據倉庫中數據倉庫的應用數據倉庫的三種應用信息處理支持查詢和基本的統(tǒng)計分析,并使用交叉表、表、圖標和圖進行報表處理分析處理對數據倉庫中的數據進行多維數據分析支持基本的OLAP操作,切塊、切片、上卷、下鉆、轉軸等數據挖掘從隱藏模式中發(fā)現(xiàn)知識支持關聯(lián)分析,

52、構建分析性模型,分類和預測,并用可視化工具呈現(xiàn)挖掘的結果三種應用間的差別從聯(lián)機分析處理到聯(lián)機分析挖掘為什么要聯(lián)機分析挖掘數據倉庫中有高質量的數據數據倉庫中存放著整合的、一致的、清理過的數據圍繞數據倉庫的信息處理結構存取、集成、合并多個異種數據庫的轉換,ODBCOLEDB連接Web訪問和訪問工具等基于OLAP的探測式數據分析使用上卷、下鉆、切片、轉軸等技術進行數據挖掘數據挖掘功能的聯(lián)機選擇多種數據挖掘功能、算法和任務的整合聯(lián)機分析挖掘的體

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論