數(shù)據(jù)挖掘系統(tǒng)ppt下載

素材大�。�: 2.4 MB

素材授權：: 免費下載

素材格式：: .ppt

素材上傳：: lipeier

上傳時間：: 2019-03-17

素材編號：: 226301

素材類別：: 課件PPT

素材預覽

這是數(shù)據(jù)挖掘系統(tǒng)ppt，包括了數(shù)據(jù)挖掘概述，數(shù)據(jù)預處理，數(shù)據(jù)挖掘算法－分類與預測，數(shù)據(jù)挖掘算法－聚類，數(shù)據(jù)挖掘算法－關聯(lián)分析，序列模式挖掘，數(shù)據(jù)挖掘軟件，數(shù)據(jù)挖掘應用等內容，歡迎點擊下載。

數(shù)據(jù)挖掘系統(tǒng)ppt是由紅軟PPT免費下載網推薦的一款課件PPT類型的PowerPoint.

自動化前沿第四講數(shù)據(jù)挖掘技術及其應用宋執(zhí)環(huán) 浙江大學工業(yè)控制研究所主要內容數(shù)據(jù)挖掘概述數(shù)據(jù)預處理數(shù)據(jù)挖掘算法－分類與預測數(shù)據(jù)挖掘算法－聚類數(shù)據(jù)挖掘算法－關聯(lián)分析序列模式挖掘數(shù)據(jù)挖掘軟件數(shù)據(jù)挖掘應用一、數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘--從大量數(shù)據(jù)中尋找其規(guī)律的技術，是統(tǒng)計學、數(shù)據(jù)庫技術和人工智能技術的綜合。數(shù)據(jù)挖掘是從數(shù)據(jù)中自動地抽取模式、關聯(lián)、變化、異常和有意義的結構；數(shù)據(jù)挖掘大部分的價值在于利用數(shù)據(jù)挖掘技術改善預測模型。數(shù)據(jù)挖掘與KDD 知識發(fā)現(xiàn)（KD）輸出的是規(guī)則數(shù)據(jù)挖掘（DM）輸出的是模型共同點兩種方法輸入的都是學習集（learning sets）目的都是盡可能多的自動化數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘過程并不能完全自動化，只能半自動化異常檢測異常檢測是數(shù)據(jù)挖掘中一個重要方面，用來發(fā)現(xiàn)”小的模式”(相對于聚類)，即數(shù)據(jù)集中間顯著不同于其它數(shù)據(jù)的對象。異常探測應用電信和信用卡欺騙貸款審批藥物研究氣象預報金融領域客戶分類網絡入侵檢測故障檢測與診斷等什么是異常（outlier）？ Hawkins(1980)給出了異常的本質性的定義：異常是在數(shù)據(jù)集中與眾不同的數(shù)據(jù)，使人懷疑這些數(shù)據(jù)并非隨機偏差，而是產生于完全不同的機制。聚類算法對異常的定義：異常是聚類嵌于其中的背景噪聲。異常檢測算法對異常的定義：異常是既不屬于聚類也不屬于背景噪聲的點。他們的行為與正常的行為有很大不同。異常檢測方法的分類基于統(tǒng)計（statistical-based)的方法基于距離 (distance-based)的方法基于偏差(deviation-based)的方法基于密度(density-based)的方法高維數(shù)據(jù)的異常探測數(shù)據(jù)挖掘系統(tǒng)的特征數(shù)據(jù)的特征知識的特征算法的特征數(shù)據(jù)的特征大容量 POS數(shù)據(jù)（某個超市每天要處理高達2000萬筆交易）衛(wèi)星圖象（NASA的地球觀測衛(wèi)星以每小時50GB的速度發(fā)回數(shù)據(jù)）互聯(lián)網數(shù)據(jù) 含噪音（不完全、不正確）異質數(shù)據(jù)（多種數(shù)據(jù)類型混合的數(shù)據(jù)源，來自互聯(lián)網的數(shù)據(jù)是典型的例子）系統(tǒng)的特征知識發(fā)現(xiàn)系統(tǒng)需要一個前處理過程數(shù)據(jù)抽取數(shù)據(jù)清洗數(shù)據(jù)選擇數(shù)據(jù)轉換知識發(fā)現(xiàn)系統(tǒng)是一個自動/半自動過程知識發(fā)現(xiàn)系統(tǒng)要有很好的性能知識（模式）的特征知識發(fā)現(xiàn)系統(tǒng)能夠發(fā)現(xiàn)什么知識？計算學習理論COLT（Computational Learning Theory）以FOL為基礎的以發(fā)現(xiàn)關系為目的的歸納邏輯程序設計現(xiàn)行的知識發(fā)現(xiàn)系統(tǒng)只能發(fā)現(xiàn)特定模式的知識規(guī)則分類關聯(lián) 知識表示：規(guī)則 IF 條件 THEN 結論條件和結論的粒度（抽象度）可以有多種單值區(qū)間模糊值規(guī)則可以有確信度精確規(guī)則概率規(guī)則知識表示：分類樹數(shù)據(jù)挖掘算法的特征構成數(shù)據(jù)挖掘算法的三要素模式記述語言：反映了算法可以發(fā)現(xiàn)什么樣的知識模式評價：反映了什么樣的模式可以稱為知識模式探索：包括針對某一特定模式對參數(shù)空間的探索和對模式空間的探索數(shù)據(jù)挖掘的主要方法分類（Classification）聚類(Clustering) 相關規(guī)則(Association Rule) 回歸(Regression) 其他數(shù)據(jù)挖掘系統(tǒng) 數(shù)據(jù)挖掘系統(tǒng) 第一代數(shù)據(jù)挖掘系統(tǒng) 支持一個或少數(shù)幾個數(shù)據(jù)挖掘算法，這些算法設計用來挖掘向量數(shù)據(jù)（vector-valued data），這些數(shù)據(jù)模型在挖掘時候，一般一次性調進內存進行處理。許多這樣的系統(tǒng)已經商業(yè)化。第二代數(shù)據(jù)挖掘系統(tǒng) 目前的研究，是改善第一代數(shù)據(jù)挖掘系統(tǒng)，開發(fā)第二代數(shù)據(jù)挖掘系統(tǒng)。第二代數(shù)據(jù)挖掘系統(tǒng)支持數(shù)據(jù)庫和數(shù)據(jù)倉庫，和它們具有高性能的接口，具有高的可擴展性。例如，第二代系統(tǒng)能夠挖掘大數(shù)據(jù)集、更復雜的數(shù)據(jù)集、以及高維數(shù)據(jù)。這一代系統(tǒng)通過支持數(shù)據(jù)挖掘模式（data mining schema）和數(shù)據(jù)挖掘查詢語言（DMQL）增加系統(tǒng)的靈活性。數(shù)據(jù)挖掘系統(tǒng) 第三代數(shù)據(jù)挖掘系統(tǒng) 第三代的特征是能夠挖掘Internet/Extranet的分布式和高度異質的數(shù)據(jù)，并且能夠有效地和操作型系統(tǒng)集成。這一代數(shù)據(jù)挖掘系統(tǒng)關鍵的技術之一是提供對建立在異質系統(tǒng)上的多個預言模型以及管理這些預言模型的元數(shù)據(jù)提供第一級別（first class）的支持。第四代數(shù)據(jù)挖掘系統(tǒng) 第四代數(shù)據(jù)挖掘系統(tǒng)能夠挖掘嵌入式系統(tǒng)、移動系統(tǒng)、和普遍存在（ubiquitous）計算設備產生的各種類型的數(shù)據(jù) 。二、數(shù)據(jù)預處理為什么需要預處理數(shù)據(jù) 不完整含觀測噪聲不一致包含其它不希望的成分數(shù)據(jù)清理通過填寫空缺值，平滑噪聲數(shù)據(jù)，識別刪除孤立點，并解決不一致來清理數(shù)據(jù)。污染數(shù)據(jù)形成的原因濫用縮寫詞數(shù)據(jù)輸入錯誤數(shù)據(jù)中的內嵌控制信息不同的慣用語重復記錄丟失值拼寫變化不同的計量單位過時的編碼含有各種噪聲數(shù)據(jù)清理的重要性污染數(shù)據(jù)的普遍存在，使得在大型數(shù)據(jù)庫中維護數(shù)據(jù)的正確性和一致性成為一個及其困難的任務。垃圾進、垃圾出數(shù)據(jù)清理處理內容格式標準化異常數(shù)據(jù)清除錯誤糾正重復數(shù)據(jù)的清除數(shù)據(jù)規(guī)約數(shù)據(jù)集的壓縮表示，但是能和原始數(shù)據(jù)集達到相同或基本相同的分析結果主要策略: 數(shù)據(jù)聚集維規(guī)約數(shù)據(jù)壓縮數(shù)值規(guī)約空缺值忽略元組人工填寫空缺值使用固定值使用屬性平均值使用最有可能值噪聲數(shù)據(jù) 如何平滑數(shù)據(jù)，去掉噪聲數(shù)據(jù)平滑技術分箱聚類計算機和人工檢查相結合回歸分箱箱的深度：表示不同的箱里有相同個數(shù)的數(shù)據(jù)。箱的寬度：每個箱值的取值區(qū)間是個常數(shù)。平滑方法: 按箱平均值平滑按箱中值平滑按箱邊界值平滑聚類每個簇中的數(shù)據(jù)用其中心值代替忽略孤立點先通過聚類等方法找出孤立點。這些孤立點可能包含有用的信息。人工再審查這些孤立點回歸通過構造函數(shù)來符合數(shù)據(jù)變化的趨勢，這樣可以用一個變量預測另一個變量。線性回歸多線性回歸數(shù)據(jù)集成將多個數(shù)據(jù)源中的數(shù)據(jù)結合起來存放在一個一直得數(shù)據(jù)存貯中。實體識別實體和模式的匹配冗余：某個屬性可以由別的屬性推出。相關分析相關性rA，B . rA，B>0，正相關。A隨B的值得增大而增大 rA，B>0，正相關。AB無關 rA，B>0，正相關。A隨B的值得增大而減少重復同一數(shù)據(jù)存儲多次數(shù)據(jù)值沖突的檢測和處理數(shù)據(jù)變換平滑聚集數(shù)據(jù)概化規(guī)范化屬性構造(特征構造) 最小最大規(guī)范化小數(shù)定標規(guī)范化屬性構造由給定的屬性構造和添加新的屬性，以幫助提高精度和對高維數(shù)據(jù)結構的理解數(shù)據(jù)立方體聚集尋找感興趣的維度進行再聚集維規(guī)約刪除不相關的屬性（維）來減少數(shù)據(jù)量。屬性子集選擇找出最小屬性集合，使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性的原分布如何選��？貪心算法逐步向前選擇逐步后向刪除向前選擇和后向刪除相結合判定樹歸納數(shù)據(jù)壓縮有損，無損小波變換將數(shù)據(jù)向量D轉換成為數(shù)值上不同的小波系數(shù)的向量D’. 對D’進行剪裁，保留小波系數(shù)最強的部分。數(shù)值規(guī)約回歸和對數(shù)線形模型線形回歸對數(shù)線形模型直方圖等寬等深 V-最優(yōu) maxDiff 數(shù)值規(guī)約聚類多維索引樹：對于給定的數(shù)據(jù)集合，索引樹動態(tài)的劃分多維空間。選樣簡單選擇n個樣本，不放回簡單選擇n個樣本，放回聚類選樣分層選樣離散化和概念分層離散化技術用來減少給定連續(xù)屬性的個數(shù) 通常是遞歸的。大量時間花在排序上。對于給定的數(shù)值屬性，概念分層定義了該屬性的一個離散化的值。分箱直方圖分析數(shù)值數(shù)據(jù)離散化聚類分析基于熵的離散化通過自然劃分分段 3-4-5規(guī)則如果一個區(qū)間最高有效位上包括3 6 9 個不同的值，劃分為3個等寬區(qū)間。 7個不同值，按2-3-3劃分為3個區(qū)間最高位包含2，4，8個不同值，劃分為4個等寬區(qū)間最高位包含1 ，5，10個不同值，劃分為5個等寬區(qū)間最高分層一般在第5個百分位到第95個百分位上進行分類數(shù)據(jù)的概念分層生成分類數(shù)據(jù)是離散數(shù)據(jù)。一個分類屬性可能有有限個不同的值。方法由用戶和專家在模式級顯式的說明屬性的部分序通過顯式的數(shù)據(jù)分組說明分層結構的一部分說明屬性集，但不說明他們的偏序只說明部分的屬性集三、數(shù)據(jù)挖掘算法－分類與預測分類 VS. 預測分類：預測分類標號（或離散值）根據(jù)訓練數(shù)據(jù)集和類標號屬性，構建模型來分類現(xiàn)有數(shù)據(jù)，并用來分類新數(shù)據(jù) 預測：建立連續(xù)函數(shù)值模型，比如預測空缺值典型應用信譽證實目標市場醫(yī)療診斷性能預測數(shù)據(jù)分類：兩步過程第一步，建立一個模型，描述預定數(shù)據(jù)類集和概念集假定每個元組屬于一個預定義的類，由一個類標號屬性確定基本概念訓練數(shù)據(jù)集：由為建立模型而被分析的數(shù)據(jù)元組形成訓練樣本：訓練數(shù)據(jù)集中的單個樣本（元組）學習模型可以用分類規(guī)則、判定樹或數(shù)學公式的形式提供第二步，使用模型，對將來的或未知的對象進行分類首先評估模型的預測準確率對每個測試樣本，將已知的類標號和該樣本的學習模型類預測比較模型在給定測試集上的準確率是正確被模型分類的測試樣本的百分比測試集要獨立于訓練樣本集，否則會出現(xiàn)“過分適應數(shù)據(jù)”的情況第一步：建立模型第二步：用模型進行分類準備分類和預測的數(shù)據(jù) 通過對數(shù)據(jù)進行預處理，可以提高分類和預測過程的準確性、有效性和可伸縮性數(shù)據(jù)清理消除或減少噪聲，處理空缺值，從而減少學習時的混亂相關性分析數(shù)據(jù)中的有些屬性可能與當前任務不相關；也有些屬性可能是冗余的；刪除這些屬性可以加快學習步驟，使學習結果更精確數(shù)據(jù)變換可以將數(shù)據(jù)概化到較高層概念，或將數(shù)據(jù)進行規(guī)范化比較分類方法使用下列標準比較分類和預測方法預測的準確率：模型正確預測新數(shù)據(jù)的類編號的能力速度：產生和使用模型的計算花銷魯棒性：給定噪聲數(shù)據(jù)或有空缺值的數(shù)據(jù)，模型正確預測的能力可伸縮性：對大量數(shù)據(jù)，有效的構建模型的能力可解釋性：學習模型提供的理解和洞察的層次用判定樹歸納分類什么是判定樹？類似于流程圖的樹結構每個內部節(jié)點表示在一個屬性上的測試每個分枝代表一個測試輸出每個樹葉節(jié)點代表類或類分布判定樹的生成由兩個階段組成判定樹構建開始時，所有的訓練樣本都在根節(jié)點遞歸的通過選定的屬性，來劃分樣本（必須是離散值）樹剪枝許多分枝反映的是訓練數(shù)據(jù)中的噪聲和孤立點，樹剪枝試圖檢測和剪去這種分枝判定樹的使用：對未知樣本進行分類通過將樣本的屬性值與判定樹相比較判定歸納樹算法判定歸納樹算法（一個貪心算法）自頂向下的分治方式構造判定樹樹以代表訓練樣本的單個根節(jié)點開始使用分類屬性（如果是量化屬性，則需先進行離散化）遞歸的通過選擇相應的測試屬性，來劃分樣本，一旦一個屬性出現(xiàn)在一個節(jié)點上，就不在該節(jié)點的任何后代上出現(xiàn) 測試屬性是根據(jù)某種啟發(fā)信息或者是統(tǒng)計信息來進行選擇（如：信息增益）遞歸劃分步驟停止的條件給定節(jié)點的所有樣本屬于同一類沒有剩余屬性可以用來進一步劃分樣本——使用多數(shù)表決沒有剩余的樣本貝葉斯分類貝葉斯分類利用統(tǒng)計學中的貝葉斯定理，來預測類成員的概率，即給定一個樣本，計算該樣本屬于一個特定的類的概率。樸素貝葉斯分類：假設每個屬性之間都是相互獨立的，并且每個屬性對非類問題產生的影響都是一樣的。后向傳播分類后向傳播是一種神經網絡學習算法；神經網絡是一組連接的輸入/輸出單元，每個連接都與一個權相連。在學習階段，通過調整神經網絡的權，使得能夠預測輸入樣本的正確標號來學習。優(yōu)點預測精度總的來說較高健壯性好，訓練樣本中包含錯誤時也可正常工作輸出可能是離散值、連續(xù)值或者是離散或量化屬性的向量值對目標進行分類較快缺點訓練（學習）時間長蘊涵在學習的權中的符號含義很難理解很難根專業(yè)領域知識相整合其他分類方法 k-最臨近分類給定一個未知樣本，k-最臨近分類法搜索模式空間，找出最接近未知樣本的k個訓練樣本；然后使用k個最臨近者中最公共的類來預測當前樣本的類標號基于案例的推理樣本或案例使用復雜的符號表示，對于新案例，先檢測是否存在同樣的訓練案例；如果找不到，則搜索類似的訓練案例遺傳算法結合生物進化思想的算法粗糙集方法模糊集方法允許在分類規(guī)則中定義“模糊的”臨界值或邊界什么是預測？預測是構造和使用模型評估無樣本類，或評估給定樣本可能具有的屬性或值空間。預測和分類的異同相同點兩者都需要構建模型都用模型來估計未知值預測當中主要的估計方法是回歸分析線性回歸和多元回歸非線性回歸不同點分類法主要是用來預測類標號（分類屬性值）預測法主要是用來估計連續(xù)值（量化屬性值）回歸方法線性回歸：Y =  +  X 其中和是回歸系數(shù)，可以根據(jù)給定的數(shù)據(jù)點，通過最小二乘法來求得多元回歸：Y =  + 1X1 + 2 X2 線性回歸的擴展，設計多個預測變量，可以用最小二乘法求得上式中的，1 和2 非線性回歸：Y =  + 1X1 + 2 X22+ 3 X33 對不呈線性依賴的數(shù)據(jù)建模使用多項式回歸建模方法，然后進行變量變換，將非線性模型轉換為線性模型，然后用最小二乘法求解評估分類法的準確性導出分類法后，再使用訓練數(shù)據(jù)評估分類法，可能錯誤的導致樂觀的估計保持方法給定數(shù)據(jù)隨機劃分為兩個集合：訓練集(2/3)和測試集(1/3) 訓練集導出分類法，測試集對其準確性進行評估隨機子選樣：保持方法的一個變形，將保持方法重復k次，然后取準確率的平均值 k-折交叉確認初始數(shù)據(jù)被劃分為k個不相交的，大小大致相同的子集S1，S2…Sk 進行k次訓練和測試，第i次時，以Si做測試集，其他做訓練集準確率為k次迭代正確分類數(shù)除以初始數(shù)據(jù)集樣本總數(shù) 提高分類法的準確性 Bagging技術和boosting技術都通過將T個學習得到的分類法C1，C2…CT組合起來，從而創(chuàng)造一個改進的分類法C* Bagging技術對訓練集S進行T次迭代，每次通過放回取樣選取樣本集St，通過學習St得到分類法Ct 對于未知樣本X，每個分類法返回其類預測，作為一票 C*統(tǒng)計得票，并將得票最高的預測賦予X Boosting技術每個訓練樣本賦予一個權值 Ct的權值取決于其錯誤率四、數(shù)據(jù)挖掘算法－聚類聚類分析什么是聚類分析? 聚類分析中的數(shù)據(jù)類型主要聚類分析方法分類劃分方法（Partitioning Methods）分層方法基于密度的方法基于表格的方法基于模型（Model-Based）的聚類方法異常分析總結什么是聚類分析? 簇（Cluster）:一個數(shù)據(jù)對象的集合在同一個類中，對象之間0具有相似性；不同類的對象之間是相異的。聚類分析把一個給定的數(shù)據(jù)對象集合分成不同的簇；聚類是一種無監(jiān)督分類法: 沒有預先指定的類別；典型的應用作為一個獨立的分析工具，用于了解數(shù)據(jù)的分布；作為其它算法的一個數(shù)據(jù)預處理步驟；聚類的常規(guī)應用模式識別空間數(shù)據(jù)分析在GIS中，通過聚類發(fā)現(xiàn)特征空間來建立主題索引；在空間數(shù)據(jù)挖掘中，檢測并解釋空間中的簇；圖象處理經濟學 (尤其是市場研究方面) WWW 文檔分類分析WEB日志數(shù)據(jù)來發(fā)現(xiàn)相似的訪問模式應用聚類分析的例子市場銷售: 幫助市場人員發(fā)現(xiàn)客戶中的不同群體，然后用這些知識來開展一個目標明確的市場計劃；土地使用: 在一個陸地觀察數(shù)據(jù)庫中標識那些土地使用相似的地區(qū)；保險: 對購買了汽車保險的客戶，標識那些有較高平均賠償成本的客戶；城市規(guī)劃: 根據(jù)類型、價格、地理位置等來劃分不同類型的住宅；地震研究: 根據(jù)地質斷層的特點把已觀察到的地震中心分成不同的類；聚類方法性能評價一個好的聚類方法要能產生高質量的聚類結果——簇，這些簇要具備以下兩個特點：高的簇內相似性低的簇間相似性聚類結果的好壞取決于該聚類方法采用的相似性評估方法以及該方法的具體實現(xiàn)；聚類方法的好壞還取決與該方法是能發(fā)現(xiàn)某些還是所有的隱含模式；聚類方法性能評價可伸縮性能夠處理不同類型的屬性能發(fā)現(xiàn)任意形狀的簇在決定輸入參數(shù)的時候，盡量不需要特定的領域知識；能夠處理噪聲和異常對輸入數(shù)據(jù)對象的順序不敏感能處理高維數(shù)據(jù) 能產生一個好的、能滿足用戶指定約束的聚類結果結果是可解釋的、可理解的和可用的兩種數(shù)據(jù)結構數(shù)據(jù)矩陣 (two modes) 差異度矩陣 (one mode) 評價聚類質量差異度/相似度矩陣: 相似度通常用距離函數(shù)來表示；有一個單獨的質量評估函數(shù)來評判一個簇的好壞；對不同類型的變量，距離函數(shù)的定義通常是不同的，這在下面有詳細討論；根據(jù)實際的應用和數(shù)據(jù)的語義，在計算距離的時候，不同的變量有不同的權值相聯(lián)系；很難定義“足夠相似了”或者“足夠好了” 只能憑主觀確定；聚類分析中的數(shù)據(jù)類型區(qū)間標度變量（Interval-scaled variables）: 二元變量（Binary variables）: 標稱型，序數(shù)型和比例型變量（Nominal， ordinal， and ratio variables）: 混合類型變量（Variables of mixed types）: 區(qū)間標度變量數(shù)據(jù)標準化計算絕對偏差的平均值: 其中計算標準度量值 (z-score) 使用絕對偏差的平均值比使用標準偏差更健壯（robust）計算對象之間的相異度通常使用距離來衡量兩個對象之間的相異度。常用的距離度量方法有: 明考斯基距離（ Minkowski distance）: 其中 i = (xi1， xi2， …， xip) 和 j = (xj1， xj2， …， xjp) 是兩個p維的數(shù)據(jù)對象， q是一個正整數(shù)。當q = 1時， d 稱為曼哈坦距離（ Manhattan distance）計算對象之間的相異度當q=2時， d 就成為歐幾里德距離: 距離函數(shù)有如下特性： d(i，j)  0 d(i，i) = 0 d(i，j) = d(j，i) d(i，j)  d(i，k) + d(k，j) 可以根據(jù)每個變量的重要性賦予一個權重序數(shù)型變量一個序數(shù)型變量可以是離散的也可以是連續(xù)的離散的序數(shù)型變量類似于標稱變量，除了它的M個狀態(tài)是以有意義的序列排序的，比如職稱連續(xù)的序數(shù)型變量類似于區(qū)間標度變量，但是它沒有單位，值的相對順序是必要的，而其實際大小并不重要。序數(shù)型變量相異度的計算與區(qū)間標度變量的計算方法相類似將xif 用它對應的秩代替將每個變量的值域映射到[0.0，1.0]上，使得每個變量都有相同的權重。這通過用zif來替代rif來實現(xiàn) 用前面所述的區(qū)間標度變量的任一種距離計算方法來計算比例標度型變量比例標度型變量（Ratio-scaled variable） : 總是取正的度量值，有一個非線性的標度，近似的遵循指數(shù)標度，比如 AeBt or Ae-Bt 計算相異度的方法: 采用與處理區(qū)間標度變量相同的方法 — 不是一個好的選擇進行對數(shù)變換，對變換得到的值在采用與處理區(qū)間標度變量相同的方法 yif = log(xif) 將其作為連續(xù)的序數(shù)型數(shù)據(jù)，將其秩作為區(qū)間標度的值來對待。混合類型的變量一個數(shù)據(jù)庫可能包含了所有這6中類型的變量用以下公式計算對象i，j之間的相異度. 其中，p為對象中的變量個數(shù) 如果xif或xjf 缺失（即對象i或對象j沒有變量f的值），或者xif = xjf =0，且變量f是不對稱的二元變量，則指示項δij(f)=0；否則δij(f)=1 混合類型的變量 f 是二元變量或標稱變量: if xif = xjf dij(f) = 0， else dij(f) = 1 f 是區(qū)間標度變量: dij(f) = | xif-xjf |/maxhxhf-minhxhf 其中h遍取變量f的所有非空缺對象 f 是序數(shù)型或比例標度型計算秩 rif 計算 zif并將其作為區(qū)間標度變量值對待主要聚類方法 Partitioning algorithms: Construct various partitions and then evaluate them by some criterion Hierarchy algorithms: Create a hierarchical decomposition of the set of data (or objects) using some criterion Density-based: based on connectivity and density functions Grid-based: based on a multiple-level granularity structure Model-based: A model is hypothesized for each of the clusters and the idea is to find the best fit of that model to each other 五、數(shù)據(jù)挖掘算法－關聯(lián) 什么是關聯(lián)挖掘? 關聯(lián)規(guī)則：基本概念規(guī)則度量：支持度與可信度關聯(lián)規(guī)則挖掘：路線圖關聯(lián)規(guī)則挖掘—一個例子關鍵步驟：挖掘頻繁集多層關聯(lián)規(guī)則項通常具有層次底層的項通常支持度也低某些特定層的規(guī)則可能更有意義交易數(shù)據(jù)庫可以按照維或層編碼可以進行共享的多維挖掘挖掘多層關聯(lián)規(guī)則自上而下，深度優(yōu)先的方法：先找高層的“強”規(guī)則：牛奶 ® 面包 [20%， 60%]. 再找他們底層的“弱”規(guī)則：酸奶 ® 黃面包 [6%， 50%]. 多層關聯(lián)規(guī)則的變種層次交叉的關聯(lián)規(guī)則：酸奶 ® 面包房黃面包不同種分層方法間的關聯(lián)規(guī)則：酸奶 ® 面包房面包多層關聯(lián)規(guī)則支持度不變: 在各層之間使用統(tǒng)一的支持度 + 一個最小支持度閾值. 如果一個項集的父項集不具有最小支持度，那他本身也不可能滿足最小支持度。 – 底層項不會成為頻繁集，如果支持度太高  丟失底層關聯(lián)規(guī)則太低  生成太多的高層關聯(lián)規(guī)則支持度遞減: 隨著層次的降低支持度遞減 4種搜索策略：層與層獨立用k-項集跨層過濾用項跨層過濾用項進行可控跨層過濾支持度不變支持度遞減多層關聯(lián)：冗余過濾由于“祖先”關系的原因，有些規(guī)則可能是多余的。例子牛奶  白面包 [support = 8%， confidence = 70%] 酸奶  白面包 [support = 2%， confidence = 72%] 我們稱第一個規(guī)則是第二個規(guī)則的祖先參考規(guī)則的祖先，如果他的支持度與我們“預期”的支持度近似的話，我們就說這條規(guī)則是冗余的。多層挖掘：深度優(yōu)先自頂向下，深度優(yōu)先的方法：先挖掘高層頻繁項：牛奶 (15%)，面包 (10%) 再挖掘他們底層的相對較弱的頻繁項：酸奶 (5%)，白面包 (4%) 跨層時對支持度的不同處理方法，對應了不同的算法: 層之間支持度不變：如果t的祖先是非頻繁的，則不用考慮t 支持度隨層遞減：則只考慮那些其祖先是頻繁的/不可忽略的項數(shù)據(jù)挖掘查詢的逐步精化為什么要逐步精化挖掘操作的代價可能高或低，結果可能細致或粗糙在速度和質量之間折衷：逐步精化超集覆蓋特征：預存儲所有正面答案—允許進一步正確性驗證，而不必驗證已經錯誤的 2或多步挖掘：先執(zhí)行粗糙的、容易的操作 (超集覆蓋) 然后在減少后的候選集上進行計算量大的算法 (Koperski & Han， SSD’95). 逐步求精空間關聯(lián)規(guī)則挖掘逐步求精空間關聯(lián)規(guī)則挖掘空間關聯(lián)規(guī)則的兩步算法：步驟 1: 粗糙空間計算 (用于過濾) 用 MBR 或 R-tree 做粗糙估計步驟 2: 細致空間算法 (用于精化) 只計算已經通過空間計算的對象多維關聯(lián)規(guī)則：概念單維規(guī)則： buys(X， “milk”)  buys(X， “bread”) 多維規(guī)則： 2個以上維/謂詞維間關聯(lián)規(guī)則 (維詞不重復) age(X，”19-25”)  occupation(X，“student”)  buys(X，“coke”) 混合維關聯(lián)規(guī)則 (維詞重復) age(X，”19-25”)  buys(X， “popcorn”)  buys(X， “coke”) 類別屬性有限個值，值之間無順序關系數(shù)量屬性數(shù)字的，值之間隱含了順序關系挖掘多維關聯(lián)的技術搜索頻繁k-維詞集合：如: {age， occupation， buys} 是一個3-維詞集合。按照對 age 處理方式的不同，分為： 1. 用靜態(tài)方法把數(shù)值屬性離散化數(shù)值屬性可用預定義的概念層次加以離散化。 2. 帶數(shù)量的關聯(lián)規(guī)則根據(jù)數(shù)據(jù)的分布動態(tài)的把數(shù)值屬性離散化到不同的“箱”。 3. 基于距離的關聯(lián)規(guī)則用數(shù)據(jù)點之間的距離動態(tài)的離散化數(shù)值屬性的靜態(tài)離散化帶數(shù)量的關聯(lián)規(guī)則 ARCS (關聯(lián)規(guī)則聚集系統(tǒng)) ARCS 流程 1. 分箱 2. 查找頻繁維詞集合 3. 聚集 4. 優(yōu)化 ARCS的局限性基于距離的關聯(lián)規(guī)則挖掘分箱的方法沒有體現(xiàn)數(shù)據(jù)間隔的語義基于距離的分割是更有“意義”的離散化方法，考慮：區(qū)間內密度或點的個數(shù) 區(qū)間內點的“緊密程度聚集和距離度量聚集和距離度量六、序列模式挖掘序列模式概念序列模式的概念最早是由Agrawal和Srikant 提出的序列模式定義：給定一個由不同序列組成的集合，其中，每個序列由不同的元素按順序有序排列，每個元素由不同項目組成，同時給定一個用戶指定的最小支持度閾值，序列模式挖掘就是找出所有的頻繁子序列，即該子序列在序列集中的出現(xiàn)頻率不低于用戶指定的最小支持度閾值序列模式實例例1：在兩年前購買了Ford 牌轎車的顧客，很有可能在今年采取貼舊換新的購車行動例2：在購買了自行車和購物籃的所有客戶中，有70%的客戶會在兩個月后購買打氣筒例3：工業(yè)過程控制領域：過程變量采樣值時時間序列；變量之間的關系是動態(tài)的；系統(tǒng)故障模式；等等序列模式應用領域應用領域：客戶購買行為模式預測 Web訪問模式預測疾病診斷自然災害預測 DNA序列分析工業(yè)控制序列模式表示符號化表示：項目集(Itemset)是各種項目組成的集合序列(Sequence)是不同項目集(ItemSet)的有序排列，序列s可以表示為s =VSH紅軟基地

數(shù)據(jù)結構查找ppt：這是數(shù)據(jù)結構查找ppt，包括了基本概念與術語，靜態(tài)查找表，動態(tài)查找表，哈希表查找，小結與習題等內容，歡迎點擊下載。

數(shù)據(jù)結構ppt最短路徑：這是數(shù)據(jù)結構ppt最短路徑，包括了最短路徑的定義，Dijkstra算法，F(xiàn)loyd算法，F(xiàn)loyd算法——C++描述等內容，歡迎點擊下載。

數(shù)據(jù)庫答辯ppt：這是數(shù)據(jù)庫答辯ppt，包括了數(shù)據(jù)庫用戶管理和安全設置，數(shù)據(jù)庫日志、作業(yè)與警報管理，復雜數(shù)據(jù)庫備份和數(shù)據(jù)庫維護，收獲與體會等內容，歡迎點擊下載。

PPT分類Classification

久久无码高潮喷水抽搐,极品馒头泬19p,久久人人爽精品玩人妻av,精品国产成人国产在线视,精品视频一区二区三区在线观看

數(shù)據(jù)挖掘系統(tǒng)ppt下載

數(shù)據(jù)挖掘系統(tǒng)ppt

素材評分榜

素材排行榜