軟件介紹

軟件標(biāo)簽: weka 數(shù)據(jù)挖掘

weka是一款功能強(qiáng)大的數(shù)據(jù)挖掘軟件，這款軟件具有、分類、回歸、聚類、關(guān)聯(lián)分析、數(shù)據(jù)預(yù)處理、評(píng)估等特色功能，是數(shù)據(jù)挖掘分析的必備工具，需要的朋友歡迎來綠色資源網(wǎng)免費(fèi)下載使用。

weka官方介紹

Weka的全名是懷卡托智能分析環(huán)境（Waikato Environment for Knowledge Analysis），是一款免費(fèi)的，非商業(yè)化（與之對(duì)應(yīng)的是SPSS公司商業(yè)數(shù)據(jù)挖掘產(chǎn)品--Clementine ）的，基于JAVA環(huán)境下開源的機(jī)器學(xué)習(xí)（machine learning）以及數(shù)據(jù)挖掘（data mining）軟件。它和它的源代碼可在其官方網(wǎng)站下載。有趣的是，該軟件的縮寫WEKA也是New Zealand獨(dú)有的一種鳥名，而Weka的主要開發(fā)者同時(shí)恰好來自New Zealand的the University of Waikato。

weka下載

weka軟件功能介紹

原理與實(shí)現(xiàn)

聚類分析中的“類”（cluster）和前面分類的“類”（class）是不同的，對(duì)cluster更加準(zhǔn)確的翻譯應(yīng)該是“簇”。聚類的任務(wù)是把所有的實(shí)例分配到若干的簇，使得同一個(gè)簇的實(shí)例聚集在一個(gè)簇中心的周圍，它們之間距離的比較近；而不同簇實(shí)例之間的距離比較遠(yuǎn)。對(duì)于由數(shù)值型屬性刻畫的實(shí) 例來說，這個(gè)距離通常指歐氏距離。

模型應(yīng)用

現(xiàn)在我們要用生成的模型對(duì)那些待預(yù)測(cè)的數(shù)據(jù)集進(jìn)行預(yù)測(cè)了。注意待預(yù)測(cè)數(shù)據(jù)集和訓(xùn)練用數(shù)據(jù)集各個(gè)屬性的設(shè)置必須是一致的。即使你沒有待預(yù)測(cè)數(shù)據(jù)集的Class屬性的值，你也要添加這個(gè)屬性，可以將該屬性在各實(shí)例上的值均設(shè)成缺失值。

在“Test Opion”中選擇“Supplied test set”，并且“Set”成你要應(yīng)用模型的數(shù)據(jù)集，這里是“bank-new.arff”文件。

現(xiàn)在，右鍵點(diǎn)擊“Result list”中剛產(chǎn)生的那一項(xiàng)，選擇“Re-evaluate model on current test set”。右邊顯示結(jié)果的區(qū)域中會(huì)增加一些內(nèi)容，告訴你該模型應(yīng)用在這個(gè)數(shù)據(jù)集上表現(xiàn)將如何。如果你的Class屬性都是些缺失值，那這些內(nèi)容是無意義的，我們關(guān)注的是模型在新數(shù)據(jù)集上的預(yù)測(cè)值。

現(xiàn)在點(diǎn)擊右鍵菜單中的“Visualize classifier errors”，將彈出一個(gè)新窗口顯示一些有關(guān)預(yù)測(cè)誤差的散點(diǎn)圖。點(diǎn)擊這個(gè)新窗口中的“Save”按鈕，保存一個(gè)Arff文件。打開這個(gè)文件可以看到在倒數(shù)第二個(gè)位置多了一個(gè)屬性（predictedpep），這個(gè)屬性上的值就是模型對(duì)每個(gè)實(shí)例的預(yù)測(cè)值。

建模結(jié)果

OK，選上“Cross-validation”并在“Folds”框填上“10”。點(diǎn)“Start”按鈕開始讓算法生成決策樹模型。很快，用文本表示的一棵決策樹，以及對(duì)這個(gè)決策樹的誤差分析等等結(jié)果出現(xiàn)在右邊的“Classifier output”中。同時(shí)左下的“Results list”出現(xiàn)了一個(gè)項(xiàng)目顯示剛才的時(shí)間和算法名稱。如果換一個(gè)模型或者換個(gè)參數(shù)，重新“Start”一次，則“Results list”又會(huì)多出一項(xiàng)。

weka關(guān)聯(lián)規(guī)則又稱購(gòu)物欄分析

目前，WEKA的關(guān)聯(lián)規(guī)則分析功能僅能用來作示范，不適合用來挖掘大型數(shù)據(jù)集。

我們打算對(duì)前面的“bank-data”數(shù)據(jù)作關(guān)聯(lián)規(guī)則的分析。用“Explorer”打開“bank-data-final.arff”后，切換到“Associate”選項(xiàng)卡。默認(rèn)關(guān)聯(lián)規(guī)則分析是用Apriori算法，我們就用這個(gè)算法，但是點(diǎn)“Choose”右邊的文本框修改默認(rèn)的參數(shù)，彈出的窗口中點(diǎn)“More”可以看到各參數(shù)的說明。

背景知識(shí)

首先我們來溫習(xí)一下Apriori的有關(guān)知識(shí)。對(duì)于一條關(guān)聯(lián)規(guī)則L->R，我們常用支持度（Support）和置信度（Confidence）來衡量它的重要性。規(guī)則的支持度是用來估計(jì)在一個(gè)購(gòu)物欄中同時(shí)觀察到L和R的概率P(L,R)，而規(guī)則的置信度是估計(jì)購(gòu)物欄中出現(xiàn)了L時(shí)也出會(huì)現(xiàn)R的條件概率P(R|L)。關(guān)聯(lián)規(guī)則的目標(biāo)一般是產(chǎn)生支持度和置信度都較高的規(guī)則。

有幾個(gè)類似的度量代替置信度來衡量規(guī)則的關(guān)聯(lián)程度，它們分別是

Lift: P(L,R)/(P(L)P(R))

Lift=1時(shí)表示L和R獨(dú)立。這個(gè)數(shù)越大，越表明L和R存在在一個(gè)購(gòu)物欄中不是偶然現(xiàn)象。

Leverage:P(L,R)-P(L)P(R)

它和Lift的含義差不多。Leverage=0時(shí)L和R獨(dú)立，Leverage越大L和R的關(guān)系越密切。

Conviction（更不知道譯了）：P(L)P(!R)/P(L,!R) （!R表示R沒有發(fā)生）

Conviction也是用來衡量L和R的獨(dú)立性。從它和lift的關(guān)系（對(duì)R取反，代入Lift公式后求倒數(shù)）可以看出，我們也希望這個(gè)值越大越好。

值得注意的是，用Lift和Leverage作標(biāo)準(zhǔn)時(shí)，L和R是對(duì)稱的，Confidence和Conviction則不然。

參數(shù)設(shè)置

現(xiàn)在我們計(jì)劃挖掘出支持度在10%到100%之間，并且lift值超過1.5且lift值排在前100位的那些關(guān)聯(lián)規(guī)則。我們把 “l(fā)owerBoundMinSupport”和“upperBoundMinSupport”分別設(shè)為0.1和1，“metricType”設(shè)為 lift，“minMetric”設(shè)為1.5，“numRules”設(shè)為100。其他選項(xiàng)保持默認(rèn)即可?！癘K” 之后在“Explorer”中點(diǎn)擊“Start”開始運(yùn)行算法，在右邊窗口顯示數(shù)據(jù)集摘要和挖掘結(jié)果。

下面是挖掘出來的lift排前5的規(guī)則。

Best rules found:

1. age=52_max save_act=YES current_act=YES 113 ==> income=43759_max 61 conf:(0.54) < lift:(4.05)> lev:(0.08) [45] conv:(1.85)

2. income=43759_max 80 ==> age=52_max save_act=YES current_act=YES 61 conf:(0.76) < lift:(4.05)> lev:(0.08) [45] conv:(3.25)

3. income=43759_max current_act=YES 63 ==> age=52_max save_act=YES 61 conf:(0.97) < lift:(3.85)> lev:(0.08) [45] conv:(15.72)

4. age=52_max save_act=YES 151 ==> income=43759_max current_act=YES 61 conf:(0.4) < lift:(3.85)> lev:(0.08) [45] conv:(1.49)

5. age=52_max save_act=YES 151 ==> income=43759_max 76 conf:(0.5) < lift:(3.77)> lev:(0.09) [55] conv:(1.72)

對(duì)于挖掘出的每條規(guī)則，WEKA列出了它們關(guān)聯(lián)程度的四項(xiàng)指標(biāo)。

命令行方式

我們也可以利用命令行來完成挖掘任務(wù)，在“Simlpe CLI”模塊中輸入如下格式的命令：

java weka.associations.Apriori options -t directory-path"bank-data-final.arff

即可完成Apriori算法。注意，“-t”參數(shù)后的文件路徑中不能含有空格。