Introduction to Data mining 4-1~4-2

Chapter 4 Classification

何謂「Classification」？

所謂的「Classification」就是把一個未分類的物件分派到已經定義的類別其中之一。這是一個很普遍的問題，包含了各式各樣的應用。

第四章總共分成七小節，重要的部分只有前六小節。

4-1 Preliminaries 初步

Def 4.1 Classification

Classification is the task of learning a target function f that maps each attribute set x to one of the predefined class labels y.

分類就是去學習一個目標函數f，把每一個屬性集合x對應到預先標好的類別y.

Descriptive Modeling

一個Classification model 可以當作辨別的工具用來分辨不同類別的物件。

Predictive Modeling

一個Classification model也可以用來去預測一個未知物件的類別。

分類技術

很適合用來預測或是描述那些可以分成binary或是nomial類別的資料集合，但對於那些有順序(ordinal) 的類別，分類效果就會顯的不彰。為什麼呢？例如：你要把一個人分成高、中以及低收入戶其中之一，你很難去判定那些類別的界線何在。所以這章主要是focus 在binary 或是 nominal class label.

4-1 簡單結束了，休息一下，再進入4-2…..

4-2 General Approach to Solving a Classification Probelm 解決分類問題的一般方法

這小節對於解決分類問題作了一個簡單概要的介紹，分類器就是從輸入資料集合中去建立分類Models的系統方法，例如：決策分類樹(Decision tree classifier)、rule-based classifier、類神經網路(Neural network)、SVM(Support Vector Machine) 以及 naive Bayes classifier。

每一個技術都利用學習演算法去找到一個model最適合屬性集合以及輸入資料的Class label。因此，學習演算法的最重要一點就是要建立一個擁有generalization capability的model，簡單的說，就是這些model可以正確的去預測一個未知物件的class label。

圖片出自於Pang的Introdution to Data mining

上圖可以看到整個流程就是利用學習演算法以及Training Set建立出一個Learn Model，然後再把這些Models應用到Test Set上。

一個分類model 的效能如何評估呢？就是依照測試資料被預測出來的正確個數以及不正確個數來評斷。這些個數一般都是以下圖的形式表示。

Confusion matrix
		Predicted Class
		Class =1	Class=0
Actual Class	Class =1	f11	f10
Actual Class	Class =0	f01	f00

在confusion matrix中，f11代表的就是真實類別為1，而被預測成類別1的個數，f01代表真實類別為1，而被預測成類別2的個數，以此類推。

另外我們也會算Accuracy，

Accuracy=正確預測的個數/全部預測的個數＝(f11+f00)/(f11+f10+f01+f00)

那相對的，我們也會算Error rate，

Error rate=錯誤預測的個數/全部預測的個數=(f10+f01)/(f11+f10+f01+f00)

很多分類演算法都是在追求很高的Accuracy或是很低的Error rate，在4-5我們還會聊到其他的評估方式。

4-2 到此結束。乎！又可以休息了….

Leave a Reply Cancel reply