Chapter 4 Classification
何謂「Classification」?
所謂的「Classification」就是把一個未分類的物件分派到已經定義的類別其中之一。這是一個很普遍的問題,包含了各式各樣的應用。
第四章總共分成七小節,重要的部分只有前六小節。
4-1 Preliminaries 初步
Def 4.1 Classification
Classification is the task of learning a target function f that maps each attribute set x to one of the predefined class labels y.
分類就是去學習一個目標函數f,把每一個屬性集合x對應到預先標好的類別y.
Descriptive Modeling
一個Classification model 可以當作辨別的工具用來分辨不同類別的物件。
Predictive Modeling
一個Classification model也可以用來去預測一個未知物件的類別。
分類技術
很適合用來預測或是描述那些可以分成binary或是nomial類別的資料集合,但對於那些有順序(ordinal) 的類別,分類效果就會顯的不彰。為什麼呢?例如:你要把一個人分成高、中以及低收入戶其中之一,你很難去判定那些類別的界線何在。所以這章主要是focus 在binary 或是 nominal class label.
4-1 簡單結束了,休息一下,再進入4-2…..
4-2 General Approach to Solving a Classification Probelm 解決分類問題的一般方法
這小節對於解決分類問題作了一個簡單概要的介紹,分類器就是從輸入資料集合中去建立分類Models的系統方法,例如:決策分類樹(Decision tree classifier)、rule-based classifier、類神經網路(Neural network)、SVM(Support Vector Machine) 以及 naive Bayes classifier。
每一個技術都利用學習演算法去找到一個model最適合屬性集合以及輸入資料的Class label。因此,學習演算法的最重要一點就是要建立一個擁有generalization capability的model,簡單的說,就是這些model可以正確的去預測一個未知物件的class label。
圖片出自於Pang的Introdution to Data mining
上圖可以看到整個流程就是利用學習演算法以及Training Set建立出一個Learn Model,然後再把這些Models應用到Test Set上。
一個分類model 的效能如何評估呢?就是依照測試資料被預測出來的正確個數以及不正確個數來評斷。這些個數一般都是以下圖的形式表示。
Predicted Class | |||
Class =1 | Class=0 | ||
Actual Class |
Class =1 | f11 | f10 |
Class =0 | f01 | f00 |
在confusion matrix中,f11代表的就是真實類別為1,而被預測成類別1的個數,f01代表真實類別為1,而被預測成類別2的個數,以此類推。
另外我們也會算Accuracy,
Accuracy=正確預測的個數/全部預測的個數=(f11+f00)/(f11+f10+f01+f00)
那相對的,我們也會算Error rate,
Error rate=錯誤預測的個數/全部預測的個數=(f10+f01)/(f11+f10+f01+f00)
很多分類演算法都是在追求很高的Accuracy或是很低的Error rate,在4-5我們還會聊到其他的評估方式。
4-2 到此結束。乎!又可以休息了….