Introduction to Data mining 4-1~4-2

Chapter 4 Classification

何謂「Classification」?

所謂的「Classification」就是把一個未分類的物件分派到已經定義的類別其中之一。這是一個很普遍的問題,包含了各式各樣的應用。

第四章總共分成七小節,重要的部分只有前六小節。

4-1 Preliminaries 初步

Def 4.1 Classification

Classification is the task of learning a target function f that maps each attribute set x to one of the predefined class labels y.

分類就是去學習一個目標函數f,把每一個屬性集合x對應到預先標好的類別y.

Descriptive Modeling

一個Classification model 可以當作辨別的工具用來分辨不同類別的物件。

Predictive Modeling

一個Classification model也可以用來去預測一個未知物件的類別。

分類技術

很適合用來預測或是描述那些可以分成binary或是nomial類別的資料集合,但對於那些有順序(ordinal) 的類別,分類效果就會顯的不彰。為什麼呢?例如:你要把一個人分成高、中以及低收入戶其中之一,你很難去判定那些類別的界線何在。所以這章主要是focus 在binary 或是 nominal class label.

4-1 簡單結束了,休息一下,再進入4-2…..

4-2 General Approach to Solving a Classification Probelm 解決分類問題的一般方法

這小節對於解決分類問題作了一個簡單概要的介紹,分類器就是從輸入資料集合中去建立分類Models的系統方法,例如:決策分類樹(Decision tree classifier)、rule-based classifier、類神經網路(Neural network)、SVM(Support Vector Machine) 以及 naive Bayes classifier。

每一個技術都利用學習演算法去找到一個model最適合屬性集合以及輸入資料的Class label。因此,學習演算法的最重要一點就是要建立一個擁有generalization capability的model,簡單的說,就是這些model可以正確的去預測一個未知物件的class label。


圖片出自於Pang的Introdution to Data mining

上圖可以看到整個流程就是利用學習演算法以及Training Set建立出一個Learn Model,然後再把這些Models應用到Test Set上。

一個分類model 的效能如何評估呢?就是依照測試資料被預測出來的正確個數以及不正確個數來評斷。這些個數一般都是以下圖的形式表示。

Confusion matrix
Predicted Class
Class =1 Class=0

Actual

Class

Class =1 f11 f10
Class =0 f01 f00

在confusion matrix中,f11代表的就是真實類別為1,而被預測成類別1的個數,f01代表真實類別為1,而被預測成類別2的個數,以此類推。

另外我們也會算Accuracy,

      Accuracy=正確預測的個數/全部預測的個數=(f11+f00)/(f11+f10+f01+f00)

那相對的,我們也會算Error rate,

      Error rate=錯誤預測的個數/全部預測的個數=(f10+f01)/(f11+f10+f01+f00)

很多分類演算法都是在追求很高的Accuracy或是很低的Error rate,在4-5我們還會聊到其他的評估方式。

4-2 到此結束。乎!又可以休息了….

Leave a Reply

Your email address will not be published. Required fields are marked *