ข้อดีข้อเสียของวิธีต่างๆในเรื่องdata mining

หน้าแรก Data Mining ข้อดีข้อเสียของวิธีต่างๆในเรื่องdata mining

Association rule
สามารถประยุกต์ใช้ได้หลายอุตสาหกรรม เพื่อความเข้าใจที่ง่ายขึ้น จะยกตัวอย่างในแง่การ ส่งเสริมการขาย
จะเหมาะสมในลักษณะ การทำ Market Basket Analyst ประมาณว่าใช้ ดู Customer Behavior หรือ ประยุกต์กับแนวทางอื่น

สำหรับข้อมูลที่เหมาะ กับแบบนี้ จะเป็นลักษณะ Item Set เช่น
__________________
BILL ID | ITEM |
__________________
1 | A |
__________________
1 | B |
__________________
1 | C |
__________________
2 | B |
__________________
2 | C |
__________________
2 | E |
__________________

สำหรับ วิธีการ ในการ ทำ Association rule นั้น มีหลายวิธีอยู่เหมือนกัน แต่ก็มีที่เข้าใจ ง่ายๆ เช่น
Apriori
Fequence Pattern Tree (FP-Tree)
ข้อดี
ช่วย ให้ทราบพฤติกรรมของเป้าหมาย ได้
ข้อเสีย
ส่วนตัวที่เคยทำ ยังไม่แน่ใจนัก แต่จะวัดคุณภาพของวิธี กับ accuracy ที่ได้มากกว่า เพราะในทางปฏิบัติจริง
บางข้อมูลใช้วิธี Apriori จะให้ความเที่ยงตรงสูงกว่าใช้ FP-Tree บางข้อมูล ใช้ วิธี FP-tree ก็จะให้ความเที่ยงตรงสูงกว่า Apriori
ดังนั้น ในทางปฏิบัติต้องเอา Model ที่ได้มา Evaluated เพื่อ เลือก วิธีที่เหมาะสมครับ

Decision Tree
เป็นลักษณะ ของ supervise learning คือ เราสามารถ นิยามได้ว่า ผลลัพธ์ จะเป็นอย่างไร เช่น ผ่าน/ไม่ผ่าน ,true/false
มีประโยชน์ ในการสร้าง Model ในการ Forcasting มาก สามารถใช้ ได้หลากหลาย ทุก อุตสาหกรรม
ถ้าเอาง่ายๆ ในสถาบันการเงินก็ ใช้ในการอนุมัติ เครดิต ว่า บุคคลคนนี้ เครดิตผ่าน/ไม่ผ่าน
สำหรับข้อมูลที่เหมาะ สม ก็ เป็น Flat Table ทั้วไป เช่น
CusID | SEX | Vehicle | Status | Age | Approve

1 | M | Y | S |M | YES
2 | M | N | M |M | NO
3 | M | Y | S |M | YES
4 | M | N | M |M | NO
5 | M | Y | S |M | YES
6 | M | Y | S |M | YES
7 | M | N | M |M | NO

วิธีการสร้างต้นไม้ก็ มีหลายวิธีเช่นเดียวกัน ขอยกตัวอย่างที่เข้าใจง่ายๆ เช่น
ID3/C4.5 ซึ่ง ในนี้ก็ จะมีการ วิธีการ ส้างความสัมพันธ์ แต่ละ Node
เช่น GINI Index หรือ จะใช้ Information Gain

การทดสอบประสิทธิภาพ
หลังจากที่ได้ model จาก การทำ Decision tree แล้ว ก็ นำไป eavaluated ดู ถ้า ความเที่ยงตรงยังไม่เป็นที่น่าพอ ใจ ก็ สร้าง model ใหม่ โดย feed ข้อมูล ที่ยังไม่เที่ยงตรงนั้น กลับ เข้า ไปใช้ ในการสร้าง model ด้วย
ข้อดี
แยกแยะ ข้อมูล ตาม คำตอบที่ต้องการ ได้
ข้อเสีย
ก็ อย่างที่บอก ขึ้นอยู่กับ accuracy ของแต่ละวิธี เพราะว่า บางครั้ง เลือก ใช้ การสร้าง node แบบ GINI InDEX อาจจะได้ Model ที่เที่ยงตรงกว่า Information Gain

Clustering
เป็นลักษณะ การ ทำ unsupervise learning คือ เรา จะยังไม่ทราบเป้าหมายชัดเจนของผลลัพธ์ แต่เรา ต้องการที่แบ่งกลุ่ม ข้อมูลเหล่านั้นออกมา เพื่อ ที่จะนำมาอนุมาน ให้เกิด ประโยชน์ ต่อไป หรือ ถ้ามอง ในเชิงธุกิจ ง่ายๆ อาจจะนำมาแบ่งกลุ่มลูกค้า เพื่อ การตัดสินใจทำ อะไรบางอย่างเช่น ส่ง จดหมาย ให้ลูกค้าว่าควรจะส่งให้กลุ่มใด

ลักษณะ ข้อมูล ก็ จะคล้ายของ Decision tree แต่ จะไม่มี field ที่บ่งบอก นัยยะสำคัญ ว่า คำตอบคือ อะไร เช่น
CusID | SEX | Vehicle | Status | Age |

1 | M | Y | S |M
2 | M | N | M |M
3 | M | Y | S |M
4 | M | N | M |M
5 | M | Y | S |M
6 | M | Y | S |M
7 | M | N | M |M

ซึ่ง เมื่อเรา ได้ทำ clustering ข้อมูลแล้ว เราจะใช้ จุดนิยามกลุ่ม(centriod) ของแต่ละกลุ่ม เป็นตัวอนุมาน หรือ จำกัด ความ ว่ากลุ่มเหล่านั้นมี ลักษณะ อย่างไร

สำหรับวิธี การ ที่ง่ายและนิยม ก็ คือ
K-mean Clustering
ข้อดี
สามารถจำแนก ข้อมูล ที่เรายังไม่ทราบเป้าหมายชัดเจนได้
ข้อเสีย
ไม่แน่ใจนัก เพราะ มีงานวิจัยออกมาหลากหลาย เพื่อ หักล้าง จุดบกพร่องของแต่ละวิธี

สุดท้ายวิธีการทำ Data Mining นั้น ยังมีอีกมากมาย หากสนใจ ค้นคว้าเพิ่มเติมได้

การทำ เหมืองข้อมูลจริงๆนั้น มันไม่ได้ มีแค่ เลือก วิธีครับ ก่อน ที่จะมาถึง ขั้นตอน Data Mining จะต้องมีกระบวนการอีกนะครับ
ตั้งแต่
Data Prepare
Data Cleaning
Data Transform
Data Mining
Evaluate

หาก สนใจจะจับต้อง ศึกษา ชนิดของ Data เพิ่ม ว่า data แต่ละชนิด มีลักษณะอย่างไรเช่นพวก
ordinal,Norminal,Category etc. และเพื่อให้ข้อมูลสะอาด ต้อง เข้าใจการ cleaning ด้วย แล้ว ค่อย transform
ให้อยู่ในรูปแบบ ข้อมูลที่ต้องการ แล้วค่อยนำไป mining ครับ
หาก สนใจศึกษา และ ปฏิบัติ ก็ มา แชร์ ความรู้กันไดครับ Openness ตลอดครับ
สำหรับ tool ที่ open source ก็ มี Weka นะครับ ลอง ไป Down Load มาเล่นดู
แต่ input filed จะเป็น arff type ครับ
http://www.cs.waikato.ac.nz/ml/weka/

refer: http://www.narisa.com/forums/index.php?showtopic=23905

ขึ้นไปด้านบน