Data Mining
Data Mining เป็นเทคนิคในการวิเคราะห์ข้อมูลอย่างหนึ่ง ซึ่งมาจากคำว่า เหมืองข้อมูล นั่นคือ เป็นการค้นหาสิ่งที่มีประโยชน์จากฐานข้อมูลที่มีขนาดใหญ่ เช่น ข้อมูลการซื้อขายสินค้าในซุปเปอร์มาร์เก็ตต่าง ๆ โดยข้อมูลเหล่านี้จะเก็บจากรายการสินค้าที่ลูกค้าซื้อในแต่ละครั้ง โดยเมื่อทำการวิเคราะห์ข้อมูลด้วยเทคนิค Data Mining แล้วจะได้สิ่งที่เป็นประโยชน์เช่น ลูกค้าส่วนใหญ่ที่ซื้อเบียร์มักจะซื้อผ้าอ้อมด้วย จะเห็นว่าข้อมูลนี้เป็นข้อมูลที่ไม่เคยคิดว่ามีความสัมพันธ์กัน และเมื่อได้ความรู้แบบนี้ก็อาจจะนำเป็นออกโปรโมชั่นหรือช่วยในการจัดวางชั้นสินค้า หรือเป็นแนวทางในการสั่งซื้อสินค้าในซุปเปอร์มาร์เก็ตต่อไปได้ นอกจากนี้ Data Mining ยังมีเทคนิคในการประยุกต์ใช้งานได้อย่างดี เช่น เทคนิคการแบ่งกลุ่มข้อมูล โดยข้อมูลที่มีลักษณะคล้ายๆกัน อยู่กลุ่มเดียวกัน และข้อมูลที่อยู่คนละกลุ่มจะมีลักษณะที่แตกต่างกันมาก แต่ละกลุ่มจะเรียกว่า คลัสเตอร์ มีหลายเทคนิค และ Clustering validity เป็นการวัดประสิทธิภาพของ Clustering เพื่อดูว่าเทคนิคใดสามารถทำให้การแบ่งกลุ่มมีประสิทธิภาพสูงที่สุด และควรจัดข้อมูลออกมาเป็นกี่กลุ่ม เทคนิคการจำแนกประเภทข้อมูล เป็นการนำข้อมูลเดิมที่มีคำตอบที่เราสนใจ มาสร้างเป็นโมเดล เพื่อหาคำตอบให้กับข้อมูลใหม่ การประมาณค่าข้อมูล (regression) การสร้างโมเดลและการวัดประสิทธิภาพของโมเดล โดยการดูค่าความแม่นยำว่า โมเดลใดให้ความแม่นยำในการทายข้อมูลได้ถูกมากที่สุด ดังนั้นหากข้อมูลใดที่มีขนาดใหญ่หรือมีจำนวนมาก Data Mining ก็จะเป็นเทคนิคหนึ่งที่จะช่วยในการจัดการข้อมูลให้เป็นประโยชน์ได้ดี
เทคนิคในการวิเคราะห์ Data Mining
1. การหากฎความสัมพันธ์ Association Rule
2. การแบ่งกลุ่มข้อมูล Clustering
- การหาระยะห่างระหว่างข้อมูล Distance function
- เทคนิคในการแบ่งกลุ่มข้อมูลด้วยวิธี K-Means
- เทคนิคในการแบ่งกลุ่มข้อมูลด้วยวิธี Agglomerative Clustering
3. การจำแนกประเภทข้อมูล Classification
- การวัดประสิทธิภาพของโมเดลการจำแนกประเภทข้อมูล
- การแบ่งข้อมูลเพื่อใช้ในการวัดประสิทธิภาพของโมเดลการจำแนกประเภทข้อมูล
- เทคนิคการจำแนกประเภทข้อมูลด้วยวิธี Decision Tree
- เทคนิคการจำแนกประเภทข้อมูลด้วยวิธี Native Bayes
- เทคนิคการจำแนกประเภทข้อมูลด้วยวิธี K-Nearest Neighbors (K-NN)
- เทคนิคการจำแนกประเภทข้อมูลด้วยวิธี Neural Network
กระบวนการวิเคราะห์ข้อมูลด้วย CRISP-DM
Cross-Industry Standard Process for Data Mining
ในกระบวนการนี้ประกอบด้วย 6 ขั้นตอน
1. Business Understanding
เป็นขั้นตอนแรกในกระบวนการ เป็นการแปลงปัญหาที่ได้ให้อยู่ในรูปโจทย์ของการวิเคราะห์ข้อมูล Data Mining พร้อมทั้งวางแผนในการดำเนินการ
2. Data Understanding
เริ่มจากการเก็บรวบรวมข้อมูล หลังจากนั้นก็เป็นการตรวจสอบข้อมูลที่ได้ทำการรวบรวมมา เพื่อดูความถูกต้อง และพิจารณาว่าจะใช้ข้อมูลทั้งหมดหรือจำเป็นต้องเลือกข้อมูลบางส่วนมาใช้ในการวิเคราะห์
3. Data Preparation
เป็นขั้นตอนที่ทำการแปลงข้อมูลที่ได้ทำการเก็บรวมรวมมา ให้กลายเป็นข้อมูลที่สามารถนำไปวิเคราะห์ในขั้นถัดไปได้ โดยการแปลงข้อมูลนี้อาจจะต้องมีการทำข้อมูลให้ถูกต้อง เช่น แปลงข้อมูลให้อยู่ในช่วงเดียวกัน หรือการเติมข้อมูลที่ขาดหายไป เป็นขั้นตอนที่ใช้เวลามากที่สุดของกระบวนการ CRISP-DM
4. Modeling
เป็นขั้นตอนการวิเคราะห์ข้อมูลด้วยเทคนิคทาง Data Mining ที่ได้แนะนำไปแล้ว เช่น การจำแนกประเภทข้อมูล หรือการแบ่งกลุ่มข้อมูล ซึ่งในขั้นตอนนี้หลายเทคนิคจะถูกนำมาใช้เพื่อให้ได้คำตอบที่ดีที่สุด
5. Evaluation
ได้ผลการวิเคราะห์ข้อมูลด้วยเทคนิคทาง Data Mining แล้ว แต่ก่อนที่จะนำผลลัพธ์ที่ได้ไปใช้งานต้องมีการวัดประสิทธิภาพของผลลัพธ์ที่ได้ว่าตรงกับวัตถุประสงค์ที่ได้ตั้งไว้ตั้งแต่แรกหรือไม่ มีความน่าเชื่อถือเพียงใด
6. Deployment
มีการนำความรู้ที่ได้จากการได้ผลลัพธ์ด้วยเทคนิค Data Mining ไปใช้ประโยชน์ต่อในองค์กรหรือบริษัท
เอกสารอ้างอิง
เอกสิทธิ์ พัชรวงศ์ศักดา .การวิเคราะห์ข้อมูลด้วยเทคนิคดาต้า ไมน์นิง เบื้องต้น.พิมพ์ครั้งที่ 2. กรุงเทพฯ: เอเชีย ดิจิตอลการพิมพ์ จำกัด.