โครงการแลกเปลี่ยนเรียนรู้เพื่อพัฒนาศักยภาพบุคลากร กลุ่มผู้ปฏิบัติงานเทคโนโลยีสารสนเทศ ครั้งที่ 2 : Data Mining โดยนายสุระพล ริยะนา นักวิชาการคอมพิวเตอร์ชำนาญการพิเศษ ได้แลกเปลี่ยนเรียนรู้เกี่ยวกับ Data Mining ให้กลุ่มผู้ปฏิบัติงานเทคโนโลยีสารสนเทศ เมื่อวันที่ 16 กุมภาพันธ์ 2558 ซึ่งจากการแลกเปลี่ยนเรียนรู้ในครั้งนี้ สามารถถอดบทเรียนได้ ดังนี้
สิ่งที่ได้จากการแลกเปลี่ยนเรียนรู้
1) เครื่องมือที่ใช้ในการจัดทำ Data Mining
- Pentaho business analysic (BI)
- Weka สำหรับการทำ ETL Transform Data
- R สำหรับการวิเคราะห์ค่าสถิติ
- Data Mining
2) ความเป็นมา เป็นการสกัดความรู้จากข้อมูลจำนวนมาก เรียกอีกอย่างว่า Big Data อาจได้ยินด้วยศัพท์อื่นได้แก่ Machine Learning, OLAP, BI
3) ความแตกต่างจากการจัดทำฐานข้อมูลแบบ Normalization
Normalization เป็นการออกแบบฐานข้อมูลที่เน้นลดความซ้ำซ้อนในการจัดเก็บข้อมูล มีข้อดีในด้านการ Storage ได้แก่คำสั่ง Insert Update Delete แต่ไม่รองรับการ Query Mode คำสั่ง Select ในกรณีของข้อมูลขนาดมหาศาล ซึ่งรูปแบบการทำงานของคำสั่งเป็นในลักษณะของการทำงานด้วยคำสั่ง For Loop ทำให้มีการประมวลผลนานขึ้น เมื่อมีการแยกตาราง ตามหลักการของ Normalization ทำให้ 1 Column ต้องไปเชื่อมโยงกับทุก Column ในตารางที่สัมพันธ์กัน
Data Mining เป็นการออกแบบฐานข้อมูลที่เน้นการแยกตารางตามประโยชน์ที่ใช้งาน ไม่ได้แยกจากความซ้ำซ้อน จึงเรียกว่า Denormalization โดยจะแยกตารางเป็น 3 กลุ่ม โดยพิจารณาจาก Report และเงื่อนไขการแสดงผลดังนี้
1. Fact Table คือ กลุ่มของตารางข้อมูลที่ใช้ในการประมวลผล
2. Dimension Table คือ กลุ่มของตารางที่ใช้ในมิติของการแสดงผล
3. Measure Table คือ กลุ่มของตารางที่ใช้ในการวัดปริมาณ
หลักการของ Data Mining คือการสกัดความหมายของข้อมูล มีชั้นตอน ดังนี้
1. Management Data
- Create Data Source แยกตามกลุ่มของตาราง Fact Table, Dimension Table, Measure Table ใช้หลักการออกแบบ Normalization แล้ว Transfer เป็น Data Mining พิจารณาจากความจำเป็น ความต้องการผู้ใช้ และเงื่อนไขการแสดงผล
- Import Data โดยใช้เครื่องมือในการทำงานได้แก่ ETL
2. Report
(ถอดบทเรียน โดยนางสาวณัฐกฤตา โกมลนาค คุณอำนวย)