การวิเคราะห์ข้อมูลเทคนิค Predictive Modeling
วันที่เขียน 25/7/2560 16:35:31     แก้ไขล่าสุดเมื่อ 3/6/2566 21:39:24
เปิดอ่าน: 11532 ครั้ง

การวิเคราะห์ข้อมูลเทคนิค Predictive Modeling เพื่อสนับสนุนการวิจัยเชิงประยุกต์โดยซอฟต์แวร์ RapidMiner Studio 7 และ R (ขั้นปานกลางและสูง)

การวิเคราะห์ข้อมูลเทคนิค Predictive Modeling เพื่อสนับสนุนการวิจัยเชิงประยุกต์โดยซอฟต์แวร์ RapidMiner Studio 7 และ R (ขั้นปานกลางและสูง)

 

ตัวอย่างหน้าจอโปรแกรม Rapidminer7
(ที่มา: https://docs.rapidminer.com/studio/releases/img/rm7_process.png) 

 

ตัวอย่างหน้าจอ R-studio

(ที่มา: http://www.rstudio.com/images/screenshots/rstudio-windows.png)

ซึ่งเทคนิคการจำแนกประเภทข้อมูลหรือที่เรียกว่า Predictive Modeling เป็นเทคนิคที่นิยมใช้กันมากในการวิเคราะห์ข้อมูลและการทำงานวิจัยเชิงประยุกต์ ซึ่งกระบวนการจำแนกประเภทข้อมูลจะแบ่งเป็นสองส่วนคือ (1) การนำข้อมูลสอน (training data) มาสร้างโมเดลและวัดประสิทธิภาพของโมเดล และ (2) การนำโมเดลที่ได้ไปใช้ทำนาย (predict) เพื่อหาคำตอบให้กับข้อมูลใหม่ โดยการสร้าง โมเดลนั้นมีหลายๆ เทคนิค เช่น

1. เทคนิค Decision Tree ซึ่งสร้างโมเดลในรูปแบบของ Tree เพื่อช่วยตัดสินใจ

2. เทคนิค Naïve Bayes ซึ่งสร้างโมเดลโดยใช้การคำนวณความน่าจะเป็นจากโอกาสที่เกิดขึ้นมาแล้วใน training data

3. เทคนิค K Nearest Neighbours ซึ่งสร้างโมเดลโดยการเปรียบเทียบความคล้ายคลึงกับข้อมูล training data

4. เทคนิค Neural Network เป็นการสร้างโมเดลที่ใช้สมการคณิตศาสตร์ที่ซับซ้อนในลักษณะที่คล้ายกับการทำงานของสมองมนุษย์

5. เทคนิค Support Vector Machines มีข้อดีโดยการแปลงข้อมูลให้อยู่ในรูปแบบที่สามารถแบ่งข้อมูลด้วยโมเดลเส้นตรงได้

ทว่าในหลายๆครั้งการประยุกต์ใช้เทคนิค Predictive Modeling แบบทั่วไปอาจจะไม่ได้ให้ผลลัพธ์ที่ดีเนื่องจากข้อมูลจริงมีความท้าทายในหลายๆ เรื่อง เช่น

   - ข้อมูลที่ใช้ในการเรียนรู้มีจำนวนข้อมูลในแต่ละคลาสคำตอบแตกต่างกันเป็นอย่างมาก หรือเรียกว่าเป็น Imbalanced data เช่น ข้อมูลของลูกค้าในธนาคารที่มีการฉ้อโกง (fraud) จะมีจำนวนน้อยมากเมื่อเทียบกับลูกค้าปกติ แต่สิ่งที่เราต้องการหา คือ การทำนายว่าการใช้งานของลูกค้าคนใดบ้างที่เกิดการฉ้อโกงขึ้น หรือ ข้อมูลการตอบรับโปรโมชันต่างๆ

- ข้อมูลมีจำนวนแอตทริบิวต์ที่เยอะและบางครั้งมีความซ้ำซ้อนและไม่จำเป็นอยู่ เช่น การสกัดข้อความต่างๆ เพื่อนำมาสร้างโมเดลจะมีคำแตกต่างกันมาก แต่บางคำอาจจะเกิดไม่บ่อยนักทำให้ข้อมูลส่วนใหญ่มีค่าความถี่ของค่าเป็น 0

ในหลักสูตรนี้จะเน้นการปรับปรงประสิทธิภาพของการสร้างโมเดลการจำแนกประเภทข้อมูลเพื่อให้มีประสิทธิภาพขึ้นโดยใช้ ซอฟต์แวร์ RapidMiner Studio 7 ที่เรียนรู้ได้ง่ายและเพิ่มประสิทธิภาพโดยการเชื่อมต่อกับภาษา R อีกด้วย โดยในหลักสูตรนี้ผู้เข้าร่วมอบรมจะได้เรียนรู้

- หลักการสร้างโมเดลเพื่อจำแนกประเภทข้อมูลแบบพื้นฐานต่างๆ และการวัดประสิทธิภาพของโมเดล

- การเขียนโปรแกรมภาษา R เบื้องต้นเพื่อการแสดงกราฟและการสร้างโมเดลต่างๆ

- การจัดการข้อมูลที่เป็นลักษณะ Imbalance โดยการ sampling แบบต่างๆ

- การจัดการข้อมูลที่มีแอตทริบิวต์ที่เยอะเกินความจำเป็นและซ้ำซ้อนกัน ด้วยวิธีการ Attribute Selection แบบต่างๆ

- การเพิ่มประสิทธิภาพของโมเดลด้วยการใช้หลายๆ เทคนิคร่วมกันทำงาน ด้วยวิธี Ensemble แบบต่างๆ

- การค้นหาพารามิเตอร์ (parameter) ของแต่ละเทคนิคที่เหมาะสมด้วยวิธีการ optimization

 

 

คำสำคัญ :
กลุ่มบทความ :
หมวดหมู่ :
แชร์ :
https://erp.mju.ac.th/acticleDetail.aspx?qid=697
ความคิดเห็นทั้งหมด (0)
ไม่มีข้อมูลตามเงื่อนไขที่ท่านกำหนด
รายการบทความการแลกเปลี่ยนเรียนรู้หมวดหมู่ : กลุ่มงานเทคโนโลยีสารสนเทศ
ความรู้ที่ได้รับจากการเข้าร่วมประชุม/อบรม/สัมมนา » ASEAN DIGITAL LITERACY PROGRAMME (การรู้เท่าทันสื่อในสังคมออนไลน์)
ปัจจุบันการดำเนินชีวิตประจำวันมีความเกี่ยวข้องกับสื่อออนไลน์ โดยเฉพาะการใช้งานผ่านระบบเครือข่ายอินเทอร์เน็ต หรือ โซเซียลมีเดีย โดยเฉพาะในประเทศไทย มีการใช้งานโซเซียลมีเดียเพื่อการติดต่อสื่อสาร การจ...
digital  literacy  ข่าวปลอม  สื่อ  ออนไลน์     กลุ่มงานตามสมรรถนะบุคลากร   กลุ่มงานเทคโนโลยีสารสนเทศ
ผู้เขียน สุภาพรรณ อนุตรกุล  วันที่เขียน 9/2/2566 9:42:54  แก้ไขล่าสุดเมื่อ 3/6/2566 19:47:17   เปิดอ่าน 347  ครั้ง | แสดงความคิดเห็น 0  ครั้ง
ความรู้ที่ได้รับจากการเข้าร่วมประชุม/อบรม/สัมมนา » ทักษะความเข้าใจและใช้เทคโนโลยีดิจิทัล (Digital literacy)
Digital literacy หรือทักษะความเข้าใจและใช้เทคโนโลยีดิจิทัล เป็นทักษะด้านดิจิทัลพื้นฐานที่จะเป็นตัวช่วยสำคัญในการปฏิบัติงาน การสื่อสาร และการทำงานร่วมกันกับผู้อื่นในลักษณะ “ทำน้อย ได้มาก” หรือ “Work...
Digital  Literacy  การรู้  ดิจิทัล     กลุ่มงานตามสมรรถนะบุคลากร   กลุ่มงานเทคโนโลยีสารสนเทศ
ผู้เขียน สุภาพรรณ อนุตรกุล  วันที่เขียน 25/11/2564 9:56:37  แก้ไขล่าสุดเมื่อ 3/6/2566 21:27:12   เปิดอ่าน 98133  ครั้ง | แสดงความคิดเห็น 0  ครั้ง