การวิเคราะห์ข้อมูลเทคนิค Predictive Modeling
วันที่เขียน 25/7/2560 16:35:31     แก้ไขล่าสุดเมื่อ 21/11/2567 21:26:28
เปิดอ่าน: 13371 ครั้ง

การวิเคราะห์ข้อมูลเทคนิค Predictive Modeling เพื่อสนับสนุนการวิจัยเชิงประยุกต์โดยซอฟต์แวร์ RapidMiner Studio 7 และ R (ขั้นปานกลางและสูง)

การวิเคราะห์ข้อมูลเทคนิค Predictive Modeling เพื่อสนับสนุนการวิจัยเชิงประยุกต์โดยซอฟต์แวร์ RapidMiner Studio 7 และ R (ขั้นปานกลางและสูง)

 

ตัวอย่างหน้าจอโปรแกรม Rapidminer7
(ที่มา: https://docs.rapidminer.com/studio/releases/img/rm7_process.png) 

 

ตัวอย่างหน้าจอ R-studio

(ที่มา: http://www.rstudio.com/images/screenshots/rstudio-windows.png)

ซึ่งเทคนิคการจำแนกประเภทข้อมูลหรือที่เรียกว่า Predictive Modeling เป็นเทคนิคที่นิยมใช้กันมากในการวิเคราะห์ข้อมูลและการทำงานวิจัยเชิงประยุกต์ ซึ่งกระบวนการจำแนกประเภทข้อมูลจะแบ่งเป็นสองส่วนคือ (1) การนำข้อมูลสอน (training data) มาสร้างโมเดลและวัดประสิทธิภาพของโมเดล และ (2) การนำโมเดลที่ได้ไปใช้ทำนาย (predict) เพื่อหาคำตอบให้กับข้อมูลใหม่ โดยการสร้าง โมเดลนั้นมีหลายๆ เทคนิค เช่น

1. เทคนิค Decision Tree ซึ่งสร้างโมเดลในรูปแบบของ Tree เพื่อช่วยตัดสินใจ

2. เทคนิค Naïve Bayes ซึ่งสร้างโมเดลโดยใช้การคำนวณความน่าจะเป็นจากโอกาสที่เกิดขึ้นมาแล้วใน training data

3. เทคนิค K Nearest Neighbours ซึ่งสร้างโมเดลโดยการเปรียบเทียบความคล้ายคลึงกับข้อมูล training data

4. เทคนิค Neural Network เป็นการสร้างโมเดลที่ใช้สมการคณิตศาสตร์ที่ซับซ้อนในลักษณะที่คล้ายกับการทำงานของสมองมนุษย์

5. เทคนิค Support Vector Machines มีข้อดีโดยการแปลงข้อมูลให้อยู่ในรูปแบบที่สามารถแบ่งข้อมูลด้วยโมเดลเส้นตรงได้

ทว่าในหลายๆครั้งการประยุกต์ใช้เทคนิค Predictive Modeling แบบทั่วไปอาจจะไม่ได้ให้ผลลัพธ์ที่ดีเนื่องจากข้อมูลจริงมีความท้าทายในหลายๆ เรื่อง เช่น

   - ข้อมูลที่ใช้ในการเรียนรู้มีจำนวนข้อมูลในแต่ละคลาสคำตอบแตกต่างกันเป็นอย่างมาก หรือเรียกว่าเป็น Imbalanced data เช่น ข้อมูลของลูกค้าในธนาคารที่มีการฉ้อโกง (fraud) จะมีจำนวนน้อยมากเมื่อเทียบกับลูกค้าปกติ แต่สิ่งที่เราต้องการหา คือ การทำนายว่าการใช้งานของลูกค้าคนใดบ้างที่เกิดการฉ้อโกงขึ้น หรือ ข้อมูลการตอบรับโปรโมชันต่างๆ

- ข้อมูลมีจำนวนแอตทริบิวต์ที่เยอะและบางครั้งมีความซ้ำซ้อนและไม่จำเป็นอยู่ เช่น การสกัดข้อความต่างๆ เพื่อนำมาสร้างโมเดลจะมีคำแตกต่างกันมาก แต่บางคำอาจจะเกิดไม่บ่อยนักทำให้ข้อมูลส่วนใหญ่มีค่าความถี่ของค่าเป็น 0

ในหลักสูตรนี้จะเน้นการปรับปรงประสิทธิภาพของการสร้างโมเดลการจำแนกประเภทข้อมูลเพื่อให้มีประสิทธิภาพขึ้นโดยใช้ ซอฟต์แวร์ RapidMiner Studio 7 ที่เรียนรู้ได้ง่ายและเพิ่มประสิทธิภาพโดยการเชื่อมต่อกับภาษา R อีกด้วย โดยในหลักสูตรนี้ผู้เข้าร่วมอบรมจะได้เรียนรู้

- หลักการสร้างโมเดลเพื่อจำแนกประเภทข้อมูลแบบพื้นฐานต่างๆ และการวัดประสิทธิภาพของโมเดล

- การเขียนโปรแกรมภาษา R เบื้องต้นเพื่อการแสดงกราฟและการสร้างโมเดลต่างๆ

- การจัดการข้อมูลที่เป็นลักษณะ Imbalance โดยการ sampling แบบต่างๆ

- การจัดการข้อมูลที่มีแอตทริบิวต์ที่เยอะเกินความจำเป็นและซ้ำซ้อนกัน ด้วยวิธีการ Attribute Selection แบบต่างๆ

- การเพิ่มประสิทธิภาพของโมเดลด้วยการใช้หลายๆ เทคนิคร่วมกันทำงาน ด้วยวิธี Ensemble แบบต่างๆ

- การค้นหาพารามิเตอร์ (parameter) ของแต่ละเทคนิคที่เหมาะสมด้วยวิธีการ optimization

 

 

คำสำคัญ :
กลุ่มบทความ :
หมวดหมู่ :
แชร์ :
https://erp.mju.ac.th/acticleDetail.aspx?qid=697
ความคิดเห็นทั้งหมด (0)
ไม่มีข้อมูลตามเงื่อนไขที่ท่านกำหนด
รายการบทความการแลกเปลี่ยนเรียนรู้หมวดหมู่ : กลุ่มงานเทคโนโลยีสารสนเทศ
กลุ่มงานเทคโนโลยีสารสนเทศ » UX/UI Design ต่างกันอย่างไร
การออกแบบเว็บไซต์ การออกแบบผลิตภัณฑ์และบริการดิจิทัล มีความสำคัญมากขึ้นเป็นอย่างมาก โดยเฉพาะอย่างยิ่งการออกแบบประสบการณ์ผู้ใช้ (User Experience Design: UX Design) และการออกแบบส่วนต่อประสานผู้ใช้ (...
UI Design  UX Design  UX UI  UX/UI  การออกแบบเว็บ     กลุ่มงานตามสมรรถนะบุคลากร   กลุ่มงานเทคโนโลยีสารสนเทศ
ผู้เขียน ช่อทิพย์ สิทธิ  วันที่เขียน 6/9/2567 14:14:09  แก้ไขล่าสุดเมื่อ 21/11/2567 16:01:52   เปิดอ่าน 101  ครั้ง | แสดงความคิดเห็น 0  ครั้ง
การพัฒนาโปรแกรม » การพัฒนาระบบเพื่อลดขั้นตอนการปฏิบัติงาน สำหรับการจัดเก็บและทำลายเอกสาร
การพัฒนาระบบเพื่อลดขั้นตอนการปฏิบัติงาน สำหรับการจัดเก็บและทำลายเอกสาร โดยมีวัตถุประสงค์ เพื่อเพิ่มประสิทธิภาพในการปฏิบัติงาน โดยการนำระบบจัดเก็บและทำลายเอกสารมาช่วยปรับปรุงประสิทธิผล ในกระบวนการทำ...
Re-Design Process?  ระบบจัดเก็บและทำลายเอกสาร     กลุ่มงานตามสมรรถนะบุคลากร   กลุ่มงานเทคโนโลยีสารสนเทศ
ผู้เขียน ณัฐกฤตา โกมลนาค  วันที่เขียน 5/9/2567 11:45:54  แก้ไขล่าสุดเมื่อ 21/11/2567 15:53:41   เปิดอ่าน 250  ครั้ง | แสดงความคิดเห็น 0  ครั้ง
การพัฒนาระบบสารสนเทศ » ข้อมูลเปิด (Open Data) เบื้องต้น
ข้อมูลเปิด (Open Data) คือ ข้อมูลที่สามารถเข้าถึง ใช้งาน แก้ไข และแบ่งปันได้โดยไม่จำกัดข้อกำหนดหรือค่าใช้จ่าย ข้อมูลเปิดมักถูกเผยแพร่ในรูปแบบที่สามารถอ่านและวิเคราะห์ได้ง่าย เช่น ไฟล์ CSV, JSON, หร...
การเข้าถึง  การใช้งาน  การแบ่งปัน  การเปิดเผย  ข้อมูลเปิด     กลุ่มงานตามสมรรถนะบุคลากร   กลุ่มงานเทคโนโลยีสารสนเทศ
ผู้เขียน สมนึก สินธุปวน  วันที่เขียน 2/9/2567 9:45:13  แก้ไขล่าสุดเมื่อ 21/11/2567 16:01:22   เปิดอ่าน 98  ครั้ง | แสดงความคิดเห็น 0  ครั้ง