การวิเคราะห์ข้อมูลเทคนิค Predictive Modeling
วันที่เขียน 25/7/2560 16:35:31     แก้ไขล่าสุดเมื่อ 25/4/2567 15:40:27
เปิดอ่าน: 12483 ครั้ง

การวิเคราะห์ข้อมูลเทคนิค Predictive Modeling เพื่อสนับสนุนการวิจัยเชิงประยุกต์โดยซอฟต์แวร์ RapidMiner Studio 7 และ R (ขั้นปานกลางและสูง)

การวิเคราะห์ข้อมูลเทคนิค Predictive Modeling เพื่อสนับสนุนการวิจัยเชิงประยุกต์โดยซอฟต์แวร์ RapidMiner Studio 7 และ R (ขั้นปานกลางและสูง)

 

ตัวอย่างหน้าจอโปรแกรม Rapidminer7
(ที่มา: https://docs.rapidminer.com/studio/releases/img/rm7_process.png) 

 

ตัวอย่างหน้าจอ R-studio

(ที่มา: http://www.rstudio.com/images/screenshots/rstudio-windows.png)

ซึ่งเทคนิคการจำแนกประเภทข้อมูลหรือที่เรียกว่า Predictive Modeling เป็นเทคนิคที่นิยมใช้กันมากในการวิเคราะห์ข้อมูลและการทำงานวิจัยเชิงประยุกต์ ซึ่งกระบวนการจำแนกประเภทข้อมูลจะแบ่งเป็นสองส่วนคือ (1) การนำข้อมูลสอน (training data) มาสร้างโมเดลและวัดประสิทธิภาพของโมเดล และ (2) การนำโมเดลที่ได้ไปใช้ทำนาย (predict) เพื่อหาคำตอบให้กับข้อมูลใหม่ โดยการสร้าง โมเดลนั้นมีหลายๆ เทคนิค เช่น

1. เทคนิค Decision Tree ซึ่งสร้างโมเดลในรูปแบบของ Tree เพื่อช่วยตัดสินใจ

2. เทคนิค Naïve Bayes ซึ่งสร้างโมเดลโดยใช้การคำนวณความน่าจะเป็นจากโอกาสที่เกิดขึ้นมาแล้วใน training data

3. เทคนิค K Nearest Neighbours ซึ่งสร้างโมเดลโดยการเปรียบเทียบความคล้ายคลึงกับข้อมูล training data

4. เทคนิค Neural Network เป็นการสร้างโมเดลที่ใช้สมการคณิตศาสตร์ที่ซับซ้อนในลักษณะที่คล้ายกับการทำงานของสมองมนุษย์

5. เทคนิค Support Vector Machines มีข้อดีโดยการแปลงข้อมูลให้อยู่ในรูปแบบที่สามารถแบ่งข้อมูลด้วยโมเดลเส้นตรงได้

ทว่าในหลายๆครั้งการประยุกต์ใช้เทคนิค Predictive Modeling แบบทั่วไปอาจจะไม่ได้ให้ผลลัพธ์ที่ดีเนื่องจากข้อมูลจริงมีความท้าทายในหลายๆ เรื่อง เช่น

   - ข้อมูลที่ใช้ในการเรียนรู้มีจำนวนข้อมูลในแต่ละคลาสคำตอบแตกต่างกันเป็นอย่างมาก หรือเรียกว่าเป็น Imbalanced data เช่น ข้อมูลของลูกค้าในธนาคารที่มีการฉ้อโกง (fraud) จะมีจำนวนน้อยมากเมื่อเทียบกับลูกค้าปกติ แต่สิ่งที่เราต้องการหา คือ การทำนายว่าการใช้งานของลูกค้าคนใดบ้างที่เกิดการฉ้อโกงขึ้น หรือ ข้อมูลการตอบรับโปรโมชันต่างๆ

- ข้อมูลมีจำนวนแอตทริบิวต์ที่เยอะและบางครั้งมีความซ้ำซ้อนและไม่จำเป็นอยู่ เช่น การสกัดข้อความต่างๆ เพื่อนำมาสร้างโมเดลจะมีคำแตกต่างกันมาก แต่บางคำอาจจะเกิดไม่บ่อยนักทำให้ข้อมูลส่วนใหญ่มีค่าความถี่ของค่าเป็น 0

ในหลักสูตรนี้จะเน้นการปรับปรงประสิทธิภาพของการสร้างโมเดลการจำแนกประเภทข้อมูลเพื่อให้มีประสิทธิภาพขึ้นโดยใช้ ซอฟต์แวร์ RapidMiner Studio 7 ที่เรียนรู้ได้ง่ายและเพิ่มประสิทธิภาพโดยการเชื่อมต่อกับภาษา R อีกด้วย โดยในหลักสูตรนี้ผู้เข้าร่วมอบรมจะได้เรียนรู้

- หลักการสร้างโมเดลเพื่อจำแนกประเภทข้อมูลแบบพื้นฐานต่างๆ และการวัดประสิทธิภาพของโมเดล

- การเขียนโปรแกรมภาษา R เบื้องต้นเพื่อการแสดงกราฟและการสร้างโมเดลต่างๆ

- การจัดการข้อมูลที่เป็นลักษณะ Imbalance โดยการ sampling แบบต่างๆ

- การจัดการข้อมูลที่มีแอตทริบิวต์ที่เยอะเกินความจำเป็นและซ้ำซ้อนกัน ด้วยวิธีการ Attribute Selection แบบต่างๆ

- การเพิ่มประสิทธิภาพของโมเดลด้วยการใช้หลายๆ เทคนิคร่วมกันทำงาน ด้วยวิธี Ensemble แบบต่างๆ

- การค้นหาพารามิเตอร์ (parameter) ของแต่ละเทคนิคที่เหมาะสมด้วยวิธีการ optimization

 

 

คำสำคัญ :
กลุ่มบทความ :
หมวดหมู่ :
แชร์ :
https://erp.mju.ac.th/acticleDetail.aspx?qid=697
ความคิดเห็นทั้งหมด (0)
ไม่มีข้อมูลตามเงื่อนไขที่ท่านกำหนด
รายการบทความการแลกเปลี่ยนเรียนรู้หมวดหมู่ : กลุ่มงานเทคโนโลยีสารสนเทศ
ความรู้ที่ได้จากการศึกษาค้นคว้าด้วยตนเอง » Assignment in Microsoft Teams
การมอบหมายงาน (Assignment ) สำหรับนักศึกษาในห้องเรียน ระบบ Microsoft Teams สร้างความสะดวกในการมอบหมายงานให้กับนักศึกษา การส่งงาน และสามารถให้คะแนนนักศึกษาแต่ละคนในห้องเรียน สำหรับผู้ที่อยู่ในสถาบัน...
Assignment  Microsoft Teams  การมอบหมายงาน  การให้คะแนน     กลุ่มงานตามสมรรถนะบุคลากร   กลุ่มงานเทคโนโลยีสารสนเทศ
ผู้เขียน สุภาพรรณ อนุตรกุล  วันที่เขียน 26/3/2567 18:01:20  แก้ไขล่าสุดเมื่อ 25/4/2567 15:20:10   เปิดอ่าน 122  ครั้ง | แสดงความคิดเห็น 0  ครั้ง
ความรู้ที่ได้รับจากการเข้าร่วมประชุม/อบรม/สัมมนา » Google Sites สร้างเว็บไซต์ได้อย่างง่ายดาย
Google Sites คือโปรแกรมหนึ่งของ บริษััท Google ที่เปิดให้ สมาชิกของ Google สามารถ สร้างเว็บไซต์ของตนเองได้ฟรี โดยการสร้างเว็บไซต์ ด้วย Google Sites นั้น ทำได้ง่าย เหมือนกับการแก้ไข เอกสารธรรมดา ๆ ช...
Google Sites  เว็บไซต์     กลุ่มงานตามสมรรถนะบุคลากร   กลุ่มงานเทคโนโลยีสารสนเทศ
ผู้เขียน สุภาพรรณ อนุตรกุล  วันที่เขียน 11/3/2567 17:19:12  แก้ไขล่าสุดเมื่อ 25/4/2567 8:35:58   เปิดอ่าน 224  ครั้ง | แสดงความคิดเห็น 0  ครั้ง
การพัฒนาระบบสารสนเทศ » การกำหนดผลลัพธ์การเรียนรู้รายวิชา CLOs ผ่าน มคอ.3
หัวข้อนี้เน้น การออกแบบหลักสูตรให้ตอบสนองต่อผลการเรียนรู้ที่คาดหวังของหลักสูตร สะท้อนถึงความต้องการ ของผู้ที่เกี่ยวข้องครบทุกภาคส่วน และผลการเรียนรู้นั้นต้องครอบคลุมทั้งความรู้ ทักษะเฉพาะทางและทักษ...
CLO  ELO  PLO     กลุ่มงานตามสมรรถนะบุคลากร   กลุ่มงานเทคโนโลยีสารสนเทศ
ผู้เขียน สมนึก สินธุปวน  วันที่เขียน 18/11/2566 23:45:59  แก้ไขล่าสุดเมื่อ 25/4/2567 14:06:19   เปิดอ่าน 347  ครั้ง | แสดงความคิดเห็น 0  ครั้ง
การพัฒนาระบบสารสนเทศ » แอปพลิเคชันสำหรับช่วยในการจัดเรียนการสอน
การเรียนผ่านเครื่องมือช่วยสอนโดยใช้แอปพลิเคชันมีบทบาทในการส่งเสริมและช่วยเหลืออาจารย์และนักศึกษาเป็นอย่างมาก บทความนี้ได้รวบรวม 8 เครื่องมือช่วยสอนสำหรับอาจารย์ในการช่วยจัดการเรียนการสอนให้เกิดความ...
Canva  Kahoot  Nearpod  Plicker  Quizizz  Storyboard  Visme  Voxer     กลุ่มงานตามสมรรถนะบุคลากร   กลุ่มงานเทคโนโลยีสารสนเทศ
ผู้เขียน สมนึก สินธุปวน  วันที่เขียน 18/11/2566 23:01:13  แก้ไขล่าสุดเมื่อ 25/4/2567 11:18:33   เปิดอ่าน 246  ครั้ง | แสดงความคิดเห็น 0  ครั้ง