Workshop on Using R for Analysis of Big Data

ทวีศักดิ์ จันทร์งาม

ทวีศักดิ์ จันทร์งาม

วันที่เขียน 5/9/2559 17:08:20 แก้ไขล่าสุดเมื่อ 22/11/2567 2:47:35

เปิดอ่าน: 4270 ครั้ง

ข้อมูล ถือว่าเป็นสิ่งสำคัญของการค้นหาคำตอบทางวิทยาศาสตร์ อาทิ การศึกษาพฤติกรรมการบริโภคของลูกค้า การศึกษาพฤติกรรมการใช้สื่อสังคมออนไลน์ของประชาชน การเกิดโรคของผู้ป่วย เป็นต้น โดยเฉพาะในปัจจุบันการบันทึกข้อมูลกิจกรรมของมนุษย์มีความสะดวกมากยิ่งขึ้น โดยการนำเทคโนโลยีทางคอมพิวเตอร์มาช่วยในการจัดเก็บ ปัจจุบันถือว่าเป็นยุคของข้อมูลขนาดใหญ่ ที่เรียกว่า Big Data เมื่อข้อมูลมีปริมาณมากขึ้น จำเป็นต้องมีเครื่องมือที่ใช้ในการจัดการข้อมูลเหล่านี้ให้มีความถูกต้อง เหมาะสม และสะดวกต่อการวิเคราะห์ข้อมูลเพื่อหาคำตอบในประเด็นทางต่าง ๆ โปรแกรม R (R for Statistical Computing) ถือเป็นโปรแกรมคำนวณทางสถิติที่มีผู้นิยมใช้ในการจัดการและวิเคราะห์ข้อมูลทางสถิติ เพราะเป็นโปรแกรมแบบไม่มีลิขสิทธิ์ทางการค้า (open source) ซึ่งผู้ใช้จำเป็นต้องมีความรู้พื้นฐานการโปรแกรมคอมพิวเตอร์ (computer programming) วิธีการทางสถิติ และการประยุกต์ใช้เทคโนโลยีในการจัดการร่วมกัน ดังนั้นจึงจำเป็นต้องทำความเข้าใจและเรียนรู้การใช้งานเพื่อให้เกิดประโยชน์ต่อการวิเคราะห์ข้อมูล ผู้เขียนจึงสนใจที่จะเข้าอบรมเชิงปฏิบัติการที่ชื่อว่า Workshop on Using R for Analysis of Big Data ที่จัดระหว่างวันที่ 8-11 สิงหาคม 2559 โดยภาควิชาคณิตศาสตร์ คณะวิทยาศาสตร์ มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าธนบุรี

เนื้อหาที่เข้าร่วมอบรมเชิงปฏิบัติการโดย Professor Nagaray, Dr. George Ostrouchov และ Dr. Andrew M. Raim แยกเนื้อหาการอบรมเชิงปฏิบัติการได้ดังรายละเอียดต่อไปนี้

Introduction to Big Data and Why R?

วิทยากรได้อธิบายถึงความรู้เบื้องต้นเกี่ยวกับข้อมูลขนาดใหญ่ (Big Data) โดยกล่าวถึงวิวัฒนาการของการเกิดขึ้นของข้อมูลขนาดใหญ่ อาทิ ข้อมูลที่ได้จากเซนเซอร์ (sensors) ของดาวเทียม ข้อมูลเกี่ยวกับชั้นบรรยากาศ ข้อมูลที่ได้จากกล้องจุลทรรศน์ (microsopy) ข้อมูลนิวตรอน (neutron science) ข้อมูลทางด้านธุรกิจ ข้อมูลทะเบียนราษฎร์ของรัฐบาล ข้อมูลภาษี ข้อมูลจากอินเตอร์เนต เป็นต้น จากนั้นวิทยากรได้ชี้ถึงความสำคัญของข้อมูลว่าเป็นรากฐานที่สำคัญวิทยาศาสตร์และวิวัฒนาการของนักสถิติในการจัดการและวิเคราะห์ข้อมูล เป็นต้น

Introduction to R

วิทยากรได้อธิบายถึงความรู้เบื้องต้นเกี่ยวกับโปรแกรมอาร์ (R-programming) ซึ่งเป็นซอฟต์แวร์ที่อนุญาตให้ใช้ได้โดยไม่ต้องเสียค่าใช้จ่ายใด ๆ ภายใต้ลิขสิทธิ์แบบ GNU General Public License ในรูปรหัส source code โดยโปรแกรมอาร์ ยังเป็นซอฟต์แวร์ที่รวมเอาคุณสมบัติด้านการจัดการข้อมูล การคำนวณ และการแสดงทางกราฟิกไว้ด้วยกันอย่างดี โดยวิทยากรได้อธิบายถึงสภาพแวดล้อม (Environment) ของโปรแกรมอาร์ว่ามีอะไรบ้าง อาทิ มุมมองของโปรแกรมที่เรียกว่า R-GUI โปรแกรมมีสภาพแวดล้อมแบบ object oriented ซึ่งหมายถึงสิ่งต่าง ๆ ที่อยู่ในหน่วยความจำของโปรแกรมอาร์ จะเป็นวัตถุที่จะต้องมีชื่อกำกับเสมอ อีกทั้งโปรแกรมอาร์ยังมีข้อดีที่เป็นจุดเด่น คือ มีโปรแกรมประยุกต์ (package) ที่ผู้ใช้โปรแกรมอาร์ทั่วโลกเขียนขึ้นมาเพื่อใช้เฉพาะเรื่องเป็นจำนวนมาก ผู้ใช้อื่น ๆ สามารถนำโปรแกรมประยุกต์ดังกล่าวมาใช้ได้เลยโดยไม่ต้องกังวลเรื่องลิขสิทธิ์ จากนั้นวิทยากรได้อธิบายถึงคำสั่งเบื้องต้นต่าง ๆ ที่ใช้ในโปรแกรมอาร์ อาทิ คำสั่ง help รูปแบบคำสั่งการกำหนดวัตถุ คำสั่งการคำนวณต่าง ๆ คำสั่งเมทริกซ์ (Matrices) คำสั่งเวคเตอร์ (vectors) คำสั่งอเรย์ (array) คำสั่งเงื่อนไขการเปรียบเทียบ เช่น if then else เป็นต้น นอกจากนั้นวิทยากรได้แนะนำโปรแกรมเพิ่มเติมอื่น ๆ ที่ใช้ร่วมกับโปรแกรมอาร์ โดยจะทำให้การทำงานของโปรแกรมอาร์มีประสิทธิภาพมากยิ่งขึ้น เช่น R Studio ซึ่งเป็นโปรแกรมในกลุ่ม Integrated Development Environment (IDE) ที่นำมาจัดรูปแบบมุมมองของโปรแกรมอาร์ให้สามารถใช้งานได้ง่ายขึ้น ร่วมถึงยังโปรแกรมประยุกต์ที่สำคัญที่จะอำนวยความสะดวกในการจัดการและวิเคราะห์ข้อมูล อาทิ R Commander ที่อำนวยความสะดวกโดยการสร้างสภาพแวดล้อมแบบเมนูและเลือกใช้, Rattle ที่อำนวยความสะดวกในการจัดการเหมืองข้อมูล (data mining) จากนั้นวิทยากรได้ให้ผู้เข้าร่วมการอบรมได้ใช้คำสั่งต่าง ๆ ในการจัดการและวิเคราะห์ข้อมูล เช่น การแจกแจงข้อมูล (distributions) การพรรณนาข้อมูล (descriptive statistics) และการอนุมานเบื้องต้น (basic inference)

Basic Data Analysis

วิทยากรได้อธิบายและนำผู้เข้าร่วมการอบรมใช้โปรแกรมอาร์และโปรแกรมประยุกต์ ในวิเคราะห์ข้อมูลขนาดใหญ่โดย โดยใช้วิธีการทางสถิติ อาทิ การวิเคราะห์การถดถอย (regression) การวิเคราะห์ตัวแบบเชิงเส้นทั่วไป (general linear model: GLM) การวิเคราะห์การจำแนก (classification) การวิเคราะห์การจำแนกและการถดถอยแบบต้นไม้ (classification and regression trees) การวิเคราะห์ random forest การวิเคราะห์การแบ่งกลุ่ม (clustering) การวิเคราะห์ส่วนประกอบหลัก (principal components analysis) การวิเคราะห์เครือข่าย neural เป็นต้น

Getting your data into R

วิทยากรได้อธิบายและนำผู้เข้าร่วมการอบรมใช้โปรแกรมอาร์และโปรแกรมประยุกต์ rattle ในการนำเข้าข้อมูลที่อยู่ในรูปแบบไฟล์ต่าง ๆ อาทิ CSV files, Binary files (rhdf5), SQL databases, SAS (sas7bdat) และ Big datasets โดย

Evaluating Variability and Uncertainty

วิทยาการได้อธิบายและนำผู้เข้าร่วมการอบรมใช้โปรแกรมอาร์ในการประเมินความผันแปรและความไม่แน่นอนของข้อมูล ด้วยวิธีการ Bootstrap, Cross-validation โดยการโปรแกรม (writing code)

Graphics

วิทยาการได้อธิบายและนำผู้เข้าร่วมการอบรมใช้โปรแกรมอาร์ในการสร้างรูปแผนภาพต่าง ๆ เพื่อใช้ในการวิเคราะห์ข้อมูลโดยใช้ Traditional Graphics, ggplot2 และใช้ knitr ดังรูปภาพตัวอย่าง

Parallels

วิทยาการได้อธิบายถึงหลักการของโปรแกรมแบบขนาน ซึ่งมีจุดประสงค์ทำให้โปรแกรมทำงานได้เร็วขึ้น โดยเฉพาะการวิเคราะห์ข้อมูลขนาดใหญ่ (big data) โดยอยู่บนหลักการที่ว่ามีการแบ่งงานใหญ่เป็นงานย่อย ๆ หลาย ๆ งาน จากนั้นส่งงานย่อไปทำงานยังเครื่องประมวลผลหลาย ๆ เครื่องพร้อมกัน แล้วจึงทำการรวบรวมผลที่ได้จากเครื่องประมวลผลต่าง ๆ ดังภาพด้านล่าง

โดยวิทยากรได้นำโปรแกรมประยุกต์ที่ใช้ในโปรแกรมอาร์มาใช้ อาทิ pdbR จากนั้นวิทยากรได้สาธิตและให้ผู้เข้าร่วมอบรมวิเคราะห์ข้อมูลแบบขนาน อาทิ Parallel Bootstrap, Parallel Cross-validation และ Parallel randomForest เป็นต้น รวมทั้งการนำเข้าข้อมูลขนาดใหญ่ด้วยการโปรแกรมแบบขนานด้วย อาทิ Parallel CSV file input, Parallel HDF5 file input และ Parallel ADIOs file input รวมถึงการสร้างโปรแกรมคู่ขนานในการจัดการเมทริกซ์ขนาดใหญ่ให้มีความรวดเร็วในการประมวลผลด้วย เป็นต้น

คำสำคัญ :

Bigdata, R

กลุ่มบทความ :

กลุ่มงานตามสมรรถนะบุคลากร

หมวดหมู่ :

กลุ่มงานสายวิชาการ

แชร์ :

https://erp.mju.ac.th/acticleDetail.aspx?qid=580

ความคิดเห็นทั้งหมด (0)

ไม่มีข้อมูลตามเงื่อนไขที่ท่านกำหนด

รายการบทความการแลกเปลี่ยนเรียนรู้หมวดหมู่ : กลุ่มงานสายวิชาการ

	การเผยแพร่ความรู้ที่ได้จากการเข้าร่วมงานประชุมวิชาการ/อบรม/สัมมนา » การใช้ประโยขน์บริการปัญญาประดิษฐ์เพื่อพัฒนาการให้บริการ
	งานสัมมนา AI Thailand Forums 2024 จัดโดยสมาคมปัญญาประดิษฐ์ และสัมมนาประจำปี AI for Thai: Thai AI Service Platform หัวข้อ AI สัญชาติไทยสู่อุตสาหรรมและการบริการในประเทศไทยจัดโดย สวทช ได้จัดขึ้นเพื่...
	AI การพัฒนางานบริการด้วยAI ปัญญาประดิษฐ์ กลุ่มงานตามสมรรถนะบุคลากร กลุ่มงานสายวิชาการ
	ผู้เขียน วรรณวิมล นาดี วันที่เขียน 31/10/2567 13:34:09 แก้ไขล่าสุดเมื่อ 21/11/2567 13:24:42 เปิดอ่าน 60 ครั้ง \| แสดงความคิดเห็น 0 ครั้ง

	สรุปรายงานการอบรม » สรุปเนื้อหาและประโยชน์ที่ได้รับจากการเข้าร่วมอบรมร่วม: โครงการเสริมประสิทธิภาพการเรียน การสอนแบบ Active Learning
	ตามกรอบมาตรฐานวิชาชีพอาจารย์ระดับอุดมศึกษาคุณภาพอาจารย์ ประกอบด้วย 3 องค์ประกอบ คือ ความรู้ (Knowledge)/สมรรถนะ (Competencies และค่านิยม (Values) โดยเฉพาะในด้านสมรรถณะด้านเสริมสร้างบรรยายกาศการเรีย...
	Active Learnin Engagement skill Thailand PSF กลุ่มงานตามสมรรถนะบุคลากร กลุ่มงานสายวิชาการ
	ผู้เขียน ชมัยพร นิธิกาจณ์พานิช วันที่เขียน 1/10/2567 13:05:39 แก้ไขล่าสุดเมื่อ 21/11/2567 13:39:10 เปิดอ่าน 133 ครั้ง \| แสดงความคิดเห็น 0 ครั้ง

	การเบิกค่าใช้จ่ายโครงการอย่างไร ภายใต้ระเบียบใหม่ของมหาวิทยาลัยแม่โจ้ » การเบิกค่าใช้จ่ายโครงการอย่างไร ภายใต้ระเบียบใหม่ของมหาวิทยาลัยแม่โจ้
	การบริหารจัดการงบประมาณคณะวิทยาศาสตร์ ภายใต้ระเบียบใหม่ของมหาวิทยาลัยแม่โจ้ ประจำปีงบประมาณ 2567 ได้มีการปรับเปลี่ยนรายละเอียดเพื่อเอื้อต่อการทำงาน และเพื่อให้ผู้ที่มีส่วนเกี่ยวข้องได้รับทราบแนวปฏิ...
	กลุ่มงานตามสมรรถนะบุคลากร กลุ่มงานสายวิชาการ
	ผู้เขียน นลิน วงศ์ขัตติยะ วันที่เขียน 28/9/2567 16:33:52 แก้ไขล่าสุดเมื่อ 21/11/2567 13:36:43 เปิดอ่าน 106 ครั้ง \| แสดงความคิดเห็น 0 ครั้ง

	การประชุมวิชาการ » การประชุมวิชาการระดับชาติ นเรศวรวิจัยและนวัตกรรมครั้งที่ 20 "Innovation & Technology for Sustainable Society"

	กลุ่มงานตามสมรรถนะบุคลากร กลุ่มงานสายวิชาการ
	ผู้เขียน พิชามญชุ์ ลิ่มเจริญชาติ วันที่เขียน 26/9/2567 15:08:13 แก้ไขล่าสุดเมื่อ 21/11/2567 13:27:24 เปิดอ่าน 77 ครั้ง \| แสดงความคิดเห็น 0 ครั้ง

	วิทยาศาสตร์และเทคโนโลยี » บพข. หน่วยบริหารและจัดสรรทุนแห่งใหม่
	หน่วยบริหารและจัดการทุนด้านการเพิ่มความสามารถในการแข่งขันของประเทศ (บพช.) มีภาระกิจในการสนับสนุนทุนวิจัยเพื่อเพิ่มความสามารถทางการแข่งขันของประเทศ
	บพช. หน่วยบริหารและสนับสนุนทุนการแข่งขันของประเทศ กลุ่มงานตามสมรรถนะบุคลากร กลุ่มงานสายวิชาการ
	ผู้เขียน กัญญา บุตราช วันที่เขียน 23/9/2567 9:48:03 แก้ไขล่าสุดเมื่อ 21/11/2567 13:28:47 เปิดอ่าน 76 ครั้ง \| แสดงความคิดเห็น 0 ครั้ง