การวิเคราะห์เชิงพรรณนา
การวิเคราะห์ข้อมูล (Data Analysis)
หมายถึง การจัดการข้อมูลด้วยวิธีต่าง ๆ เช่น การคำนวณ การนำเสนอข้อมูล เป็นต้น เพื่อให้ได้ผลลัพธ์ตามวัตถุประสงค์ การวิเคราะห์ เป็นการแยกแยะสิ่งที่จะพิจารณาออกเป็นส่วนย่อยที่มีความสัมพันธ์กัน เพื่อทำความเข้าใจแต่ละส่วนให้แจ่มแจ้ง รวมทั้งการสืบค้นความสัมพันธ์ของส่วนต่าง ๆ เพื่อดูว่าส่วนประกอบปลีกย่อยนั้นสามารถเข้ากันได้หรือไม่ สัมพันธ์เกี่ยวเนื่องกันอย่างไร ซึ่งจะช่วยให้เกิดความเข้าใจต่อสิ่งหนึ่งสิ่งใดอย่างแท้จริง โดยพื้นฐานแล้ว
ทำไมการวิเคราะห์ Big Data จึงมีความสำคัญ
1. ลดต้นทุน : เทคโนโลยีข้อมูลขนาดใหญ่ และการวิเคราะห์บนคลาวด์นำมาซึ่งความได้เปรียบด้านต้นทุนอย่างมีนัยสำคัญเมื่อพูดถึงการจัดเก็บข้อมูลจำนวนมากรวมทั้งสามารถระบุวิธีการทำธุรกิจที่มีประสิทธิภาพมากขึ้น
การวิเคราะห์ข้อมูล (Data Analysis)
หมายถึง การจัดการข้อมูลด้วยวิธีต่าง ๆ เช่น การคำนวณ การนำเสนอข้อมูล เป็นต้น เพื่อให้ได้ผลลัพธ์ตามวัตถุประสงค์ การวิเคราะห์ เป็นการแยกแยะสิ่งที่จะพิจารณาออกเป็นส่วนย่อยที่มีความสัมพันธ์กัน เพื่อทำความเข้าใจแต่ละส่วนให้แจ่มแจ้ง รวมทั้งการสืบค้นความสัมพันธ์ของส่วนต่าง ๆ เพื่อดูว่าส่วนประกอบปลีกย่อยนั้นสามารถเข้ากันได้หรือไม่ สัมพันธ์เกี่ยวเนื่องกันอย่างไร ซึ่งจะช่วยให้เกิดความเข้าใจต่อสิ่งหนึ่งสิ่งใดอย่างแท้จริง โดยพื้นฐานแล้ว
ทำไมการวิเคราะห์ Big Data จึงมีความสำคัญ1. ลดต้นทุน : เทคโนโลยีข้อมูลขนาดใหญ่ และการวิเคราะห์บนคลาวด์นำมาซึ่งความได้เปรียบด้านต้นทุนอย่างมีนัยสำคัญเมื่อพูดถึงการจัดเก็บข้อมูลจำนวนมากรวมทั้งสามารถระบุวิธีการทำธุรกิจที่มีประสิทธิภาพมากขึ้น
2. เร็วกว่าและตัดสินใจดีกว่า : การวิเคราะห์ในหน่วยความจำรวมกับความสามารถในการวิเคราะห์แหล่งข้อมูลใหม่ๆ ของธุรกิจจะสามารถสร้างข้อมูลได้ทันทีและสามารถดำเนินการต่อได้ทันทีจากการวิเคราะห์นั้น ๆ
3. ผลิตภัณฑ์และบริการใหม่ : ด้วยความสามารถในการวัดความต้องการและความพึงพอใจของลูกค้าผ่านการวิเคราะห์นำมาซึ่งสิ่งที่ลูกค้าต้องการ สามารถชี้ให้เห็นว่าด้วยการวิเคราะห์ข้อมูลขนาดใหญ่ของบริษัทต่างๆ จะสามารถสร้างผลิตภัณฑ์ใหม่ ๆ เพื่อตอบสนองความต้องการของลูกค้าได้เป็นอย่างดี
การวิเคราะห์ข้อมูลเชิงพรรณา (Descriptive Statistics) การวิเคราะห์เชิงพรรณนา (descriptive analytics) เป็นการวิเคราะห์ขั้นพื้นฐาน ที่ทำให้เห็นภาพรวมของข้อมูล และความสัมพันธ์ระหว่างข้อมูล ช่วยอธิบายว่าเกิดอะไรขึ้นบ้างในช่วงที่ผ่านมา และอาจนำ มาช่วยในการตัดสินใจ โดยอาจใช้สถิติ เช่น การหาสัดส่วนหรือร้อยละ การวัดค่ากลางของข้อมูล (centraltendency) การหาความสัมพันธ์ของชุดข้อมูล (correlation)
การหาสัดส่วนหรือร้อยละเป็นการจัดการข้อมูลที่ซ้ำกันให้เป็นระเบียบและเป็นหมวดหมู่ ทำให้สะดวกในการนำข้อมูลไปใช้และง่ายต่อการสังเกตการเปลี่ยนแปลงต่างๆ นำไปแสดงในรูปของเศษส่วน ทศนิยม หรือร้อยละ และนำเสนอข้อมูลในรูปแบบของแผนภูมิหรือแผนภาพ เพื่ออธิบายความหมายของข้อมูลชุดนั้น เช่น จำนวนนักเรียนชาย-หญิง ในห้องเรียน แสดงผลเป็นร้อยละต่อจำนวนนักเรียนทั้งห้อง
2. เร็วกว่าและตัดสินใจดีกว่า : การวิเคราะห์ในหน่วยความจำรวมกับความสามารถในการวิเคราะห์แหล่งข้อมูลใหม่ๆ ของธุรกิจจะสามารถสร้างข้อมูลได้ทันทีและสามารถดำเนินการต่อได้ทันทีจากการวิเคราะห์นั้น ๆ
3. ผลิตภัณฑ์และบริการใหม่ : ด้วยความสามารถในการวัดความต้องการและความพึงพอใจของลูกค้าผ่านการวิเคราะห์นำมาซึ่งสิ่งที่ลูกค้าต้องการ สามารถชี้ให้เห็นว่าด้วยการวิเคราะห์ข้อมูลขนาดใหญ่ของบริษัทต่างๆ จะสามารถสร้างผลิตภัณฑ์ใหม่ ๆ เพื่อตอบสนองความต้องการของลูกค้าได้เป็นอย่างดี
การวิเคราะห์ข้อมูลเชิงพรรณา (Descriptive Statistics) การวิเคราะห์เชิงพรรณนา (descriptive analytics) เป็นการวิเคราะห์ขั้นพื้นฐาน ที่ทำให้เห็นภาพรวมของข้อมูล และความสัมพันธ์ระหว่างข้อมูล ช่วยอธิบายว่าเกิดอะไรขึ้นบ้างในช่วงที่ผ่านมา และอาจนำ มาช่วยในการตัดสินใจ โดยอาจใช้สถิติ เช่น การหาสัดส่วนหรือร้อยละ การวัดค่ากลางของข้อมูล (centraltendency) การหาความสัมพันธ์ของชุดข้อมูล (correlation)
การหาสัดส่วนหรือร้อยละเป็นการจัดการข้อมูลที่ซ้ำกันให้เป็นระเบียบและเป็นหมวดหมู่ ทำให้สะดวกในการนำข้อมูลไปใช้และง่ายต่อการสังเกตการเปลี่ยนแปลงต่างๆ นำไปแสดงในรูปของเศษส่วน ทศนิยม หรือร้อยละ และนำเสนอข้อมูลในรูปแบบของแผนภูมิหรือแผนภาพ เพื่ออธิบายความหมายของข้อมูลชุดนั้น เช่น จำนวนนักเรียนชาย-หญิง ในห้องเรียน แสดงผลเป็นร้อยละต่อจำนวนนักเรียนทั้งห้อง
การวัดค่ากลางของข้อมูล
ใช้เพื่อหาค่าที่เป็นตัวแทนของข้อมูลทั้งหมด ทำให้สะดวกในการจดจำ หรือสรุปเรื่องราวเกี่ยวกับข้อมูลชุดนั้น ค่ากลางของข้อมูลที่นิยมใช้ได้แก่ ค่าเฉลี่ย (Mean) มัธยฐาน (Median) และฐานนิยม (Mode) ค่าเฉลี่ยอาจเป็นค่ากลางที่ดี แต่อาจไม่เหมาะสำหรับเป็นค่ากลางของชุดข้อมูลที่มีค่าแตกต่างกันมากๆ (มีค่าสูงมากๆ หรือต่ำมากๆ) ดังนั้นการพิจารณาค่าเฉลี่ยจึงควรพิจารณาการกระจายขอข้อมูลด้วย ซึ่งสามารถดูได้จากค่าส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation)
การวิเคราะห์ความสัมพันธ์เชิงเส้นระหว่างข้อมูล 2 ชุด (pairwise) บ่งบอกถึงทิศทาง (direction) ของความสัมพันธ์ และระดับ (degree) ของความสัมพันธ์
- ทิศทางของความสัมพันธ์ มี 2 กรณี
- ความสัมพันธ์เชิงบวก – สิ่งที่สนใจทั้งสองสิ่งมีการเพิ่มขึ้นหรือลดลงไปในทิศทางเดียวกัน เช่น ค่าของ X เพิ่มขึ้น ค่าของ Y จะเพิ่มขึ้นด้วย
- ความสัมพันธ์เชิงลบ – สิ่งที่สนใจทั้งสองสิ่งมีการเพิ่มขึ้นหรือลดลงไปในทิศทางตรงกันข้าม เช่น ค่าของ X เพิ่มขึ้น แต่ค่าของ Y กลับลดลง
- ระดับของความสัมพันธ์ แบ่งเป็นระดับมาก (strong) ปานกลาง (moderate) หรือน้อย (weak)
การวิเคราะห์ความสัมพันธ์เบื้องต้นสามารถทำได้โดยการนำค่าของข้อมูลทั้ง 2 ชุดมาสร้างแผนภาพการกระจาย ทำให้เห็นทิศทางของความสัมพันธ์ได้ชัดเจน และสามารถประมาณระดับของความสัมพันธ์ได้
แผนภาพการกระจายแสดงความสัมพันธ์ของข้อมูล (จากหนังสือเรียนเทคโนโลยี วิทยาการคำนวณ ม.5)
- ทิศทางของความสัมพันธ์ มี 2 กรณี
- ความสัมพันธ์เชิงบวก – สิ่งที่สนใจทั้งสองสิ่งมีการเพิ่มขึ้นหรือลดลงไปในทิศทางเดียวกัน เช่น ค่าของ X เพิ่มขึ้น ค่าของ Y จะเพิ่มขึ้นด้วย
- ความสัมพันธ์เชิงลบ – สิ่งที่สนใจทั้งสองสิ่งมีการเพิ่มขึ้นหรือลดลงไปในทิศทางตรงกันข้าม เช่น ค่าของ X เพิ่มขึ้น แต่ค่าของ Y กลับลดลง
- ระดับของความสัมพันธ์ แบ่งเป็นระดับมาก (strong) ปานกลาง (moderate) หรือน้อย (weak)
การวิเคราะห์ความสัมพันธ์เบื้องต้นสามารถทำได้โดยการนำค่าของข้อมูลทั้ง 2 ชุดมาสร้างแผนภาพการกระจาย ทำให้เห็นทิศทางของความสัมพันธ์ได้ชัดเจน และสามารถประมาณระดับของความสัมพันธ์ได้
การดูแผนภาพการกระจาย สามารถดูลักษณะความสัมพันธ์ของจุดต่างๆ หรือกลุ่มของจุด ว่าสัมพันธ์กันมาก ปานกลาง หรือน้อย โดยจะพิจารณาความสัมพันธ์ของข้อมูลในรูปแบบของเส้นตรง
ข้อมูลจำนวนวัวป่าและจำนวนม้าลายในป่าแอฟริกา (พันตัว)จากแผนภาพการกระจาย จะเห็นแนวโน้มการกระจายของวัวป่าและม้าลายมีความสัมพันธ์เชิงบวก นั่นคือ เมื่อจำนวนวัวป่าเพิ่มขึ้น จำนวนม้าลายก็จะเพิ่มขึ้นเช่นกัน และมีระดับของความสัมพันธ์เชิงเส้นค่อนข้างสูง เนื่องจากจุดมีการเกาะกลุ่มในลักษณะเป็นแนวเส้นตรง
ข้อควรระวัง ในการอภิปรายผลของการวิเคราะห์ความสัมพันธ์ คือ ค่าความสัมพันธ์บอกได้เพียงว่า ข้อมูลทั้งสองชุดมีความสัมพันธ์กันหรือไม่ มีทิศทางสัมพันธ์เป็นแบบใด
และมีระดับความสัมพันธ์มากหรือน้อยเพียงใด แต่ไม่สามารถสรุปว่าข้อมูลชุดหนึ่งส่งผลต่อการเปลี่ยนแปลงค่าของข้อมูลอีกชุดหนึ่งตัวอย่างเช่น หากเกิดภัยแล้งแล้วทำให้จำนวนวัวป่าและม้าลายลดลงพร้อมกัน จึงสรุปไม่ได้ว่าการลดลงของจำนวนวัวป่าส่งผลต่อการลดลงของจำนวนม้าลาย เนื่องจากอาจมีปัจจัยอื่นเข้ามาเกี่ยวข้อง
จากแผนภาพการกระจาย จะเห็นแนวโน้มการกระจายของวัวป่าและม้าลายมีความสัมพันธ์เชิงบวก นั่นคือ เมื่อจำนวนวัวป่าเพิ่มขึ้น จำนวนม้าลายก็จะเพิ่มขึ้นเช่นกัน และมีระดับของความสัมพันธ์เชิงเส้นค่อนข้างสูง เนื่องจากจุดมีการเกาะกลุ่มในลักษณะเป็นแนวเส้นตรง
ข้อควรระวัง ในการอภิปรายผลของการวิเคราะห์ความสัมพันธ์ คือ ค่าความสัมพันธ์บอกได้เพียงว่า ข้อมูลทั้งสองชุดมีความสัมพันธ์กันหรือไม่ มีทิศทางสัมพันธ์เป็นแบบใด
และมีระดับความสัมพันธ์มากหรือน้อยเพียงใด แต่ไม่สามารถสรุปว่าข้อมูลชุดหนึ่งส่งผลต่อการเปลี่ยนแปลงค่าของข้อมูลอีกชุดหนึ่งตัวอย่างเช่น หากเกิดภัยแล้งแล้วทำให้จำนวนวัวป่าและม้าลายลดลงพร้อมกัน จึงสรุปไม่ได้ว่าการลดลงของจำนวนวัวป่าส่งผลต่อการลดลงของจำนวนม้าลาย เนื่องจากอาจมีปัจจัยอื่นเข้ามาเกี่ยวข้อง
ไม่มีความคิดเห็น:
แสดงความคิดเห็น