การวิเคราะห์รีเกรสชัน (Regression Analysis)
หน้าแรก Data Mining การวิเคราะห์รีเกรสชัน (Regression Analysis)
ในการแก้ปัญหาอาจมี 2 ตัวแปรหรือมากกว่าเข้ามาเกี่ยวข้องด้วย มีความจำเป็นหรือความสำคัญที่ต้องหาแบบหุ่นและสำรวจความสัมพันธ์ของตัวแปรเหล่านั้น เช่น ในกระบวนการสังเคราะห์ทางเคมีผลผลิตที่ได้มีความสัมพันธ์กับอุณหภูมิที่ใช้ในการผลิตจึงสนใจที่จะสร้างแบบหุ่นที่แสดงความสัมพันธ์ระหว่างผลผลิตที่ได้กับอุณหภูมิที่ใช้ และนำแบบหุ่นนี้ไปใช้ในการคาดคะเน (Prediction) หรือปรับกระบวนการให้เหมาะสม (Process optimization) หรืออาจใช้ในการควบคุมกระบวนการผลิต (Process control)
โดยทั่วไป ตัวแปรตามแต่ละตัวแปรหรือค่าตอบสนอง (Response; Y) จะขึ้นกับตัวแปรอิสระ K (Independent หรือ Regressor variables) เช่น X1,X2,
,Xk ความสัมพันธ์ระหว่างตัวแปรเหล่านี้ สามารถอธิบายโดยแบบหุ่นทางคณิตศาสตร์ที่เรียกว่า สมการรีเกรสชัน ( สมการถดถอย : Regression equation) แบบหุ่นรีเกรสชันสอดคล้องกับกลุ่มข้อมูลของตัวอย่าง บางกรณีผู้ทดลองทราบถึงฟังก์ชันความสัมพันธ์ที่แท้จริงระหว่างตัวแปร เช่น y = (x1,x2,
xk) เป็นต้น อย่างไรก็ตาม โดยส่วนใหญ่จะไม่ทราบฟังก์ชันความสัมพันธ์ที่แท้จริงระหว่างตัวแปร ดังนี้ผู้ทดลองจึงประมาณค่าของฟังก์ชันเพื่อประมาณค่า
โดยมักใช้แบบหุ่นของโพลีโนเมียล (Polynomial)
วิธีรีเกรสชัน อาจใช้วิเคราะห์ข้อมูลจากการทดลองที่ไม่ได้วางแผน เช่น อาจนำข้อมูลจาก ปรากฎการณ์ที่ไม่สามารถควบคุมได้หรือข้อมูลทางประวัติศาสตร์ อย่างไรก็ตาม การวิเคราะห์รีเกรสชันมีประโยชน์อย่างมากสำหรับการทดลองที่มีการวางแผนไว้ อาจกล่าวได้ว่า การวิเคราะห์ความแปรปรวน (ANOVA) เป็นการวางแผนการทดลองเพื่อช่วยในการจำแนกว่าปัจจัยใดสำคัญขณะที่รีเกรสชันใช้เพื่อสร้างแบบหุ่นความสัมพันธ์เชิงปริมาณของปัจจัยที่สำคัญต่อค่าตอบสนอง
รีเกรสชันเส้นตรงแบบง่าย (Simple Linear Regression)
หากต้องการหาความสัมพันธ์ระหว่างตัวแปรอิสระตัวแปรเดียว (x) กับค่าตอบสนอง y ตัวแปร x มักเป็นตัวแปรชนิดต่อเนื่อง นั่นคือ สามารถควบคุมได้โดยผู้ทดลอง ซึ่งให้ค่าตอบสนองหรือค่าสังเกต y ที่ได้
หากความสัมพันธ์ที่แท้จริงระหว่าง y และ x เป็นเส้นตรง และค่าสังเกต y ในแต่ละระดับของ x เป็นตัวแปรอิสระ แบบหุ่นที่ได้จะเป็น
หากมีข้อมูล n คู่ เช่น (y 1 ,x 1 ) , (y 2 ,x 2 ),
, (y n ,x n ) จะสามรถประมาณค่าของพารามิเตอร์ของแบบหุ่น และ
โดยวิธี Least squares ซึ่งจะได้แบบหุ่น fitted simple linear regression ดังนี้
ตัวอย่าง 4.1 ในการศึกษาถึงผลของอัตรากวนต่อปริมาณสารอินทรีย์ที่ได้ในการผลิตกรดอะมิโนชนิดหนึ่งได้ผลดังนี้ ( ดัดแปลงจาก Montgomery ,1991)
อัตราการกวน (rpm) | 20 | 22 | 24 | 26 | 28 | 30 | 32 | 34 | 36 | 38 | 40 | 42 |
กรดอะมิโนที่ได้ (mole) | 8.4 | 9.5 | 11.8 | 10.4 | 13.3 | 14.8 | 13.2 | 14.7 | 16.4 | 16.5 | 18.9 | 18.5 |
- การทำการวิเคราะห์ Simple linear regression โดย Statistix
ทำการป้อนข้อมูล โดยสร้างตัวแปร 2 ตัวแปร และป้อนในลักษณะรูปที่ 4.1 จากนั้นทำการวิเคราะห์โดยเลือกเมนู StatisticLinear ModelsLinear Regression
เลือกตัวแปรตามคือ Yield และตัวแปรอิสระ คือ Speed ให้สังเกตรูปที่ 4.1 ให้เลือก fit constant เพื่อคำนวณค่า ด้วย ( หากแบบหุ่นหรือสมการตัดจุด origin ไม่ต้องเลือก fit constant )

รูปที่ 4.1 การป้อนข้อมูลสำหรับการวิเคราะห์ Linear Regression โดย SXW

รูปที่ 4.2 การเลือกตัวแปรเพื่อการวิเคราะห์ Linear Regression
ได้ผลการวิเคราะห์ดังนี้
สมการที่ได้จะเป็น
Yieid = -0.28928 + 0.45664 * speed
โดยที่มีค่า R Square (สัมประสิทธ์ของการตัดสินใจ ; Coefficient of Determination) = 0.9338 หรือ 93.38 % ค่า R 2 นี้อธิบายได้ว่า ผลของ Yield (y) ที่ได้เป็นผลหรืออิทธิพลจากตัวแปร Speed(x) 93.38 % ส่วนที่เหลืออีก 6.62 % เป็นผลจากตัวแปรหรือปัจจัยอื่นที่ไม่ทราบได้ ดังนั้นหากมีสามการมีค่า R square ยิ่งสูงเท่าใด ความแม่นยำของการนำสมการไปใช้เพื่อทำนายหรือคาดคะเนผลลัพธ์ย่อมมีสูงมากยิ่งขึ้น โดยทั่วไป สมการที่มักนำไปใช้ควรมีค่า R Square อย่างน้อย 0.75 (Haaland , 1989 และ Hu , 1999) หากสูงกว่า 0.90 ถือว่าดีมาก (ค่า R 2 มีค่าตั้งแต่ 0 ถึง 1 โดยที่ 0 แสดงว่าไม่มีความสัมพันธ์ใด ๆ ระหว่างตัวแปรตามและอิสระ , 1 แสดงว่ามีความสัมพันธ์กันอย่างสมบูรณ์) อย่างไรก็ตามค่า R 2 เป็นการประมาณ Goodness of fit ที่เกินจริง จึงมักใช้ค่า adjusted R square ในการวัด Goodness of fit แทน (Hu, 1999) โดยทั่วไป adjusted R Square จะมีค่าต่ำกว่า�ค่า R Square เล็กน้อย และในบางกรณีอาจพบเป็นค่าติดลบได้ ในการวิเคราะห์ Regression ต้องทดสอบสมมุติฐานและแสดงค่า F-ratio หรือ P ไว้ด้วยเสมอ ค่าF-ratio หรือค่า P ซึ่งจะแสดงผลการวิเคราะห์ตามสมมุติฐาน ดังนี้
นั่นคือ ค่า : จะเท่ากับค่าใดค่าหนึ่ง เช่น 0 หรือไม่ หากยอมรับ H o ย่อมแสดงว่า ไม่มีความสัมพันธ์ระหว่างค่า x และ y ในทางตรงข้ามหากปฏิเสธ H o ย่อมแสดงว่ามีความสัมพันธ์กันระหว่าง ค่า x และ y หรือเป็นการทดสอบว่า ค่า R 2 เป็น 0 หรือไม่หาก P มีค่ามากกว่า 0.05 นั่นคือ แบบหุ่นที่กำหนดไว้ไม่มีนัยสำคัญทางสถิติกับข้อมูลดังกล่าว หรือค่า R Square เท่ากับ 0 นั่นเอง สำหรับ SXW หากค่า P มากกว่า 0.05 โปรแกรมจะไม่แสดงค่าตัวแปรและสัมประสิทธิ์ ใน Predictor variables อย่างไรก็ตาม หากค่า P น้อยกว่าหรือเท่ากับ 0.05 โปรแกรมจะแสดงค่าตัวแปรและสัมประสิทธิ์ใน Predictor variables (ให้สังเกตค่า P หลังตัวแปรใน Predictor variables ซึ่งจะมีค่าสอดคล้องกับค่า P ในส่วนท้ายของการวิเคราะห์)
- การวิเคราะห์ Simple linear regression โดย SPSS
การป้อนข้อมูล มีลักษณะเช่นเดียวกับ SXW คือมี 2 ตัวแปร ดังรูปที่ 4.3
รูปที่ 4.3 การป้อนข้อมูลสำหรับการวิเคราะห์ Linear Regression โดย SPSS
จากนั้นทำการวิเคราะห์โดย เลือกเมนู Analyze RegressionLinear
จะแสดงช่องให้เลือกตัวแปรตามและตัวแปรอิสระดังรูปที่ 4.4
รูปที่ 4.4 การเลือกตัวแปรในการวิเคราะห์ Simple Linear Regression

รูปที่ 4.5 การกำหนดการวิเคราะห์ค่าคงที่ ผลการวิเคราะห์เป็นดังนี้
หากต้องการคำนวณค่าคงที่ ให้เลือกที่ Options และเลือกช่อง include constant in equation ( โดยปกติ โปรแกรมกำหนดให้คำนวณค่าคงที่ไว้เสมอ ) และกำหนดวิธีการวิเคราะห์ (Method) เป็นแบบ Enter ดังรูปที่ 4.5




ผลการวิเคราะห์ที่ได้ แสดงชื่อตัวแปรและวิธีที่ใช้ในการวิเคราะห์ พบว่า ความสัมพันธ์ที่ได้เป็นสมการเส้นตรงคือ
Yield = -0.289 + 0.457 * Speed โดยที่มีค่า R Square = 0.934
รีเกรสชันเส้นตรงแบบหลายตัวแปร (Multiple Linear Regression)
ในการทดลองโดยทั่วไป มักมีตัวแปรอิสระที่สนใจศึกษามากกว่า 1 ตัวแปร เช่น ผลผลิตที่ได้อาจขึ้นกับอุณหภูมิ ระยะเวลาในการผลิต หรือความดัน เป็นต้น แบบหุ่นทั่วไปมีลักษณะดังนี้
การทดสอบสมมุติฐาน โดยการกำหนดสมมุติฐาน ดังนี้
ตัวอย่างที่ 4.2 ในการศึกษาถึงอุณหภูมิ ความดัน และความเข้มข้นของสารตั้งต้น ต่อการผลิตสารชนิดหนึ่ง โดยที่แต่ละปัจจัยมีการผันแปร 2 ระดับ และใช้การจัดการทดลองแบบ 23 Factorial ได้ผลการทดลองดังนี้
สิ่งทดลองที่ | X1 (temp) | X2(pressure) | X3(% conc.) | Y(yield) |
1 2 3 4 5 6 7 8 | -1 1 -1 1 -1 1 -1 1 | -1 -1 1 1 -1 -1 1 1 | -1 -1 -1 -1 1 1 1 1 | 32 46 57 65 36 48 57 68 |
- การวิเคราะห์ Multiple linear regression โดย Statistix
ทำการป้อนข้อมูล โดยสร้าง 4 ตัวแปร และป้อนในแนวคอลัมน์ดังรูปที่ ให้สังเกตว่าจะใช้รหัส (code) สำหรับระดับต่างๆ ในแต่ละตัวแปร

รูปที่ 4.6 การป้อนข้อมูลสำหรับ Multiple linear regression
ในการวิเคราะห์ให้เลือกเมนูเมนู StatisticLinear ModelsLinear Regression และเลือกตัวแปรตามและอิสระ รวมทั้งการคำนวณค่าคงที่

รูปที่ 4.7 การเลือกตัวแปรเพื่อวิเคราะห์ Multiple linear regression
ผลการวิเคราะห์เป็นดังนี้
จากผลการวิเคราะห์ข้างต้น การทดสอบสมมุติฐาน (Regession) มีค่า P เท่ากับ 0.0001 ทำให้ทราบว่ามี อย่างน้อย 1 ค่าที่ไม่เท่ากับ 0 เมื่อพิจารณาตัวแปรอิสระ พบว่าตัวแปร Pressure และ Temp มีค่า P น้อยกว่า 0.05 (0.0000 และ 0.0006 ตามลำดับ ) ส่วนตัวแปร Conc มีค่า P 0.1210 ซึ่งอาจจะไม่ใช้ตัวแปร Conc ในสมการก็ได้ โดยให้นำออกจากตัวแปรอิสระในรูปที่
เหลือเฉพาะตัวแปร Temp และ Pressure และทำการวิเคราะห์ต่อไป จะได้ค่า R 2 จากเฉพาะ 2 ตัวแปร หากไม่นำตัวแปร Conc ออก ค่า R 2 ที่ได้จะเป็นของทั้ง 3 ตัวแปร
จากผลการวิเคราะห์ได้สมการความสัมพันธ์ดังนี้
Yield = 51.125 + 1.125*Conc + 10.625*Pressure + 5.625*Temp ; R Square = 0.9911
จากสัมประสิทธ์ของแต่ละตัวแปร ทำให้ทราบได้ว่าตัวแปรใดมีอิทธิพลสูงกว่า กล่าวคือ เนื่องจากระดับที่ผันแปรในตัวแปรได้เข้ารหัสไว้ ( คือ 1 และ 1) หากสัมประสิทธิ์ของตัวแปรสูงกว่าตัวแปรอื่น ( ไม่คิดเครื่องหมายบวกหรือลบ เครื่องหมายดังกล่าวแสดงว่ามีความสัมพันธ์แบบแปรตามกันหรือแปรผกผันกัน ตามลำดับ ) ย่อมแสดงว่า ตัวแปรนั้นมีอิทธิพลต่อค่า y สูงกว่าอีกตัวแปรหนึ่ง นอกจากนี้ อาจสังเกตได้จากค่า P ของตัวแปร โดยยิ่งมีค่า P น้อยเท่าใด จะมีอิทธิพลมากขึ้นเท่านั้น
จากตัวอย่าง สังเกตได้ว่า ทุกตัวแปรอิสระมีอิทธิพลทางบวก ( มีสัมประสิทธ์เป็นบวก ) กล่าวคือ หากเพิ่มระดับของตัวแปรขึ้นจาก 1 ถึง 1 ค่า y ที่ได้จะเพิ่มสูงขึ้น หารต้องการค่า Yield สูงสุดจึงควรใช้ที่ระดับของแต่ละตัวแปรที่ระดับสูงทั้งสิ้น
นอกจากนี้หาก Yield สูงสุดไม่ใช่สิ่งที่พิจารณาเพียงอย่างเดียว การพิจารณาระดับความดัน อุณหภูมิและความเข้มข้นของที่สนใจหรือภายใต้ข้อจำกัดอื่น อาจนำไปคำนวณหา Yield ที่คาดว่าจะได้ ซึ่งเป็นอีกทางเลือกหนึ่งในการนำไปประยุกต์ใช้
สำหรับการวิเคราะห์ผลโดย SPSS นั้น สามารถใช้หลักเกณฑ์ดังที่ได้กล่าวในก่อนหน้า
Refer: http://www.agro.cmu.ac.th/e_books/605312/regression/regression_analysis/regression_analysis.html
http://dusithost.dusit.ac.th/~prisana_mut/ppt/forcasting/time1_regression.ppt
ขึ้นไปด้านบน
