เหตุผลในการใช้การทดลองสุ่มแบบมีกลุ่มควบคุม (RCT)

สมมติว่าเราเป็นคุณครูระดับปฐมวัยหรือผู้บริหารของศูนย์พัฒนาเด็กเล็กแห่งหนึ่ง เราต้องการให้เด็กเล็กในโรงเรียนมีพัฒนาการที่ดีขึ้น เราจึงได้หาข้อมูลจากงานวิจัยและรายงานต่าง ๆ เพื่อดูว่ามีสิ่งใดบ้างที่เราพอจะทำได้เพื่อให้เด็ก ๆ มีพัฒนาการที่ดีขึ้น จึงพบว่ามีหลายโครงการที่น่าสนใจ ไม่ว่าจะเป็นโครงการอาหารกลางวันที่ดีต่อสุขภาพและเหมาะสมกับวัยของเด็ก โครงการนมโรงเรียน โครงการอบรมเพื่อเพิ่มศักยภาพการสอนของคุณครู หรือโครงการยืมหนังสือนิทานกลับบ้าน เป็นต้น หลังจากหารือร่วมกับทีมงานของศูนย์พัฒนาเด็กเล็กแล้ว ทีมงานจึงได้ตัดสินใจเลือกโครงการหนังสือนิทานขึ้นมาดำเนินการก่อนเพียงโครงการเดียว เนื่องจากทรัพยากรต่าง ๆ ที่จำกัด และทางศูนย์ฯ ต้องการประเมินผลของโครงการด้วย ทั้งนี้ หากเราดำเนินการหลาย ๆ โครงการพร้อมกัน การประเมินผลของแต่ละโครงการย่อมเป็นไปได้ยาก เนื่องจากเราไม่สามารถแยกได้ว่าพัฒนาการของเด็กที่เปลี่ยนไป เกิดขึ้นจากโครงการใดบ้าง และเป็นสัดส่วนเท่าไหร่ ทางทีมจึงได้วางแผนการประเมินผลโครงการยืมหนังสือนิทานกลับบ้าน ดังนั้นทีมต้องช่วยกันตัดสินใจด้วยว่าจะประเมินโครงการนี้อย่างไรดี

คำนิยามศัพท์พื้นฐานในการประเมินผลโครงการ

ก่อนที่จะอธิบายถึงวิธีการประเมินโครงการแบบต่าง ๆ เราต้องทำความเข้าใจกับนิยามคำศัพท์มาตรฐานที่ใช้ในการประเมินผลโครงการกันเสียก่อน
1. ความเป็นเหตุเป็นผล (causal inference/causality)
ในการประเมินผลโครงการ “ความเป็นเหตุเป็นผล” มีความหมายแตกต่างจากที่ใช้กันในชีวิตประจำวันทั่วไป ในที่นี้ “ความเป็นเหตุเป็นผล” คือ เมื่อเราสามารถพูดได้ว่า ความเปลี่ยนแปลงที่เราสังเกตเห็นและที่เราวัดได้ เป็นผลมาจากโครงการของเราเพียงอย่างเดียวเท่านั้น โดยไม่มีปัจจัยอื่นใด ๆ ที่ส่งผลต่อการเปลี่ยนแปลงนั้น
2. เกี่ยวกับผลประมาณการของโครงการ
เป้าหมายของการประเมินผลโครงการคือเพื่อที่จะประมาณการขนาดของผลของโครงการ (effect size) ได้อย่างถูกต้อง (accurate) และแม่นยำ (precise) โดยคำว่าถูกต้อง (accurate) บางครั้งเรียกว่า ไม่ลำเอียง (unbiased) และคำว่าแม่นยำ (precise) บางครั้งเรียกว่า น่าเชื่อถือ (reliable) (ดูรูปที่ 1 ประกอบ)

รูปที่ 1: แสดงแผนภาพเป้าหมายของการประเมินผลโครงการ

ขอยกตัวอย่างการวัดความสูงเฉลี่ยของเด็กเล็กในเขตจตุจักร กรุงเทพมหานคร สมมติว่าค่าเฉลี่ยที่แท้จริงของความสูงของเด็กเล็กทุกคนในเขตจตุจักร คือค่าที่อยู่ตรงกลางของเป้า เมื่อเราต้องการจะหาค่านั้น วิธีที่จะได้ค่าที่ถูกต้องและแม่นยำที่สุดคือนำเครื่องมือวัดส่วนสูงที่เที่ยงตรงไปวัดความสูงของเด็กเล็กทุกคนในเขตจตุจักร จากนั้นนำมาหาค่าเฉลี่ย ในกรณีนี้จะเป็นภาพบนขวา ซึ่งการวัดแต่ละครั้งอาจจะมีคลาดเคลื่อนบ้างแต่เพียงเล็กน้อย เช่น อาจจะมีเด็กบางคนที่ใส่รองเท้า อย่างไรก็ตาม การไปวัดส่วนสูงของเด็กทุกคนนั้นไม่ใช่เรื่องง่าย จึงต้องมีการสุ่มวัดส่วนสูงเด็กแค่บางคน และอาจจะสุ่มวัดหลาย ๆ ครั้ง และหาส่วนสูงเฉลี่ยของการสุ่มในแต่ละครั้ง เพื่อยืนยันความถูกต้อง

ในกรณีของรูปล่างขวา เราจะเห็นว่าค่าส่วนสูงเฉลี่ยของการสุ่มในแต่ละครั้งค่อนข้างกระจาย คือไม่แม่นยำ แต่ยังกระจายรอบ ๆ ค่าที่แท้จริง ซึ่งทำให้โดยเฉลี่ยแล้วค่าประมาณ (estimate) นี้ ยังเป็นค่าที่ถูกต้อง

ในกรณีของรูปบนซ้าย ค่าส่วนสูงเฉลี่ยจากการสุ่มแต่ละครั้งนั้น ค่อนข้างกระจุก นั่นคือแม่นยำ แต่กระจุกอยู่ผิดที่ เช่นนี้คือได้ค่าประมาณที่ไม่ถูกต้อง ซึ่งอาจจะเกิดขึ้นได้จากหลายสาเหตุ เช่นอุปกรณ์วัดที่ใช้สเกลผิด

ในกรณีสุดท้ายที่รูปล่างซ้าย นอกจากค่าส่วนสูงเฉลี่ยจากการสุ่มแต่ละครั้งจะอยู่ค่อนข้างกระจายจากกันแล้ว (ไม่แม่นยำ) ค่าเฉลี่ยเหล่านั้นยังอยู่รอบ ๆ ค่าที่ไม่ถูกต้องอีกด้วย

3. counterfactual คือ สถานการณ์ในโลกอีกใบที่ผู้เข้าร่วมโครงการจะได้ประสบ เมื่อในโลกเสมือนนั้นไม่ได้มีโครงการ ดังนั้น counterfactual ก็คือ ผู้เข้าร่วมโครงการในโลกคู่ขนานที่ไม่ได้เข้าโครงการนั่นเอง

เราจะวัดผลที่เกิดขึ้นจากโครงการได้อย่างไร (Glennerster & Takavarasha, 2013)

กลับมาที่คำถามของกลุ่มคุณครูจะสามารถใช้วิธีใดในการประเมินผลของโครงการได้บ้าง ก่อนอื่นต้องเข้าใจก่อนว่า ผลที่เกิดขึ้นจากโครงการ คือ การเปรียบเทียบระหว่าง สิ่งที่เกิดขึ้นจริงหลังโครงการ และ สิ่งที่สามารถเกิดขึ้นได้ หากไม่มีโครงการนี้ (หรือที่เรียกว่า counterfactual)

ยกตัวอย่าง หลังจากโครงการยืมนิทานกลับบ้านของศูนย์ฯ ดำเนินการไปได้ 6 เดือน เด็ก ๆ มีพัฒนาการด้านทักษะความเข้าใจภาษาเพิ่มขึ้น 30% นี่คือสิ่งที่เกิดขึ้นจริงหลังโครงการ ส่วน counterfactual คือ พัฒนาการด้านทักษะความเข้าใจภาษาของเด็ก ๆ เหล่านี้ หากทางศูนย์ฯ ไม่ได้จัดทำโครงการยืมนิทานกลับบ้าน ซึ่งจะเป็นเท่าไหร่นั้น เราไม่มีข้อมูลเลย เนื่องจากสถานการณ์นี้ไม่ได้เกิดขึ้นจริง ดังนั้น เราต้องหากลุ่มเปรียบเทียบที่มีอยู่จริง ควรจะต้องมีคุณลักษณะเหมือนผู้ที่เข้าโครงการทุกอย่าง เพียงแต่ว่าไม่ได้เข้าร่วมโครงการเท่านั้น ดังนั้น กุญแจสำคัญในการประเมินผลโครงการให้แม่นยำ คือคุณภาพของการเลือกหรือการสร้างกลุ่มเปรียบเทียบให้สมจริง

วิธีการอะไรบ้างที่ใช้ในการประเมินผลโครงการ

ในวิธีการวัดผลโครงการแบบต่าง ๆ จะใช้กลุ่มเปรียบเทียบที่แตกต่างกันไป โดยจะขออธิบายโดยใช้ตัวอย่างโครงการยืมหนังสือนิทานกลับบ้านข้างต้น และสมมติว่าเราสามารถวัดทักษะการใช้ภาษาของเด็กได้ โดยใช้คะแนนจากแบบทดสอบด้านความเข้าใจภาษา ที่มีคะแนนเต็ม 10 คะแนน

การวัดผลก่อนและหลังโครงการ (Pre-Post)

วิธีที่ใช้กันอย่างแพร่หลาย คือการวัดและเปรียบเทียบผลก่อนและหลังโครงการ (Pre-Post) โดยในวิธีนี้ กลุ่มเปรียบเทียบคือ เด็กๆ กลุ่มเดิมในช่วงก่อนได้รับโครงการ จากตัวอย่างโครงการยืมหนังสือนิทานกลับบ้าน สมมติว่าก่อนเริ่มโครงการ ทีมงานได้เก็บข้อมูลคะแนนสอบด้านความเข้าใจภาษาของเด็ก และคะแนนเฉลี่ยของเด็ก คือ 5 คะแนน และหลังดำเนินโครงการ ได้ 6 เดือน เด็ก ๆ มีคะแนนเฉลี่ย 6.5 คะแนน ดังนั้น เราจะประมาณการผลของโครงการด้วยวิธี Pre-Post ได้ว่าโครงการมีผลส่งเสริมทักษะการเข้าใจภาษาของเด็ก ได้ 1.5 คะแนน (คิดเป็น 30%) แต่ลองคิดดูดี ๆ ว่าในกรณีนี้ผลของโครงการ คือ พัฒนาการด้านทักษะความเข้าใจภาษาที่เพิ่มขึ้น 30% จริงหรือไม่ การใช้เด็ก ๆ ในช่วงก่อนโครงการ เป็นกลุ่มเปรียบเทียบที่เลียนแบบ counterfactual ได้ดีหรือไม่ เรามาลองถามตัวเองก่อนว่า หากไม่มีโครงการนี้เลย เด็ก ๆ จะมีพัฒนาการด้านทักษะความเข้าใจภาษาอยู่แล้วหรือไม่ (และเป็นจำนวนเท่าไหร่) อาจจะเนื่องด้วยวัยที่โตขึ้น หรือมีเหตุการณ์บางอย่างเกิดขึ้น (ที่ไม่เกี่ยวกับโครงการฯ) ระหว่างการดำเนินโครงการ เช่น มีการจ้างครูพี่เลี้ยงเพิ่มขึ้นทำให้มีการอ่านนิทานในโรงเรียนเพิ่มขึ้น เป็นต้น ถ้าคำตอบคือ เด็กๆ น่าจะมีพัฒนาการด้านความเข้าใจภาษาอยู่แล้วแม้จะไม่มีโครงการนี้ (เช่น คะแนนเด็กจะเพิ่มขึ้นโดยเฉลี่ย 0.5 คะแนน อยู่แล้ว) วิธีเปรียบเทียบ Pre-Post แบบตรง ๆ ก็ไม่สามารถช่วยให้เราประเมินผลโครงการได้อย่างแม่นยำ

การวัดผลโดยดูจากความแตกต่างระหว่างกลุ่มที่อยู่ในโครงการและไม่ได้อยู่ในโครงการ (Simple difference)

ในบางกรณีที่มีการเก็บข้อมูลหลังจากโครงการสิ้นสุดเพียงครั้งเดียว วิธีที่ใช้กันทั่วไปวิธีหนึ่งคือ การเปรียบเทียบคะแนนของเด็กกลุ่มที่อยู่ในโครงการและเด็กที่ไม่อยู่ในโครงการ ซึ่งผู้ประเมินใช้เป็นกลุ่มเปรียบเทียบ ในตัวอย่างโครงการยืมหนังสือนิทานกลับบ้าน สมมติว่าหลังดำเนินโครงการไปได้ 6 เดือน เด็กที่อยู่ในโครงการมีคะแนนเฉลี่ย 6 คะแนน ส่วนเด็กที่ไม่อยู่ในโครงการมีคะแนนเฉลี่ย 6.5 คะแนน วิธี simple difference จะประมาณค่าผลของโครงการด้วยการคำนวณส่วนต่างของคะแนนเฉลี่ยเด็กที่อยู่และไม่อยู่ในโครงการ นั่นคือผลของโครงการมีค่าติดลบ 0.5 คะแนน หมายความว่าโครงการนี้ไม่ได้ช่วยเด็กเพิ่มทักษะการเข้าใจภาษาเลย แต่กลับบั่นทอนด้วยซ้ำ แต่ก่อนที่เราจะเชื่อผลนี้ ลองตั้งคำถามก่อนว่าเด็กสองกลุ่มนี้เป็นเด็กที่เทียบกันได้จริงหรือไม่ มีหลายกรณีที่ปรากฏว่าเด็กในกลุ่มที่อยู่ในโครงการประเภทนี้ มักเป็นเด็กที่มีพัฒนาการที่ช้ากว่า หรือเป็นเด็กในครอบครัวที่มีทรัพยากรน้อยกว่า จึงได้เข้าโครงการ ในขณะที่เด็กในกลุ่มที่ไม่อยู่ในโครงการเป็นเด็กที่มีพัฒนาการดีกว่าอยู่แล้ว อาจจะเพราะมีครอบครัวที่พร้อมมากกว่า มีหนังสือนิทานที่บ้านมากกว่าอยู่แล้ว ดังนั้นแม้กระทั่งหลังสิ้นสุดโครงการ เด็กกลุ่มหลังนี้ก็ยังมีพัฒนาการที่ดีกว่าเด็กในโครงการ ดังนั้นการเปรียบเทียบเด็กสองกลุ่มอย่างง่ายเช่นนี้ (โดยไม่ควบคุมคุณลักษณะของทั้งสองกลุ่มให้ใกล้เคียงกันมากที่สุด) จะทำให้การประเมินผลของโครงการไม่แม่นยำ

การวัดผลโดยดูจากความแตกต่างในความแตกต่าง (Difference-in-Difference)

ในเมื่อเด็ก ๆ อาจจะมีพัฒนาการด้านทักษะความเข้าใจภาษาอยู่แล้วแม้ไม่มีโครงการ และเด็กทั้งสองกลุ่มมีจุดเริ่มต้นไม่เท่ากัน ถ้าเช่นนั้นการเปรียบเทียบความแตกต่างของคะแนนระหว่างก่อนและหลังโครงการ ระหว่างทั้งกลุ่มที่ได้และไม่ได้โครงการ น่าจะทำให้การประเมินผลของโครงการแม่นยำขึ้นหรือไม่ วิธีนี้เลียนแบบ counterfactual ด้วยการนำความชัน (slope) ของพัฒนาการของกลุ่มที่ไม่ได้รับโครงการ มาเทียบกับความชันของกลุ่มที่อยู่ในโครงการ โดยให้เริ่มที่จุดเริ่มต้นของกลุ่มที่ได้รับโครงการอีกครั้ง (ดูรูปที่ 2 ประกอบ) ก่อนจะเชื่อการประเมินผลจากวิธีนี้ เราต้องถามก่อนว่าตัวแทน counterfactual แบบนี้สมเหตุสมผลหรือไม่ นั่นคือหากไม่ได้อยู่ในโครงการ เด็กทั้งสองกลุ่มจะมีพัฒนาการคล้ายกันหรือไม่ หากไม่ใช่ วิธีนี้ก็ไม่สามารถประเมินผลโครงการได้แม่นยำเช่นกัน เช่นเป็นไปได้ไหมว่าเด็กกลุ่มที่ไม่อยู่ในโครงการอาจจะมีพัฒนาการที่ไวกว่ากลุ่มที่อยู่ในโครงการ

รูปที่ 2: แสดงแผนภาพของ counterfactual ด้วยวิธีการ Difference-in-Difference

การประเมินผลโครงการด้วยการทดลองแบบสุ่มที่มีกลุ่มควบคุม (Randomized controlled trial – RCT)

จะเห็นได้ว่ากลุ่มเปรียบเทียบในวิธีต่าง ๆ ที่กล่าวมาข้างต้น ในหลายกรณี ไม่สามารถแทน counterfactual ได้สมจริงนัก วิธีการหนึ่งที่ช่วยสร้างกลุ่มควบคุมให้คล้ายกับกลุ่มที่อยู่ในโครงการได้ คือวิธีการสุ่ม (randomize) ยกตัวอย่างเช่น จากเด็ก ๆ กลุ่มที่เราสนใจ และพร้อมจะเข้าโครงการทั้งหมด เราจะแบ่งออกเป็นสองกลุ่มด้วยการสุ่ม อาจใช้การจับสลากใบดำ-ใบแดง การโยนเหรียญ หรือโปรแกรมคอมพิวเตอร์ เป็นต้น และให้เด็กจำนวนครึ่งหนึ่งที่สุ่มได้อยู่ในโครงการ และเด็กอีกครึ่งหนึ่งที่เหลือเป็นกลุ่มเปรียบเทียบซึ่งไม่ได้อยู่ในโครงการ (ดูรูปที่ 3 ประกอบ) หากเรามีจำนวนเด็กที่มากพอ กระบวนการสุ่มจะสามารถแบ่งเด็กออกเป็นสองกลุ่มที่มีลักษณะคล้ายกันได้ ดังนั้นเมื่อจบโครงการแล้ว หากผลลัพธ์ของเด็กทั้งสองกลุ่มมีค่าต่างกัน เราจะสามารถบอกได้ว่านั่นเป็นผลจากโครงการ และไม่ได้มาจากปัจจัยอื่น ๆ โดยประเด็นสำคัญที่จะทำให้การประเมินผลโครงการด้วย RCT มีความแม่นยำคือ (1) ต้องมีจำนวนตัวอย่างมากพอ และ (2) ต้องเกิดการสุ่มขึ้นก่อนเริ่มดำเนินโครงการ โดยเราควรตรวจสอบว่าการสุ่มของเราได้ผลดี โดยการเปรียบเทียบลักษณะ (ที่เราสังเกตได้) ในช่วงก่อนเริ่มโครงการของเด็ก ๆ กลุ่มที่อยู่ในโครงการและกลุ่มเปรียบเทียบ ว่าไม่แตกต่างกันในเชิงสถิติ

ดังนั้น การใช้ RCT จึงสามารถประเมินผลโครงการได้แม่นยำที่สุด หากผู้ประเมินโครงการสามารถออกแบบและดำเนินการได้อย่างถูกต้องและเหมาะสม ซึ่งเป็นเรื่องที่ท้าทายและเป็นหัวใจของการทำ RCT

อย่างไรก็ตาม ไม่ใช่ว่า RCT จะเหมาะสมสำหรับการประเมินผลทุกโครงการ เนื่องจากในหลายกรณีเราไม่สามารถใช้การสุ่มในการแบ่งกลุ่มให้มาตรการได้เสมอไป นอกจากนี้ยังมีวิธีการวิเคราะห์ทางสถิติอื่น ๆ ที่ผู้ประเมินโครงการสามารถใช้ในการวิเคราะห์ข้อมูลที่ไม่ได้มาจาก RCT ได้อีกด้วย เช่น วิธี Multivariate regression, Propensity score matching, Regression discontinuity หรือ Instrumental variables เป็นต้น ซึ่งวิธีทางสถิติเหล่านี้พยายามสร้างกลุ่มเปรียบเทียบที่สมจริงให้ได้มากที่สุดเท่าที่จะทำได้ (อ่านรายละเอียดเพิ่มเติมได้ใน Kilenthong et al. 2023)

รูปที่ 3: แสดงแผนภาพการแบ่งกลุ่มด้วย Randomized controlled trial
ที่มา: Glennerster and Takavarasha (2013)