ควอร์ไทล์

จาก testwiki
ไปยังการนำทาง ไปยังการค้นหา

แม่แบบ:สับสน ในทางสถิติศาสตร์ ควอร์ไทล์ (แม่แบบ:Langx) เป็นชนิดของควอนไทล์ ซึ่งแบ่งจำนวนข้อมูลออกเป็น 4 ส่วน ประมาณเท่า ๆ กัน ข้อมูลต้องเรียงจากน้อยไปมากเพื่อคำนวณหาควอร์ไทล์ ควอร์ไทล์คือรูปแบบหนึ่งของสถิติเชิงอันดับ มีควอร์ไทล์ 3 ตัวที่แบ่งข้อมูลเป็นสี่ส่วนดังนี้

  • ควอร์ไทล์ที่ 1 (Q1) เป็นตัวเลขตรงกลางระหว่างจำนวนที่น้อยที่สุด (ค่าต่ำสุด แม่แบบ:Langx) และมัธยฐานของชุดข้อมูล อาจเรียกควอร์ไทล์นี้ได้ว่าควอร์ไทล์ล่าง (lower quartile) หรือ ควอนไทล์เชิงประจักษ์ที่ 25 (25th empirical quantile) เพราะ 25% ของข้อมูลทั้งหมดอยู่ไต้จุดนี้
  • ควอร์ไทล์ที่ 2 (Q2) เป็นมัธยฐานของชุดข้อมูล ดังนั้น 50% ของข้อมูลอยู่ใต้จุดนี้
  • ควอร์ไทล์ที่ 3 (Q3) เป็นตัวเลขตรงกลางระหว่างมัธยฐานและจำนวนที่มากที่สุด (ค่าสูงสุด แม่แบบ:Langx) ของชุดข้อมูล อาจเรียกควอร์ไทล์นี้ได้ว่าควอร์ไทล์บน (upper quartile) หรือ ควอนไทล์เชิงประจักษ์ที่ 75 (75th empirical quantile) เพราะ 75% ของข้อมูลทั้งหมดอยู่ไต้จุดนี้[1]

รวมถึงค่ามากสุด และค่าน้อยสุดของข้อมูล (ซี่งก็เป็นควอร์ไทล์ด้วย) ทั้ง 3 ควอร์ไทล์ที่ได้กล่าวไว้ข้างบนบอกการสรุปตัวเลข 5 ตัวของข้อมูล การสรุปนี้เป็นสิ่งสำคัญในสถิติศาสตร์ เพราะสามารถบ่งบอกข้อมูลได้ทั้งจุดศูนย์กลาง และการกระจาย การรู้ควอร์ไทล์ที่ 1 และควอร์ไทล์ที่ 3 บ่งบอกข้อมูลให้ทราบว่าข้อมูลมีการกระจายตัวมากแค่ไหน และชุดข้อมูลจะเบ้ไปทางไหนทางหนึ่ง เพราะว่าควอร์ไทล์นั้นแบ่งจำนวนข้อมูลเท่า ๆ กัน พิสัยระหว่างควอร์ไทล์ข้าง ๆ โดยปกติจะไม่เท่ากัน (ต.ย. โดยปกติ Q3-Q2Q2-Q1) พิสัยระหว่างควอร์ไทล์(IQR) ถูกนิยามไว้ว่าผลต่างระหว่างเปอร์เซนต์ไทล์ที่ 75 และ 25 หรือ Q3-Q1 ขณะที่ค่าต่ำสุดและค่าสูงสุดก็บอกการกระจายข้อมูล ควอร์ไทล์ที่ 1 และควอร์ไทล์ที่ 3 สามารถให้ข้อมูลที่ละเอียดขึ้นกับตำแหน่งของข้อมูลนั้น ๆ การมีอยู่ของค่าผิดปกติในข้อมูล และผลต่างของการกระจายระหว่างข้อมูลตรงกลาง 50% กับข้อมูลรอบนอก[2]

นิยาม

แผนภาพกล่อง (โดยมีควอร์ไทล์ และพิสัยระหว่างควอร์ไทล์) และ ฟังก์ชันความหนาแน่นของความน่าจะเป็น (pdf) ของประชากรปกติ N (0,1σ2)
สัญลักษณ์ ชื่อ นิยาม
Q1 แม่แบบ:Plainlist แยก 25% ของข้อมูลที่น้อยกว่าจาก 75% ที่มากกว่า
Q2 แม่แบบ:Plainlist แบ่งข้อมูลเป็นครึ่ง ๆ
Q3 แม่แบบ:Plainlist แยก 25% ของข้อมูลที่มากกว่าจาก 75% ที่น้อยกว่า

วิธีการคำนวณ

การกระจายข้อมูลแบบไม่ต่อเนื่อง

สำหรับการกระจายข้อมูลแบบไม่ต่อเนื่อง ไม่มีวิธีหาควอร์ไทล์ที่ตายตัว[3]

วิธีที่ 1

  1. ใช้มัธยฐานในการเแบ่งข้อมูลที่เรียงแล้วเป็นครึ่ง ๆ
    • ถ้าข้อมูลที่เรียงแล้วจำนวนข้อมูลเป็นจำนวนคี่ ไม่นับมัธยฐาน (ค่าที่อยู่ตรงกลางในข้อมูลที่เรียงแล้ว) ทุกข้าง
    • ถ้าข้อมูลที่เรียงแล้วจำนวนข้อมูลเป็นจำนวนคู่ ให้แบ่งข้อมูลเป็นครึ่งเท่า ๆ กัน
  2. มัธยฐานของข้อมูลครึ่งล่างคือควอร์ไทล์ล่าง มัธยฐานของข้อมูลครึ่งบนคือควอร์ไทล์บน

วิธีนี้ถูกใช้โดย เครื่องคิดเลขแผนภาพกล่อง TI-83 และฟังก์ชัน "1-Var Stats" อีกทั้งสสวท. ก็นำวิธีนี้ไปใช้ในการสอนแผนภาพกล่อง

วิธีที่ 2

  1. ใช้มัธยฐานในการเแบ่งข้อมูลที่เรียงแล้วเป็นครึ่ง ๆ
    • ถ้าข้อมูลที่เรียงแล้วจำนวนข้อมูลเป็นจำนวนคี่ นับมัธยฐาน (ค่าที่อยู่ตรงกลางในข้อมูลที่เรียงแล้ว) ทุกข้าง
    • ถ้าข้อมูลที่เรียงแล้วจำนวนข้อมูลเป็นจำนวนคู่ ให้แบ่งข้อมูลเป็นครึ่งเท่า ๆ กัน
  2. มัธยฐานของข้อมูลครึ่งล่างคือควอร์ไทล์ล่าง มัธยฐานของข้อมูลครึ่งบนคือควอร์ไทล์บน

ค่าที่หาจากวิธีนี้สามารถเรียกได้ว่า "Tukey's hinge" ดูเพิ่มที่มิดฮินจ์

วิธีที่ 3

  1. ถ้าจำนวนข้อมูลที่มีเป็นจำนวนคู่ แล้ววิธีที่สามก็ทำเหมือนทั้งสองวิธีก่อนหน้า
  2. ถ้าจำนวนข้อมูลที่มีเป็นจำนวนคี่ (4n + 1) แล้วควอร์ไทล์ล่างคือ 25% ของค่าจำนวนที่n บวก 75% ของค่าจำนวนที่ (n+1) และ ควอร์ไทล์บนคือ 75% ของค่าจำนวนที่ (3n+1) บวก 25% ของค่าจำนวนที่ (3n+2)
  3. ถ้าจำนวนข้อมูลที่มีเป็นจำนวนคี่ (4n + 3) แล้วควอร์ไทล์ล่างคือ 75% ของค่าจำนวนที่ (n+1) บวก 25% ของค่าจำนวนที่ (n+2) และ ควอร์ไทล์บนคือ 25% ของค่าจำนวนที่ (3n+2) บวก 75% ของค่าจำนวนที่ (3n+3)

วิธีที่ 4

ถ้าเรามีชุดข้อมูลที่เรียงแล้ว x1,x2,...,xn เราสามารถคำนวณเพื่อหาควอนไทล์เชิงประจักษ์ที่ p ได้ถ้า xi อยู่ในควอนไทล์ที่ i/(n+1) ถ้าเรากำหนดให้ส่วนจำนวนเต็มของ a โดย [a] แล้วฟังก์ชันควอนไทล์เชิงประจักษ์คือ

q(p)=x(k)+α(x(k+1)x(k))

เมื่อ k=[p(n+1)] และ α=p(n+1)[p(n+1)][1]

เพื่อที่จะหาควอร์ไทล์ที่ 1, 2, 3 ของชุดข้อมูล เราก็หา q(0.25), q(0.5) และ q(0.75) ตามลำดับ

ตัวอย่างที่ 1

ข้อมูลที่เรียงแล้ว: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49

วิธีที่ 1 วิธีที่ 2 วิธีที่ 3 วิธีที่ 4
Q1 15 25.5 20.25 15
Q2 40 40 40 40
Q3 43 42.5 42.75 43

ตัวอย่างที่ 2

ข้อมูลที่เรียงแล้ว: 7, 12, 36, 39, 40, 41

จะสังเกตว่า ถ้าจำนวนข้อมูลเป็นจำนวนคู่ ทั้ง 3 วิธีแรกจะให้ผลที่เหมือนกัน

วิธีที่ 1 วิธีที่ 2 วิธีที่ 3 วิธีที่ 4
Q1 15 15 15 13
Q2 37.5 37.5 37.5 37.5
Q3 40 40 40 40.25

อ้างอิง

แม่แบบ:รายการอ้างอิง