วิธี (และทำไม) ในการใช้ฟังก์ชัน Outliers ใน Excel
ค่าผิดปกติคือค่าที่สูงกว่าหรือต่ำกว่าค่าส่วนใหญ่ในข้อมูลของคุณอย่างมีนัยสำคัญ เมื่อใช้ Excel เพื่อวิเคราะห์ข้อมูลค่าผิดปกติอาจบิดเบือนผลลัพธ์ได้ ตัวอย่างเช่นค่าเฉลี่ยเฉลี่ยของชุดข้อมูลอาจสะท้อนถึงค่าของคุณอย่างแท้จริง Excel มีฟังก์ชันที่มีประโยชน์บางอย่างเพื่อช่วยในการจัดการค่าผิดปกติของคุณลองมาดูกัน
ตัวอย่างด่วน
ในภาพด้านล่างค่าผิดปกติสามารถมองเห็นได้ง่ายพอสมควรนั่นคือค่าของสองค่าที่กำหนดให้กับ Eric และค่า 173 ที่กำหนดให้กับ Ryan ในชุดข้อมูลเช่นนี้ง่ายพอที่จะระบุและจัดการกับค่าผิดปกติเหล่านั้นด้วยตนเอง
ในชุดข้อมูลขนาดใหญ่จะไม่เป็นเช่นนั้น ความสามารถในการระบุค่าผิดปกติและลบออกจากการคำนวณทางสถิติเป็นสิ่งสำคัญและนั่นคือสิ่งที่เราจะดูวิธีทำในบทความนี้
วิธีค้นหา Outliers ในข้อมูลของคุณ
ในการค้นหาค่าผิดปกติในชุดข้อมูลเราใช้ขั้นตอนต่อไปนี้:
- คำนวณควอร์ไทล์ที่ 1 และ 3 (เราจะพูดถึงสิ่งที่อยู่ในจำนวนเล็กน้อย)
- ประเมินช่วงระหว่างควอไทล์ (เราจะอธิบายต่อไปอีกเล็กน้อย)
- ส่งกลับขอบเขตบนและล่างของช่วงข้อมูลของเรา
- ใช้ขอบเขตเหล่านี้เพื่อระบุจุดข้อมูลภายนอก
ช่วงเซลล์ทางด้านขวาของชุดข้อมูลที่เห็นในภาพด้านล่างจะถูกใช้เพื่อเก็บค่าเหล่านี้
มาเริ่มกันเลย.
ขั้นตอนที่หนึ่ง: คำนวณควอไทล์
หากคุณแบ่งข้อมูลออกเป็นไตรมาสแต่ละชุดจะเรียกว่าควอไทล์ 25% ต่ำสุดของตัวเลขในช่วงประกอบด้วยควอไทล์ที่ 1 25% ถัดไปของควอร์ไทล์ที่ 2 และอื่น ๆ เราทำตามขั้นตอนนี้ก่อนเนื่องจากคำจำกัดความที่ใช้กันอย่างแพร่หลายของค่าผิดปกติคือจุดข้อมูลที่มากกว่า 1.5 ช่วงระหว่างควอไทล์ (IQRs) ต่ำกว่าควอไทล์ที่ 1 และ 1.5 ช่วงระหว่างควอไทล์เหนือควอไทล์ที่ 3 ในการกำหนดค่าเหล่านั้นอันดับแรกเราต้องหาว่าควอไทล์คืออะไร
Excel มีฟังก์ชัน QUARTILE เพื่อคำนวณควอไทล์ ต้องใช้ข้อมูลสองส่วนคืออาร์เรย์และควอร์ต
= QUARTILE (อาร์เรย์ควอร์ต)
อาร์เรย์เป็นช่วงของค่าที่คุณกำลังประเมิน และควอร์ตคือตัวเลขที่แสดงถึงควอร์ไทล์ที่คุณต้องการส่งคืน (เช่น 1 สำหรับควอร์ไทล์ที่ 1, 2 สำหรับควอร์ไทล์ที่ 2 และอื่น ๆ )
หมายเหตุ:ใน Excel 2010 Microsoft ได้เปิดตัวฟังก์ชัน QUARTILE.INC และ QUARTILE.EXC เป็นการปรับปรุงฟังก์ชัน QUARTILE QUARTILE เข้ากันได้มากกว่าเมื่อทำงานกับ Excel หลายเวอร์ชัน
กลับไปที่ตารางตัวอย่างของเรา
ในการคำนวณควอไทล์ที่ 1 เราสามารถใช้สูตรต่อไปนี้ในเซลล์ F2
= ควอร์ไทล์ (B2: B14,1)
เมื่อคุณป้อนสูตร Excel จะแสดงรายการตัวเลือกสำหรับอาร์กิวเมนต์ควอร์ต
ในการคำนวณควอไทล์ที่ 3 เราสามารถป้อนสูตรเช่นเดียวกับสูตรก่อนหน้าในเซลล์ F3 แต่ใช้สามแทนหนึ่ง
= ควอไทล์ (B2: B14,3)
ตอนนี้เรามีจุดข้อมูลควอไทล์ที่แสดงในเซลล์
ขั้นตอนที่สอง: ประเมินช่วง Interquartile
ช่วงระหว่างควอไทล์ (หรือ IQR) คือค่ากลาง 50% ของค่าในข้อมูลของคุณ คำนวณเป็นผลต่างระหว่างค่าควอไทล์ที่ 1 และค่าควอไทล์ที่ 3
เราจะใช้สูตรง่ายๆในเซลล์ F4 ที่ลบควอไทล์ที่ 1 ออกจากควอไทล์ที่ 3:
= F3-F2
ตอนนี้เราสามารถเห็นช่วง interquartile ของเราแสดง
ขั้นตอนที่สาม: คืนขอบเขตล่างและบน
ขอบเขตล่างและบนคือค่าที่เล็กที่สุดและใหญ่ที่สุดของช่วงข้อมูลที่เราต้องการใช้ ค่าใด ๆ ที่น้อยกว่าหรือมากกว่าค่าที่ถูกผูกไว้เหล่านี้ถือเป็นค่าผิดปกติ
เราจะคำนวณขีด จำกัด ล่างในเซลล์ F5 โดยการคูณค่า IQR ด้วย 1.5 แล้วลบออกจากจุดข้อมูล Q1:
= F2- (1.5 * F4)
หมายเหตุ:ไม่จำเป็นต้องใช้วงเล็บในสูตรนี้เนื่องจากส่วนการคูณจะคำนวณก่อนส่วนการลบ แต่จะทำให้อ่านสูตรได้ง่ายขึ้น
ในการคำนวณขอบเขตบนในเซลล์ F6 เราจะคูณ IQR ด้วย 1.5 อีกครั้ง แต่คราวนี้เพิ่มเข้าไปในจุดข้อมูล Q3:
= F3 + (1.5 * F4)
ขั้นตอนที่สี่: ระบุสิ่งผิดปกติ
ตอนนี้เราได้ตั้งค่าข้อมูลพื้นฐานทั้งหมดแล้วก็ถึงเวลาระบุจุดข้อมูลภายนอกของเราซึ่งเป็นจุดที่ต่ำกว่าค่าขอบเขตล่างหรือสูงกว่าค่าขอบเขตบน
เราจะใช้ฟังก์ชัน OR เพื่อทำการทดสอบเชิงตรรกะนี้และแสดงค่าที่ตรงตามเกณฑ์เหล่านี้โดยป้อนสูตรต่อไปนี้ลงในเซลล์ C2:
= หรือ (B2 $ F $ 6)
จากนั้นเราจะคัดลอกค่านั้นไปยังเซลล์ C3-C14 ของเรา ค่า TRUE บ่งบอกถึงค่าผิดปกติและอย่างที่คุณเห็นเรามีข้อมูลสองอย่าง
ละเว้นค่าผิดปกติเมื่อคำนวณค่าเฉลี่ยเฉลี่ย
การใช้ฟังก์ชัน QUARTILE ช่วยให้เราคำนวณ IQR และทำงานกับคำจำกัดความที่ใช้กันอย่างแพร่หลายของค่าผิดปกติ อย่างไรก็ตามเมื่อคำนวณค่าเฉลี่ยเฉลี่ยสำหรับช่วงของค่าและไม่สนใจค่าผิดปกติจะมีฟังก์ชันที่ใช้งานง่ายและรวดเร็ว เทคนิคนี้จะไม่ระบุค่าผิดปกติเหมือน แต่ก่อน แต่จะช่วยให้เรามีความยืดหยุ่นกับสิ่งที่เราอาจพิจารณาส่วนที่ผิดปกติ
ฟังก์ชันที่เราต้องการเรียกว่า TRIMMEAN และคุณสามารถดูไวยากรณ์ได้ด้านล่าง:
= TRIMMEAN (อาร์เรย์เปอร์เซ็นต์)
อาร์เรย์เป็นช่วงของค่าที่คุณต้องการโดยเฉลี่ย ร้อยละเป็นร้อยละของจุดข้อมูลในการยกเว้นจากด้านบนและด้านล่างของชุดข้อมูล (คุณสามารถใส่มันเป็นเปอร์เซ็นต์หรือค่าทศนิยม)
เราป้อนสูตรด้านล่างลงในเซลล์ D3 ในตัวอย่างของเราเพื่อคำนวณค่าเฉลี่ยและไม่รวมค่าผิดปกติ 20%
= TRIMMEAN (B2: B14, 20%)
คุณมีสองฟังก์ชันที่แตกต่างกันสำหรับการจัดการค่าผิดปกติ ไม่ว่าคุณต้องการระบุสิ่งเหล่านี้สำหรับความต้องการในการรายงานบางอย่างหรือแยกออกจากการคำนวณเช่นค่าเฉลี่ย Excel มีฟังก์ชันที่เหมาะกับความต้องการของคุณ