Công thức Outlier | Tính toán từng bước của ngoại lệ (với ví dụ)
Công thức Outlier cung cấp một công cụ đồ họa để tính toán dữ liệu nằm bên ngoài tập hợp phân phối đã cho, có thể ở bên trong hoặc bên ngoài tùy thuộc vào các biến.
Công thức Outlier là gì?
Điểm ngoại lệ là điểm dữ liệu của mẫu đã cho hoặc quan sát đã cho hoặc trong một phân bố nằm ngoài mẫu tổng thể. Một quy tắc thường được sử dụng cho biết rằng một điểm dữ liệu sẽ được coi là ngoại lệ nếu nó có IQR thấp hơn 1,5 IQR dưới phần tư đầu tiên hoặc cao hơn phần tư thứ ba.
Nói cách khác, giá trị ngoại lệ thấp sẽ nằm dưới Q1-1.5 IQR và giá trị ngoại lệ cao sẽ nằm dưới Q3 + 1.5IQR
Người ta cần tính toán trung vị, tứ phân vị bao gồm IQR, Q1 và Q3.
Công thức ngoại lệ được biểu diễn như sau,
Công thức cho số hạng thứ Q1 = ¼ (n + 1) Công thức cho số hạng thứ Q3 = ¾ (n + 1) Công thức cho Q2 = Q3 - Q1
Tính toán từng bước của ngoại lệ
Cần tuân theo các bước dưới đây để tính Outlier.
- Bước 1: Đầu tiên tính toán các phần tư tức là Q1, Q2 và giữa các phần tư
- Bước 2: Bây giờ hãy tính giá trị Q2 * 1.5
- Bước 3: Bây giờ Trừ giá trị Q1 khỏi giá trị được tính ở Bước 2
- Bước 4: Tại đây Thêm Q3 với giá trị được tính ở bước 2
- Bước 5: Tạo phạm vi giá trị được tính ở Bước 3 và Bước 4
- Bước 6: Sắp xếp dữ liệu theo thứ tự tăng dần
- Bước 7: Kiểm tra xem có bất kỳ giá trị nào nằm dưới hoặc cao hơn phạm vi được tạo ở Bước 5 hay không
Thí dụ
Hãy xem xét tập dữ liệu gồm các số sau: 10, 2, 4, 7, 8, 5, 11, 3, 12. Bạn được yêu cầu tính tất cả các Giá trị ngoại lai.
Giải pháp:
Đầu tiên, chúng ta cần sắp xếp dữ liệu theo thứ tự tăng dần để tìm ra giá trị trung bình sẽ là Q2 cho chúng ta.
2, 3, 4, 5, 7, 8, 10, 11, 12
Bây giờ vì số lượng quan sát là số lẻ là 9, trung vị sẽ nằm trên vị trí thứ 5 là 7 và tương tự sẽ là Q2 cho ví dụ này.
Do đó, cách tính Q1 như sau:
Q1 = ¼ (9 + 1)
= ¼ (10)
Q1 sẽ là -
Q1 = 2,5 kỳ hạn
Điều này có nghĩa là Q1 là trung bình của vị trí thứ 2 và thứ 3 của các quan sát là 3 & 4 ở đây và trung bình của cùng là (3 + 4) / 2 = 3,5
Do đó, cách tính Q3 như sau:
Q3 = ¾ (9 + 1)
= ¾ (10)
Q3 sẽ là -
Q3 = 7,5 hạn
Điều này có nghĩa là Q3 là trung bình của vị trí thứ 7 và 8 của các quan sát là 10 & 11 ở đây và trung bình của cùng là (10 + 11) / 2 = 10,5
Bây giờ, giá trị ngoại lệ thấp sẽ nằm dưới Q1-1.5IQR và giá trị ngoại lệ cao sẽ nằm dưới Q3 + 1.5IQR
Vì vậy, các giá trị là 3,5 - (1,5 * 7) = -7 và phạm vi cao hơn là 10,5 + (1,5 * 7) = 110,25.
Vì không có quan sát nào nằm trên hoặc thấp hơn 110,25 và -7 nên chúng tôi không có bất kỳ ngoại lệ nào trong mẫu này.
Ví dụ về Công thức Outlier trong Excel (với Mẫu Excel)
Bạn có thể tải xuống Mẫu Excel Công thức Outlier này tại đây - Mẫu Excel Công thức Outlier
Các lớp huấn luyện sáng tạo đang cân nhắc khen thưởng những sinh viên nằm trong 25% hàng đầu. Tuy nhiên, họ muốn tránh bất kỳ trường hợp ngoại lệ nào. Dữ liệu dành cho 25 sinh viên. Sử dụng phương trình Outlier để xác định xem có một ngoại lệ hay không?
Giải pháp:
Dưới đây là dữ liệu cung cấp để tính toán ngoại lệ
Số lượng quan sát ở đây là 25 và bước đầu tiên của chúng tôi sẽ là chuyển đổi dữ liệu thô ở trên theo thứ tự tăng dần.
Trung vị sẽ là -
Giá trị trung bình = ½ (n + 1)
= ½ = ½ (26)
= Số hạng thứ 13
Q2 hoặc trung bình là 68,00
Mà là 50% dân số.
Q1 sẽ là -
Q1 = ¼ (n + 1) số hạng thứ
= ¼ (25 + 1)
= ¼ (26)
= Số hạng thứ 6,5 tương đương với số hạng thứ 7
Q1 là 56,00, là 25% thấp nhất
Q3 sẽ là -
Cuối cùng, số hạng thứ Q3 = ¾ (n + 1)
= ¾ (26)
= 19,50 hạn
Ở đây, giá trị trung bình cần được lấy là của số hạng thứ 19 và thứ 20 là 77 và 77 và trung bình của cùng là (77 + 77) / 2 = 77,00
Q3 là 77, cao nhất là 25%
Tầm thấp
Bây giờ, giá trị ngoại lệ thấp sẽ nằm dưới Q1-1.5IQR và giá trị ngoại lệ cao sẽ nằm dưới Q3 + 1.5IQR
Tầm cao -
Vì vậy, các giá trị là 56 - (1.5 * 68) = -46 và phạm vi cao hơn là 77 + (1.5 * 68) = 179.
Không có ngoại lệ.
Mức độ liên quan và sử dụng
Công thức giá trị ngoại lai rất quan trọng cần biết vì có thể có dữ liệu bị sai lệch bởi giá trị như vậy. Lấy ví dụ về các quan sát 2, 4, 6, 101 và bây giờ nếu ai đó lấy giá trị trung bình của các giá trị này thì nó sẽ là 28,25 nhưng 75% các quan sát nằm dưới 7 và do đó một sẽ là một quyết định không chính xác đối với các quan sát của mẫu này.
Ở đây có thể nhận thấy rằng 101 rõ ràng xuất hiện để phác thảo và nếu điều này bị loại bỏ thì trung bình sẽ là 4 nói về các giá trị hoặc quan sát mà chúng nằm trong phạm vi 4. Do đó, điều rất quan trọng là phải thực hiện phép tính này để tránh bất kỳ thông tin hàng đầu của dữ liệu bị lạm dụng. Chúng được sử dụng rộng rãi bởi các nhà thống kê trên khắp thế giới bất cứ khi nào họ thực hiện bất kỳ nghiên cứu nào.