OUTLIER là gì? Tại sao điểm ngoại lai lại quan trọng trong phân tích dữ liệu?
Last updated: August 05, 2025 Xem trên toàn màn hình



- 04 Mar 2023
Top 5 bài kiểm tra tính cách nổi tiếng trong phỏng vấn việc làm tại Nhật Bản 533
- 23 Dec 2021
Quy trình tự động hóa RPA là gì? RPA khác với AI như thế nào? 425
- 12 Apr 2023
Phương pháp 6 chiếc mũ tư duy là gì? Vận dụng trong điều hành cuộc họp hiệu quả 377
- 23 Apr 2023
Không để lỡ tàu khi bước vào cách mạng công nghiệp 4.0 với bài kiểm tra SPI trong tuyển dụng tại Nhật Bản 370
- 01 Apr 2023
Bí quyết đàm phán tạo ra giá trị từ câu chuyện Chia Cam 348
- 07 Aug 2019
Câu chuyện thanh gỗ ngắn và bài học kinh doanh cho Doanh nghiệp 339
- 11 Sep 2024
Mindset, skillset, toolset là gì? 279
- 01 Aug 2023
Kỹ năng thời VUCA: Tận mắt thấy tai nghe chưa chắc đã đúng 213
- 23 Jun 2024
Người trí tuệ không tranh cãi ĐÚNG/SAI 192
- 11 Sep 2022
Từ truyện “Thầy bói xem voi” tới quản trị bằng Tư Duy Hệ Thống 176
- 05 Dec 2022
Hỏi 5 lần (5 WHYs) – Kỹ thuật "đào" tận gốc cốt lõi vấn đề 121
- 01 Aug 2024
Kỹ năng thời VUCA: Người khôn ngoan thường không tranh cãi vô ích 120
- 01 Mar 2023
12 rào cản của chuyển đổi số doanh nghiệp nhỏ và vừa 113
- 10 Aug 2020
Bạn có biết quy tắc thất bại nhanh: Fail early, fail often, fail cheap, but always fail forward 83
- 11 Mar 2025
Thiên hướng Hành động (Bias for Action) và Thiên hướng Quy trình (Bias for Process) tác động tiêu cực tới "đổi mới và sáng tạo" như thế nào? 45
- 04 Mar 2025
So sánh các giải pháp Sales Loft, Power BI và Salesforce 40
- 03 Jan 2022
Cách làm nông nghiệp kỳ lạ của người Nhật: Thuê đất 5 năm bỏ hoang và đây là sự thật... 32
- 22 May 2025
Phong cách châu Âu, chất lượng Nhật Bản, cơ bắp Mỹ: Ba giá trị định hình thế giới hiện đại 27
- 29 Jul 2023
Giải mã 10 "Pain Points" của Big Data: Khi "mỏ vàng dữ liệu" vẫn không thể khai thác 26
- 17 May 2025
Chuyển Đổi Số Cho Ngôi Nhà Của Chính Mình: Tại Sao Không? 25
- 16 Apr 2025
Lãnh đạo linh hoạt: Hành động (Bias for Action) hay không hành động (Non-Action)? 20
- 16 Apr 2025
Phương pháp Ghi Nhớ Chủ Động (Active Recall) là gì? Ưu điểm và nhược điểm? 16
Trong thế giới phân tích dữ liệu, có một thuật ngữ mà bất kỳ nhà phân tích hay nhà khoa học dữ liệu nào cũng thường xuyên gặp phải: Outlier – hay còn gọi là điểm ngoại lai. Nhưng outlier thực sự là gì? Tại sao chúng lại quan trọng đến vậy? Và chúng ta nên xử lý chúng như thế nào?
1. Định nghĩa Outlier (Điểm ngoại lai)
Outlier là một điểm dữ liệu khác biệt rõ rệt so với phần lớn các điểm còn lại trong tập dữ liệu. Nói một cách đơn giản, đó là những giá trị "lạc loài", có thể cao hơn hoặc thấp hơn rất nhiều so với xu hướng chung.
Ví dụ: Giả sử bạn có tập dữ liệu về thu nhập hàng tháng của 100 người, đa số dao động từ 10 đến 20 triệu đồng. Nhưng lại có một người kiếm được 200 triệu/tháng – thì con số này rất có thể là outlier.
2. Tại sao outlier lại quan trọng?
Điểm ngoại lai có thể là dấu hiệu của điều gì đó bất thường – và đó là điều khiến chúng trở nên đáng chú ý. Cụ thể:
- 🔍 Phát hiện lỗi nhập liệu (data entry errors): Ví dụ, thay vì nhập 50, bạn gõ nhầm thành 5000.
- 💡 Phát hiện sự kiện bất thường: Ví dụ, một giao dịch tài chính quá lớn có thể là dấu hiệu của gian lận.
- 📊 Làm lệch phân tích thống kê: Trung bình, phương sai, hồi quy tuyến tính đều có thể bị ảnh hưởng mạnh bởi outlier.
- 🧠 Gợi mở insight sâu sắc: Có khi outlier là những trường hợp "đột biến" đáng nghiên cứu kỹ hơn, như một sản phẩm viral hay một khách hàng trung thành đặc biệt.
3. Làm sao để phát hiện outlier?
Một số phương pháp phổ biến để phát hiện outlier:
- Biểu đồ trực quan: Boxplot (hộp số), scatter plot (biểu đồ phân tán) có thể giúp nhìn thấy những điểm nằm ngoài ranh giới.
- Quy tắc 1.5 x IQR: Nếu một điểm dữ liệu nằm ngoài khoảng Q1−1.5×IQR,Q3+1.5×IQRQ1 - 1.5×IQR, Q3 + 1.5×IQRQ1−1.5×IQR,Q3+1.5×IQR, thì nó là outlier.
- Z-score: Nếu điểm dữ liệu có z-score > 3 hoặc < -3, có thể xem là điểm ngoại lai.
- Machine learning: Một số thuật toán như Isolation Forest, One-Class SVM được dùng để phát hiện outlier trong tập dữ liệu lớn, đa chiều.
4. Nên làm gì với outlier?
Không có một câu trả lời duy nhất. Tùy vào mục đích phân tích và bản chất dữ liệu, bạn có thể:
- Loại bỏ nếu xác định là lỗi hoặc gây nhiễu.
- Giữ lại nếu nó mang ý nghĩa quan trọng (ví dụ: khách hàng VIP).
- Biến đổi dữ liệu (như dùng log transformation) để giảm ảnh hưởng của outlier trong các mô hình.
5. Outlier có phải lúc nào cũng xấu?
Không hẳn. Đôi khi, chính những điểm bất thường này lại là điều quý giá nhất. Trong phân tích kinh doanh, dữ liệu "lạ" có thể dẫn đến những khám phá chiến lược. Trong y tế, một triệu chứng hiếm gặp lại có thể mở ra hướng điều trị mới.
Kết luận
Outlier là một phần không thể thiếu trong phân tích dữ liệu. Dù gây rối hay mang lại insight, chúng đều xứng đáng được quan tâm và xử lý cẩn thận. Nhận diện và hiểu đúng về outlier là kỹ năng quan trọng để bất kỳ ai làm việc với dữ liệu có thể ra quyết định chính xác và sâu sắc hơn.