Tùy Chỉnh Chế Độ Xem
Cài đặt chỉ áp dụng cho trình duyệt này
Chế độ ánh sáng màn hình
  • Giao diện sáng
  • Giao diện tối
  • Giao diện mặc định

Nghịch Lý Của Simpson Và Ý nghĩa Của Nó Trong Khoa Học Dữ Liệu

nghich-ly-cua-simpson-va-y-nghia-cua-no-trong-khoa-hoc-du-lieu


Các nhà khoa học dữ liệu, kỹ sư dữ liệu và kỹ sư máy học dành nhiều thời gian để xem dữ liệu và tìm các bản vẽ hoặc kết luận thống kê từ đó. Nhưng một điều quan trọng là kỹ năng cần thiết đối với những chuyên gia này và bất kỳ ai đang xem dữ liệu là phải có trực giác tốt đối với thế giới thực. 

Dữ liệu có một số biến mà bạn có thể xem xét, tuy nhiên, cần lưu ý rằng dữ liệu tạo ra một biểu diễn hữu hạn chiều. Đây là nơi bạn sẽ phải nhìn xa hơn dữ liệu và tìm ra thực tế tiềm ẩn là gì và cách nó có thể được áp dụng cho tập dữ liệu. 

Nghịch lý của Simpson chứng minh cho chúng ta thấy tầm quan trọng của việc hoài nghi khi diễn giải dữ liệu của bạn và đảm bảo bạn áp dụng thế giới thực - mà không hạn chế bản thân nhìn nó từ quan điểm dữ liệu. 

Nghịch lý của Simpson là gì?

Năm 1972 Colin R. Blyth đưa ra cái tên Nghịch lý Simpson hay còn gọi là sự đảo ngược của Simpson, hiệu ứng Yule-Simpson, nghịch lý hợp nhất hay nghịch lý đảo ngược. 

Nghịch lý của Simpson là khi một xu hướng hoặc đầu ra xuất hiện khi dữ liệu được đưa vào các nhóm đảo ngược hoặc biến mất khi dữ liệu được kết hợp. Đó là một nghịch lý thống kê khi có thể rút ra hai kết luận trái ngược nhau từ cùng một dữ liệu, tùy thuộc vào cách dữ liệu được nhóm lại. 

Nghịch lý của UC Berkeley và Simpson

Một ví dụ phổ biến về nghịch lý Simpson là nghiên cứu của UC Berkeley về khuynh hướng giới tính trong tuyển sinh sau đại học. Năm 1973, vào đầu năm học, trường sau đại học của UC Berkeley đã nhận khoảng 44% ứng viên nam và 35% ứng viên nữ. Nhà trường lo sợ rằng họ sẽ chống lại một vụ kiện, do đó đã chuẩn bị cho việc này bằng cách nhờ Peter Bickel, một nhà thống kê xem xét dữ liệu. 

Ông phát hiện ra rằng có một sự thiên vị giới tính có ý nghĩa thống kê nghiêng về nữ giới ở 4/6 phòng ban và không có sự thiên vị giới tính đáng kể nào ở 2 phòng ban còn lại. tỷ lệ ứng viên nhỏ hơn. 

Trong Nghịch lý của Simpson, bạn cần xem xét các tình huống và biến trong thế giới thực có thể bị ẩn và không dễ dàng diễn giải thông qua dữ liệu. Trong ví dụ này, biến ẩn là có nhiều phụ nữ nộp đơn vào một bộ phận cụ thể hơn. Điều này ảnh hưởng đến tỷ lệ phần trăm chung của các ứng viên được chấp nhận, theo cách cho thấy xu hướng ngược lại tồn tại ban đầu trong dữ liệu. 

Sau đó, nhóm kết luận rằng đầu ra của họ trên dữ liệu đã thay đổi khi họ tính đến nó khi chia trường thành các khoa. 

Hình ảnh bên dưới giải thích cách các xu hướng đảo ngược khi dữ liệu được nhóm lại:

nghich-ly-cua-simpson-va-y-nghia-cua-no-trong-khoa-hoc-du-lieu-1
Nghịch lý Simpson có thể khiến việc xử lý dữ liệu trở nên phức tạp hơn và khiến quá trình ra quyết định trở nên khó khăn hơn nhiều. 

Nếu bạn bắt đầu lấy mẫu lại dữ liệu của mình theo cách khác, bạn sẽ đưa ra các kết luận khác. Điều này đương nhiên sẽ khiến bạn khó chọn một kết luận chính xác cụ thể để rút ra những hiểu biết sâu sắc hơn. Điều này có nghĩa là nhóm sẽ phải tìm ra kết luận tốt nhất có sự thể hiện hợp lý của dữ liệu. 

Tại sao Nghịch lý của Simpson lại quan trọng trong Khoa học dữ liệu?

Khi làm việc với các dự án liên quan đến dữ liệu, chúng ta thường tập trung vào dữ liệu và cố gắng diễn giải câu chuyện mà nó đang cố kể cho chúng ta. Nhưng nếu chúng ta áp dụng kiến ​​thức trong thế giới thực, nó sẽ kể cho chúng ta một câu chuyện hoàn toàn khác.

Hiểu được tầm quan trọng của điều này sẽ mở ra nhiều cơ hội hơn để chúng tôi xem xét dữ liệu sâu hơn và thực hiện phân tích đầy đủ để trợ giúp trong quá trình ra quyết định. Nghịch lý của Simpson tập trung vào việc thiếu hiểu biết sâu sắc về phân tích và kiến ​​thức tổng thể về dự án có thể khiến chúng ta hiểu lầm và đưa ra quyết định sai lầm như thế nào. 

Ví dụ: Chúng tôi đang chứng kiến ​​​​sự gia tăng trong việc sử dụng phân tích dữ liệu thời gian thực. Ngày càng có nhiều nhóm triển khai điều này để giúp phát hiện các mẫu và sử dụng thông tin chi tiết này để đưa ra quyết định trong thời gian ngắn. Làm việc với phân tích dữ liệu thời gian thực sẽ hiệu quả khi bạn đang tập trung vào cách cải thiện công ty dựa trên dữ liệu thời gian thực hiện tại. Tuy nhiên, những khoảng thời gian ngắn này có thể gây ra thông tin sai lệch và che giấu xu hướng thực sự tổng thể mà dữ liệu cho thấy.

Việc phân tích dữ liệu sai có thể kìm hãm một công ty. Và tất cả chúng ta đều biết rằng những quyết định sai lầm luôn kìm hãm công ty. Do đó, việc xem xét nghịch lý của Simpson mang lại lợi ích cho công ty khi hiểu được những hạn chế của dữ liệu, điều gì thúc đẩy dữ liệu và các biến khác nhau, đồng thời giữ cho độ lệch ở mức thấp. 

Nghịch lý của Simpson giúp nhắc nhở các chuyên gia làm việc với dữ liệu về tầm quan trọng của việc hiểu dữ liệu và mức độ trực giác dữ liệu của họ. Đây là lúc rất nhiều kỹ năng mềm của các chuyên gia dữ liệu sẽ tự thể hiện, chẳng hạn như tư duy phản biện. 

Mục đích là để tìm kiếm các thành kiến ​​và biến số tiềm ẩn có trong dữ liệu, có thể không dễ dàng phát hiện được ngay từ cái nhìn đầu tiên hoặc khi phân tích kỹ lưỡng đã được thực hiện. 

Phần kết luận

Một điều cần xem xét về nghịch lý của Simpson là việc tổng hợp quá nhiều dữ liệu có thể sớm trở nên vô dụng và bắt đầu tạo ra sự thiên vị. Nhưng mặt khác, nếu chúng ta không tổng hợp dữ liệu, dữ liệu có thể bị hạn chế về thông tin và các mẫu cơ bản mà nó có thể cho chúng ta biết. 

Để tránh nghịch lý Simpson, bạn cần xem xét kỹ lưỡng dữ liệu của mình và đảm bảo bạn hiểu rõ vấn đề kinh doanh hiện tại.

Copyright Disclaimer:

This site does not store any files on its server. We only index and link to content provided by other sites. Please contact the content providers to delete copyright contents if any and email us, we'll remove relevant links or contents immediately.

Tuyên bố miễn trừ bản quyền:

Trang web này không lưu trữ bất kỳ tệp nào trên máy chủ của nó. Chúng tôi chỉ lập chỉ mục và liên kết đến nội dung được cung cấp bởi các trang web khác. Vui lòng liên hệ với các nhà cung cấp nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa các liên kết hoặc nội dung có liên quan ngay lập tức.

Tham khảo các bài viết cùng chủ đề:

Đọc thêm
إرسال تعليق