Tùy Chỉnh Chế Độ Xem
Cài đặt chỉ áp dụng cho trình duyệt này
Chế độ ánh sáng màn hình
  • Giao diện sáng
  • Giao diện tối
  • Giao diện mặc định

Kiểm Tra Giả Thuyết Trong Khoa Học Dữ Liệu

Kiểm Tra Giả Thuyết Trong Khoa Học Dữ Liệu


Xác định một giả thuyết cho phép bạn thu thập dữ liệu một cách hiệu quả và xác định xem nó có cung cấp đủ bằng chứng để hỗ trợ cho giả thuyết của bạn hay không.

Từ "Giả thuyết" bắt nguồn từ tiếng Hy Lạp "hupo", có nghĩa là dưới và "luận điểm", có nghĩa là đặt. Suy luận một ý tưởng bằng cách sử dụng bằng chứng hạn chế có thể được sử dụng làm điểm khởi đầu để điều tra thêm. 

Vì vậy, bạn có thể nói rằng "Giả thuyết" là một phỏng đoán có cơ sở, nhưng điều đó không có nghĩa là nó không thể được chứng minh là đúng. 

Thử nghiệm giả thuyết là gì?

Khi chúng tôi đề cập đến Thử nghiệm giả thuyết, điều đó có nghĩa là sử dụng một quy trình có hệ thống để quyết định xem dữ liệu và nghiên cứu nghiên cứu có thể hỗ trợ lý thuyết cụ thể của chúng tôi áp dụng cho dân số hay không. 

Chúng tôi thực hiện điều này bằng cách sử dụng hai giả thuyết loại trừ lẫn nhau về một tổng thể và đánh giá các nhận định này để quyết định xem các nhận định đó có được hỗ trợ bởi dữ liệu mẫu hay không.

Khi nào nên sử dụng Kiểm tra giả thuyết trong Khoa học dữ liệu?

Nếu bạn muốn so sánh kết quả của mình dựa trên dự đoán, thì bạn muốn sử dụng thử nghiệm giả thuyết. Nó sẽ cho phép bạn so sánh kết quả trước và sau khi phát hiện. 

Nó thường được sử dụng khi chúng ta muốn so sánh:

  • Một nhóm duy nhất với một tiêu chuẩn bên ngoài
  • Hai hay nhiều nhóm với nhau

Kiểm tra giả thuyết vs Tạo giả thuyết

Trong thế giới của Khoa học dữ liệu, có hai phần cần xem xét khi đưa ra một giả thuyết.

Kiểm tra giả thuyết là khi nhóm xây dựng một giả thuyết vững chắc dựa trên tập dữ liệu có sẵn. Điều này sẽ giúp chỉ đạo nhóm và lập kế hoạch phù hợp trong suốt dự án khoa học dữ liệu. Sau đó, giả thuyết sẽ được kiểm tra với một bộ dữ liệu hoàn chỉnh và xác định xem đó có phải là:

  • Giả thuyết vô hiệu - Không có ảnh hưởng đến dân số
  • Giả thuyết thay thế - Có ảnh hưởng đến dân số

Tạo giả thuyết là một phỏng đoán có học thức dựa trên các yếu tố khác nhau có thể được sử dụng để giải quyết vấn đề hiện tại. Đó là quá trình kết hợp các kỹ năng giải quyết vấn đề với trực giác kinh doanh của chúng ta. Bạn sẽ tập trung vào cách các yếu tố cụ thể tác động đến biến mục tiêu và sau đó chuyển sang kết luận mối quan hệ giữa các biến bằng cách sử dụng kiểm định giả thuyết.

Các loại thử nghiệm giả thuyết khác nhau

Giả thuyết không

Không có mối quan hệ giữa các biến thống kê và gọi loại thử nghiệm này là thử nghiệm giả thuyết khống. Một giả thuyết không được biểu thị là H0. Có nhiều loại giả thuyết vô hiệu:

  • Giả thuyết đơn giản
  • Giả thuyết tổng hợp
  • Giả thuyết chính xác
  • Giả thuyết không chính xác

Giả thuyết thay thế

Giữa hai biến có mối quan hệ với nhau, chứng tỏ chúng có mối liên hệ thống kê. Một giả thuyết thay thế được biểu thị là H1 hoặc HA. Giả thuyết thay thế có thể được chia thành:

  1. Một đuôi. Đây là khi bạn đang thử nghiệm theo một hướng và bỏ qua khả năng có mối quan hệ với một biến khác theo hướng khác. Giá trị trung bình của mẫu sẽ cao hơn hoặc thấp hơn giá trị trung bình của dân số, nhưng không phải cả hai.
  2. Hai đuôi. Đây là khi bạn đang thử nghiệm theo cả hai hướng và cho biết liệu giá trị trung bình của mẫu cao hơn hay thấp hơn giá trị trung bình của tổng thể.

Giả thuyết không định hướng

Đây là khi một giả thuyết không chỉ ra một hướng mà nói rằng một yếu tố ảnh hưởng đến một yếu tố khác, hoặc có một mối tương quan giữa hai biến. Tuy nhiên, điểm chính là không có hướng giữa 2 biến.

Giả thuyết định hướng

Đây là khi một giả thuyết đã được xây dựng bằng cách sử dụng mối quan hệ định hướng cụ thể giữa hai biến và dựa trên lý thuyết hiện có.

Công dụng của "Giả thuyết" trong Khoa học dữ liệu là gì?

Khi làm việc với dữ liệu, bạn cần đặt câu hỏi trước khi xem, thao tác với dữ liệu hoặc thực hiện bất kỳ hình thức phân tích nào. Đặt câu hỏi sẽ giúp bạn trong giai đoạn chuẩn bị, giúp bạn phân tích dễ dàng hơn. 

Các nhà khoa học dữ liệu sẽ tạo ra các câu hỏi khác nhau cần được trả lời để nâng cao hiệu suất của một doanh nghiệp. Những câu hỏi này sẽ giúp định hướng dự án khoa học dữ liệu, làm cho nó hiệu quả hơn đối với quá trình ra quyết định. 

Ví dụ: Khi đặt câu hỏi và cùng nhau hình thành một giả thuyết, các nhà khoa học dữ liệu có thể xem xét cẩn thận biến nào sẽ ảnh hưởng đến dự án của họ và những biến khác không cần xem xét. 

Giả thuyết giúp các nhà khoa học dữ liệu:

  • Hiểu rõ hơn về vấn đề kinh doanh hiện tại và cho phép họ tìm hiểu sâu hơn về các biến số trong tập dữ liệu. 
  • Cho phép họ kết luận những yếu tố quan trọng nào là cần thiết để giải quyết vấn đề và sử dụng thời gian của họ một cách hiệu quả cho những yếu tố không cần thiết.
  • Trợ giúp trong giai đoạn chuẩn bị của quy trình bằng cách thu thập dữ liệu từ nhiều nguồn khác nhau là nền tảng cho vấn đề kinh doanh. 

Có thể loại bỏ các khả năng bằng cách sử dụng thử nghiệm giả thuyết giúp các nhà khoa học dữ liệu đưa ra kết luận tốt hơn. Họ sẽ có thể dành nhiều thời gian hơn cho vấn đề hiện tại và đi đến những yếu tố ra quyết định hiệu quả để trình bày với các nhà điều hành.

Thuật ngữ khác để kiểm tra giả thuyết

Tham số 

Tham số là một mô tả tóm tắt về dân số mục tiêu. Ví dụ: Nếu bạn được giao nhiệm vụ tìm chiều cao trung bình của các bạn cùng lớp, bạn sẽ hỏi mọi người trong lớp (dân số) về chiều cao của họ. Bởi vì mọi người đều được hỏi cùng một câu hỏi, bạn sẽ có một mô tả chân thực và nhận được một thông số.

Thống kê 

Thống kê là một mô tả về một phần nhỏ của dân số (mẫu). Sử dụng ví dụ tương tự như trên, bây giờ bạn được giao nhiệm vụ tìm chiều cao trung bình của nhóm tuổi (dân số) của mình, sau đó bạn có thể sử dụng thông tin mà bạn thu thập được từ lớp học của mình (mẫu). Loại thông tin này được gọi là thống kê.

Phân phối lấy mẫu

Phân phối lấy mẫu là phân phối xác suất bằng cách chọn một số lượng lớn các mẫu được rút ra từ một tổng thể cụ thể. Ví dụ: Nếu bạn cung cấp một mẫu ngẫu nhiên gồm 10 cửa hàng cà phê trong quận của mình, từ tổng số 200 cửa hàng cà phê. Mẫu ngẫu nhiên có thể là số quán cà phê 4, 7, 13, 76, 94, 145, 11, 189, 52, 165 hoặc bất kỳ kết hợp nào khác. 

Lỗi tiêu chuẩn

Lỗi chuẩn tương tự như độ lệch chuẩn, ở khía cạnh cả hai đều đo mức độ lan truyền dữ liệu của bạn. Giá trị càng cao, dữ liệu của bạn càng lan rộng. Tuy nhiên, sự khác biệt là lỗi tiêu chuẩn sử dụng dữ liệu mẫu, trong khi độ lệch chuẩn sử dụng dân số. Sai số tiêu chuẩn cho bạn biết thống kê mẫu của bạn cách trung bình dân số thực tế bao xa.

Lỗi loại I

Lỗi loại I còn được gọi là dương tính giả và xảy ra khi nhóm từ chối sai một giả thuyết không đúng. Điều này có nghĩa là báo cáo nói rằng những phát hiện của bạn là quan trọng, tuy nhiên, chúng xảy ra một cách tình cờ.

Lỗi loại II

Lỗi loại II còn được gọi là phủ định sai, xảy ra khi nhóm không bác bỏ một giả thuyết không, thực tế là sai. Điều này có nghĩa là báo cáo nói rằng những phát hiện của bạn không có ý nghĩa trong khi thực tế là có. 

Mức độ quan trọng 

Mức ý nghĩa là xác suất và rủi ro tối đa của việc đưa ra kết luận sai (lỗi loại I) mà bạn sẵn sàng chấp nhận. Các nhà khoa học dữ liệu, nhà nghiên cứu, v.v. đặt trước điều này và sử dụng nó làm ngưỡng cho ý nghĩa thống kê.

Giá trị P 

P - value nghĩa là giá trị xác suất và là một con số so với mức ý nghĩa để quyết định có bác bỏ giả thuyết khống hay không. Nó quyết định liệu dữ liệu mẫu có hỗ trợ lập luận ngược lại và giả thuyết không là đúng hay không. Nếu bạn có giá trị p cao hơn mức ý nghĩa, thì giả thuyết không sai hoặc sai và kết quả không có ý nghĩa thống kê. Tuy nhiên, nếu bạn có giá trị p thấp hơn mức đáng kể, kết quả sẽ được hiểu là sai đối với giả thuyết khống và được coi là có ý nghĩa thống kê.

Phần kết luận

Bài viết này giới thiệu về thử nghiệm giả thuyết và lý do tại sao các nhà khoa học dữ liệu sử dụng nó. Kiểm tra giả thuyết là một yếu tố quan trọng trong quy trình làm việc của nhà khoa học dữ liệu. Nó giúp họ tự tin hơn vào giả thuyết của mình và cho phép họ trình bày công việc của mình với các giám đốc điều hành mà không do dự. 

Nếu bạn muốn biết thêm về thử nghiệm giả thuyết, hãy đọc thử Thử nghiệm giả thuyết: Hướng dẫn trực quan để đưa ra quyết định dựa trên dữ liệu.


Copyright Disclaimer:

This site does not store any files on its server. We only index and link to content provided by other sites. Please contact the content providers to delete copyright contents if any and email us, we'll remove relevant links or contents immediately.

Tuyên bố miễn trừ bản quyền:

Trang web này không lưu trữ bất kỳ tệp nào trên máy chủ của nó. Chúng tôi chỉ lập chỉ mục và liên kết đến nội dung được cung cấp bởi các trang web khác. Vui lòng liên hệ với các nhà cung cấp nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa các liên kết hoặc nội dung có liên quan ngay lập tức.

Tham khảo các bài viết cùng chủ đề:

Đọc thêm
Đăng nhận xét