Tùy Chỉnh Chế Độ Xem
Cài đặt chỉ áp dụng cho trình duyệt này
Chế độ ánh sáng màn hình
  • Giao diện sáng
  • Giao diện tối
  • Giao diện mặc định

Tối Ưu Tổng Quát Và Khả Năng Mở Rộng Decision Trees (GOSDT)

toi-uu-tong-quat-va-kha-nang-mo-rong-decision-trees-gosdt


Tôi thường nói về các phương pháp AI(XAI) có thể giải thích được và cách chúng có thể được điều chỉnh để giải quyết một số điểm khó khăn ngăn cản các công ty xây dựng và triển khai các giải pháp AI. Bạn có thể kiểm tra blog của tôi nếu bạn cần xem lại nhanh các phương pháp XAI.

Một phương pháp XAI như vậy là Decision Trees. Chúng đã đạt được sức hút đáng kể trong lịch sử vì tính dễ hiểu và đơn giản của chúng. Tuy nhiên, nhiều người nghĩ rằng cây quyết định không thể chính xác vì chúng trông đơn giản và các thuật toán tham lam như C4.5 và GIỎ HÀNG không tối ưu hóa chúng tốt. 

Tuyên bố này chỉ hợp lệ một phần vì một số biến thể của decision trees, chẳng hạn như C4.5 và GIỎ HÀNG, có những nhược điểm sau:

  1. Dễ bị quá mức, đặc biệt khi cây trở nên quá sâu với quá nhiều nhánh. Điều này có thể dẫn đến hiệu suất kém trên dữ liệu mới, chưa thấy.
  2. Việc đánh giá và đưa ra dự đoán với các tập dữ liệu lớn có thể chậm hơn vì chúng yêu cầu đưa ra nhiều quyết định dựa trên giá trị của các tính năng đầu vào. 
  3. Họ có thể gặp khó khăn khi xử lý các biến liên tục vì chúng yêu cầu cây chia biến thành nhiều khoảng nhỏ hơn, điều này có thể làm tăng độ phức tạp của cây và gây khó khăn cho việc xác định các mẫu có ý nghĩa trong dữ liệu.
  4. Thường được gọi là thuật toán “greedy”, nó đưa ra quyết định tối ưu cục bộ ở mỗi bước mà không xem xét hậu quả của những quyết định đó đối với các bước trong tương lai. Cây tối ưu phụ là đầu ra của GIỎ HÀNG, nhưng không có số liệu "thực" nào tồn tại để đo lường nó.

Các thuật toán tinh vi hơn, chẳng hạn như Phương pháp học tập đồng bộ, có sẵn để giải quyết các vấn đề này. Nhưng thường có thể được coi là một “hộp đen” vì chức năng được gạch chân của các thuật toán. 

Tuy nhiên, nghiên cứu gần đây đã chỉ ra rằng nếu bạn tối ưu hóa cây quyết định (thay vì sử dụng các phương pháp tham lam như C4.5 và GIỎ HÀNG), chúng có thể chính xác một cách đáng ngạc nhiên, trong nhiều trường hợp, chính xác như hộp đen. Một thuật toán như vậy có thể giúp tối ưu hóa và giải quyết một số nhược điểm nêu trên là GOSDT. GOSDT là một thuật toán để tạo ra các cây quyết định tối ưu thưa thớt.

Mục đích của blog là giới thiệu nhẹ nhàng về GOSDT và trình bày một ví dụ về cách nó có thể được triển khai trên một tập dữ liệu. 

Blog này dựa trên một bài báo nghiên cứu được xuất bản bởi một vài người tuyệt vời. Bạn có thể đọc báo ở đây . Blog này không thay thế cho bài viết này, nó cũng không đề cập đến các chi tiết cực kỳ toán học. Đây là hướng dẫn dành cho những người thực hành khoa học dữ liệu tìm hiểu về thuật toán này và tận dụng nó trong các trường hợp sử dụng hàng ngày của họ.

Tóm lại, GOSDT giải quyết một số vấn đề chính:

  1. Xử lý tốt các bộ dữ liệu mất cân bằng và tối ưu hóa các chức năng mục tiêu khác nhau (không chỉ độ chính xác).
  2. Tối ưu hóa hoàn toàn cây cối và không tham lam xây dựng chúng.
  3. Nó gần như nhanh như các thuật toán tham lam vì nó giải quyết các vấn đề tối ưu hóa NP-hard cho cây quyết định.

Cây GOSDT giải quyết các vấn đề trên như thế nào?

  1. Cây GOSDT sử dụng không gian tìm kiếm động thông qua cây băm để cải thiện hiệu quả của mô hình. Bằng cách giới hạn không gian tìm kiếm và sử dụng các giới hạn để xác định các biến tương tự, cây GOSDT có thể giảm số lượng phép tính cần thiết để tìm ra sự phân chia tối ưu. Điều này có thể cải thiện đáng kể thời gian tính toán, chủ yếu khi làm việc với các biến liên tục.
  2. Trong các cây GOSDT, các giới hạn để tách được áp dụng cho một phần cây và chúng được sử dụng để loại bỏ nhiều cây khỏi không gian tìm kiếm. Điều này cho phép mô hình tập trung vào một trong những cây còn lại (có thể là một phần cây) và đánh giá nó hiệu quả hơn. Bằng cách giảm không gian tìm kiếm, cây GOSDT có thể nhanh chóng tìm thấy sự phân chia tối ưu và tạo ra một mô hình chính xác và dễ hiểu hơn.
  3. Cây GOSDT được thiết kế để xử lý dữ liệu mất cân bằng, một thách thức phổ biến trong nhiều ứng dụng trong thế giới thực. Cây GOSDT xử lý dữ liệu mất cân bằng bằng cách sử dụng thước đo độ chính xác có trọng số xem xét tầm quan trọng tương đối của các lớp khác nhau trong tập dữ liệu. Điều này có thể đặc biệt hữu ích khi có một ngưỡng được xác định trước cho mức độ chính xác mong muốn, vì nó cho phép mô hình tập trung vào việc phân loại chính xác các mẫu quan trọng hơn đối với ứng dụng.

Tóm tắt các quan sát từ GOSDT

  1. Những cây này trực tiếp tối ưu hóa sự cân bằng giữa độ chính xác khi huấn luyện và số lượng lá. 
  2. Tạo ra độ chính xác trong đào tạo và kiểm tra tuyệt vời với số lượng lá hợp lý
  3. Hoàn hảo cho các vấn đề rất không lồi
  4. Hiệu quả nhất đối với số lượng tính năng nhỏ hoặc trung bình. Nhưng nó có thể xử lý tới hàng chục nghìn quan sát trong khi vẫn duy trì tốc độ và độ chính xác.

Thời gian để xem tất cả trong hành động!! Trong blog trước đây của mình, tôi đã giải quyết vấn đề phê duyệt đơn xin vay bằng cách sử dụng Phân loại Keras. Chúng tôi sẽ sử dụng cùng một bộ dữ liệu để xây dựng cây phân loại bằng GOSDT.

Copyright Disclaimer:

This site does not store any files on its server. We only index and link to content provided by other sites. Please contact the content providers to delete copyright contents if any and email us, we'll remove relevant links or contents immediately.

Tuyên bố miễn trừ bản quyền:

Trang web này không lưu trữ bất kỳ tệp nào trên máy chủ của nó. Chúng tôi chỉ lập chỉ mục và liên kết đến nội dung được cung cấp bởi các trang web khác. Vui lòng liên hệ với các nhà cung cấp nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa các liên kết hoặc nội dung có liên quan ngay lập tức.

Tham khảo các bài viết cùng chủ đề:

Đọc thêm
Đăng nhận xét