9 Dự án Máy học (Machine Learning) bạn sẽ được thuê

Quản Trị Viên

30 tháng 1

Published 25 tháng 1

(Weekly Study - Machine Learning) Nếu bạn muốn thâm nhập vào thị trường việc làm máy học và khoa học dữ liệu, thì bạn sẽ cần phải chứng minh sự thành thạo các kỹ năng của mình, đặc biệt nếu bạn tự học qua các khóa học trực tuyến và chương trình đào tạo. Danh mục đầu tư dự án là một cách tuyệt vời để thực hành nghề mới của bạn và cung cấp bằng chứng thuyết phục rằng một nhân viên nên thuê bạn hơn đối thủ cạnh tranh.

9 Dự án Máy học (Machine Learning) bạn sẽ được thuê

Ngành công nghiệp AI và Machine Learning đang bùng nổ hơn bao giờ hết. Tính đến năm 2021, sự gia tăng sử dụng AI trong các doanh nghiệp sẽ tạo ra 2,9 nghìn tỷ đô la giá trị kinh doanh. AI đã tự động hóa nhiều ngành công nghiệp trên toàn cầu và thay đổi cách chúng hoạt động. Hầu hết các công ty lớn đều kết hợp AI để tối đa hóa năng suất trong quy trình làm việc của họ và các ngành như tiếp thị và chăm sóc sức khỏe đã trải qua một sự thay đổi mô hình do sự hợp nhất của AI.

Do đó, nhu cầu ngày càng tăng trong những năm qua đối với các chuyên gia AI. Gần như đã tăng 100% các tin tuyển dụng liên quan đến AI và học máy từ năm 2015 đến năm 2018. Con số này đã tăng lên kể từ đó và dự kiến sẽ tăng vào năm 2021.

Nếu bạn đang muốn thâm nhập vào ngành công nghiệp máy học, tin tốt là không thiếu việc làm. Các công ty cần một lực lượng lao động tài năng có khả năng đi tiên phong trong việc chuyển đổi sang học máy. Tuy nhiên, thị trường việc làm bị xâm nhập bởi những người muốn thâm nhập vào ngành công nghiệp dữ liệu. Vì không có chương trình cấp bằng cụ thể nào phục vụ cho những sinh viên muốn học máy học, nhiều học viên ML có nguyện vọng tự học.

Thật không may, đăng ký các khóa học trực tuyến hoặc tham gia chương trình học máy học Bootcamp không giúp bạn học các khái niệm lý thuyết nhưng không giúp bạn chuẩn bị cho một công việc trong ngành. Còn rất nhiều việc phải làm, đã học lý thuyết. Giả sử bạn biết kiến thức cơ bản về thuật toán học máy - bạn hiểu cách hoạt động của các mô hình hồi quy và phân loại, đồng thời bạn biết các loại phương pháp phân nhóm khác nhau.

Bạn sẽ thực hành các kỹ năng đã học để giải quyết một vấn đề thực tế như thế nào? Câu trả lời đơn giản là: Thực hành, Thực hành và Thực hành các dự án máy học đa dạng .

Khi bạn đã học xong các khái niệm lý thuyết, bạn nên bắt đầu làm việc với các dự án AI và máy học. Những dự án này sẽ cung cấp cho bạn thực hành cần thiết để trau dồi kỹ năng của bạn trong lĩnh vực này, đồng thời, là một giá trị bổ sung tuyệt vời cho danh mục học máy của bạn.

Nếu bạn là người mới tham gia vào ngành dữ liệu và có ít kinh nghiệm với các dự án thực tế, hãy bắt đầu với các dự án ML cấp mới bắt đầu trước khi chuyển sang những dự án khó khăn hơn.

Dự án máy học cho người mới bắt đầu

1. Dự đoán tàu Titanic của Kaggle

Dự án đầu tiên trong danh sách này là một trong những dự án ML đơn giản nhất mà bạn có thể đảm nhận. Dự án này được khuyến nghị để hoàn thành những người mới bắt đầu trong ngành dữ liệu. Bộ dữ liệu Titanic có sẵn trên Kaggle và liên kết để tải xuống bộ dữ liệu này được cung cấp bên dưới.

Tập dữ liệu này là của những hành khách đã đi trên tàu Titanic. Nó có các thông tin chi tiết như tuổi hành khách, giá vé, cabin và giới tính. Dựa trên thông tin này, bạn sẽ cần phải dự đoán liệu những hành khách này có sống sót hay không.

Đó là một bài toán phân loại nhị phân đơn giản và tất cả những gì bạn cần làm là dự đoán xem một hành khách cụ thể có sống sót hay không. Điều tốt nhất về tập dữ liệu này là tất cả quá trình xử lý trước được thực hiện cho bạn. Bạn có một tập dữ liệu sạch đẹp để đào tạo mô hình học máy của mình.

Vì đây là một bài toán phân loại, bạn có thể chọn sử dụng các thuật toán như hồi quy logistic, cây quyết định và rừng ngẫu nhiên để xây dựng mô hình dự đoán. Bạn cũng có thể chọn các mô hình tăng cường độ dốc như bộ phân loại XGBoost cho dự án máy học cấp độ người mới bắt đầu này để có được kết quả tốt hơn.

Dataset: Kaggle Titanic Dataset

2. Dự đoán giá nhà

Dữ liệu giá nhà cũng rất tốt để bắt đầu nếu bạn là người mới bắt đầu học máy. Dự án này sẽ sử dụng tập dữ liệu định giá nhà có sẵn trên Kaggle. Biến mục tiêu trong tập dữ liệu này là giá của một ngôi nhà cụ thể, mà bạn sẽ cần dự đoán bằng cách sử dụng các thông tin như diện tích nhà, số phòng ngủ, số phòng tắm và tiện ích.

Đây là một bài toán hồi quy và bạn có thể sử dụng các kỹ thuật như hồi quy tuyến tính để xây dựng mô hình. Bạn cũng có thể thực hiện một cách tiếp cận nâng cao hơn và sử dụng công cụ hồi quy rừng ngẫu nhiên hoặc tăng độ dốc để dự đoán giá nhà.

Tập dữ liệu này có 80 cột, không bao gồm biến mục tiêu. Bạn sẽ cần phải sử dụng một số kỹ thuật giảm kích thước để chọn thủ công các đối tượng địa lý vì việc thêm quá nhiều biến có thể làm cho mô hình của bạn hoạt động kém.

Cũng có nhiều biến phân loại trong tập dữ liệu, vì vậy bạn cần phải xử lý chúng một cách hợp lý bằng cách sử dụng các kỹ thuật như mã hóa một nóng hoặc mã hóa nhãn.

Dataset: Tập dữ liệu dự đoán giá nhà Kaggle

3. Dự đoán chất lượng rượu

Bộ dữ liệu dự đoán chất lượng rượu cũng rất phổ biến đối với những người mới bắt đầu trong ngành dữ liệu. Trong dự án này, bạn sẽ sử dụng độ axit cố định, độ axit bay hơi, độ cồn và tỷ trọng để dự đoán chất lượng của rượu vang đỏ.

Đây có thể được coi là một vấn đề phân loại hoặc hồi quy. Biến chất lượng rượu vang bạn cần dự đoán trong tập dữ liệu nằm trong khoảng từ 0–10, vì vậy bạn có thể xây dựng mô hình hồi quy để dự đoán. Một cách tiếp cận khác mà bạn có thể thực hiện là chia nhỏ các giá trị (từ 0–10) thành các khoảng rời rạc và chuyển chúng thành các biến phân loại. Ví dụ: bạn có thể tạo ba danh mục - thấp, trung bình và cao .

Sau đó, bạn có thể xây dựng bộ phân loại cây quyết định hoặc bất kỳ mô hình phân loại nào để đưa ra dự đoán. Đây là một tập dữ liệu tương đối rõ ràng và đơn giản để thực hành các kỹ năng học máy hồi quy và phân loại của bạn.

Dataset: Bộ dữ liệu chất lượng rượu vang đỏ Kaggle

4. Dự đoán bệnh tim

Nếu bạn đang muốn khám phá tập dữ liệu trong ngành chăm sóc sức khỏe, thì đây là tập dữ liệu cấp độ người mới bắt đầu tuyệt vời để bắt đầu. Bộ dữ liệu này được sử dụng để dự đoán nguy cơ mắc bệnh CHD (Bệnh tim mạch vành) trong 10 năm. Các biến phụ thuộc trong tập dữ liệu này là các yếu tố nguy cơ của bệnh tim, bao gồm tiểu đường, hút thuốc, huyết áp cao và mức cholesterol cao.

Biến độc lập là rủi ro 10 năm của CHD. Đây là một bài toán phân loại nhị phân và biến mục tiêu là 0 hoặc 1–0 đối với những bệnh nhân chưa bao giờ phát triển bệnh tim và 1 đối với những bệnh nhân đã từng mắc bệnh. Bạn có thể thực hiện một số lựa chọn tính năng trên tập dữ liệu này để xác định các tính năng góp phần gây nguy cơ tim nhiều nhất. Sau đó, bạn có thể phù hợp với một mô hình phân loại vào các biến độc lập.

Tập dữ liệu này rất mất cân bằng vì nhiều bệnh nhân trong tập dữ liệu này không phát triển bệnh tim. Một tập dữ liệu không cân bằng cần được xử lý bằng cách sử dụng các kỹ thuật kỹ thuật tính năng phù hợp như lấy mẫu quá mức, điều chỉnh trọng số hoặc lấy mẫu dưới. Nếu không được xử lý đúng cách, bạn sẽ kết thúc với một mô hình chỉ đơn giản là dự đoán lớp đa số cho mỗi điểm dữ liệu và không thể xác định những bệnh nhân đã phát triển bệnh tim. Đây là tập dữ liệu tuyệt vời để bạn thực hành các kỹ năng kỹ thuật tính năng và học máy của mình.

Dataset: Tập dữ liệu về bệnh tim Kaggle

5. Phân loại chữ số MNIST

Bộ dữ liệu MNIST là bước đệm của bạn trong lĩnh vực học sâu. Tập dữ liệu này bao gồm các hình ảnh thang độ xám của các chữ số viết tay từ 0 đến 9. Nhiệm vụ của bạn là xác định chữ số bằng cách sử dụng một thuật toán học sâu. Đây là một bài toán phân loại nhiều lớp với mười lớp đầu ra có thể. Bạn có thể sử dụng CNN (Mạng lưới thần kinh chuyển đổi) để thực hiện phân loại này.

Tập dữ liệu MNIST được xây dựng trong thư viện Keras bằng Python. Tất cả những gì bạn cần làm là cài đặt Keras, nhập thư viện và tải tập dữ liệu. Tập dữ liệu này có khoảng 60.000 hình ảnh để bạn có thể sử dụng khoảng 80% trong số những hình ảnh này để đào tạo và 20% khác để thử nghiệm.

Dataset: Kaggle Digit Recognizer Dataset

6. Phân tích cảm xúc của dữ liệu Twitter

Có rất nhiều bộ dữ liệu phân tích tình cảm Twitter có sẵn trên Kaggle. Một trong những tập dữ liệu phổ biến nhất có tên là feel140, chứa 1,6 triệu Tweet đã được xử lý trước. Đây là một tập dữ liệu tuyệt vời để bắt đầu nếu bạn chưa quen với phân tích tình cảm.

Các Tweet này đã được chú thích và biến mục tiêu là cảm xúc. Các giá trị duy nhất trong cột này là 0 (âm), 2 (trung tính) và 4 (dương).

Sau khi xử lý trước các Tweet này và chuyển đổi chúng thành vectơ, bạn có thể sử dụng mô hình phân loại để huấn luyện chúng với tình cảm liên quan của chúng. Bạn có thể sử dụng các thuật toán như hồi quy logistic, bộ phân loại cây quyết định hoặc bộ phân loại XGBoost cho tác vụ này.

Một giải pháp thay thế khác là sử dụng mô hình học sâu như LSTM để đưa ra dự đoán cảm tính. Tuy nhiên, đây là một cách tiếp cận khó hơn một chút và được xếp vào loại dự án nâng cao.

Bạn cũng có thể sử dụng tập dữ liệu được gắn nhãn này làm cơ sở cho các nhiệm vụ phân tích tình cảm trong tương lai.

Nếu bạn có bất kỳ Tweet nào mà bạn muốn thu thập và thực hiện phân tích cảm xúc, bạn có thể sử dụng mô hình đã được đào tạo trước đó về cảm tính140 để đưa ra các dự đoán trong tương lai.

Dataset: Kaggle Sentiment140 Dataset

7. Phân loại ung thư vú

Bộ dữ liệu phân loại ung thư vú trên Kaggle là một cách tuyệt vời khác để thực hành kỹ năng máy học và AI của bạn.

Hầu hết các vấn đề học máy được giám sát trong thế giới thực là các vấn đề phân loại như bài toán này. Một thách thức quan trọng trong việc xác định ung thư vú là không có khả năng phân biệt giữa các khối u lành tính (không ung thư) và ác tính (ung thư). Tập dữ liệu có các biến như “radius_mean” và “area_mean” của khối u và bạn sẽ cần phân loại dựa trên các đặc điểm này xem khối u có phải là ung thư hay không. Tập dữ liệu này tương đối dễ làm việc vì không cần phải xử lý trước dữ liệu quan trọng nào. Nó cũng là một tập dữ liệu được cân bằng tốt, làm cho nhiệm vụ của bạn dễ quản lý hơn vì bạn không cần phải thực hiện nhiều kỹ thuật tính năng.

Đào tạo một bộ phân loại hồi quy logistic đơn giản trên tập dữ liệu này có thể cung cấp cho bạn độ chính xác cao tới 0,90.

Dataset: Bộ dữ liệu phân loại ung thư vú Kaggle

8. Dự đoán phòng vé TMDB

Tập dữ liệu Kaggle này là một cách tuyệt vời để thực hành các kỹ năng hồi quy của bạn. Nó bao gồm khoảng 7000 bộ phim và bạn sẽ cần sử dụng các biến số hiện tại để dự đoán doanh thu của bộ phim.

Các điểm dữ liệu hiện tại bao gồm dàn diễn viên, đoàn phim, ngân sách, ngôn ngữ và ngày phát hành. Có 23 biến trong tập dữ liệu, một trong số đó là biến mục tiêu.

Mô hình hồi quy tuyến tính cơ bản có thể cung cấp cho bạn bình phương R trên 0,60, vì vậy bạn có thể sử dụng mô hình này làm mô hình dự đoán cơ sở của mình. Cố gắng đánh bại số điểm này bằng cách sử dụng các kỹ thuật như hồi quy XGBoost hoặc GBM nhẹ.

Tập dữ liệu này phức tạp hơn một chút so với tập trước vì một số cột có dữ liệu hiện diện trong các từ điển lồng nhau. Bạn cần thực hiện một số xử lý trước bổ sung để trích xuất dữ liệu này ở định dạng có thể sử dụng được để đào tạo mô hình trên đó.

Dự báo doanh thu là một dự án tuyệt vời để giới thiệu trên danh mục đầu tư của bạn, vì nó cung cấp giá trị kinh doanh cho nhiều lĩnh vực khác nhau bên ngoài ngành công nghiệp điện ảnh.

Dataset: Bộ dữ liệu dự đoán phòng vé Kaggle TMDB

9. Phân khúc khách hàng bằng Python

Tập dữ liệu phân khúc khách hàng trên Kaggle là một cách tuyệt vời để bắt đầu với học máy không giám sát. Tập dữ liệu này bao gồm các thông tin chi tiết về khách hàng như tuổi, giới tính, thu nhập hàng năm và điểm chi tiêu của họ.

Bạn cần sử dụng các biến này để xây dựng phân khúc khách hàng. Những khách hàng giống nhau nên được nhóm lại thành những cụm tương tự. Bạn có thể sử dụng các thuật toán như phân cụm K-Means hoặc phân cụm phân cấp cho tác vụ này. Các mô hình phân khúc khách hàng có thể cung cấp giá trị kinh doanh.

Các công ty thường muốn tách biệt khách hàng của mình để đưa ra các kỹ thuật tiếp thị khác nhau cho từng loại khách hàng.

Các mục tiêu chính của tập dữ liệu này bao gồm:

Đạt được phân khúc khách hàng bằng cách sử dụng các kỹ thuật học máy
Xác định khách hàng mục tiêu của bạn cho các chiến lược tiếp thị khác nhau
Hiểu cách các chiến lược tiếp thị hoạt động trong thế giới thực

Xây dựng mô hình phân nhóm cho nhiệm vụ này có thể giúp danh mục đầu tư của bạn nổi bật và phân đoạn là một kỹ năng tuyệt vời cần có nếu bạn đang tìm kiếm một công việc liên quan đến AI trong ngành tiếp thị.

Dataset: Tập dữ liệu phân khúc khách hàng của Kaggle Mall

Bạn có thể đọc thêm các bài viết liên quan:

Weekly Study - Kênh tri thức Việt

Weekly Study | Kênh Tri Thức Việt