5 Cách Để Đối Phó Với Việc Thiếu Dữ liệu Trong Học Máy

Liu

30 يوليو

Published 05 فبراير

5-cach-de-doi-pho-voi-viec-thieu-du-lieu-trong-hoc-may

Các giải pháp hiệu quả tồn tại khi bạn không có đủ dữ liệu cho các mô hình của mình. Mặc dù không có cách tiếp cận hoàn hảo nhưng năm cách đã được chứng minh sẽ đưa mô hình của bạn vào sản xuất.

Trong nhiều dự án mà tôi đã thực hiện, các công ty, mặc dù có những ý tưởng kinh doanh AI tuyệt vời, nhưng lại có xu hướng dần thất vọng khi nhận ra rằng họ không có đủ dữ liệu… Tuy nhiên, các giải pháp vẫn tồn tại! Mục đích của bài viết này là giới thiệu ngắn gọn với bạn về một số giải pháp trong số đó (những giải pháp đã được chứng minh là hiệu quả trong thực tế của tôi) hơn là liệt kê tất cả các giải pháp hiện có.

Vấn đề khan hiếm dữ liệu rất quan trọng vì dữ liệu là cốt lõi của bất kỳ dự án AI nào. Kích thước của tập dữ liệu thường là nguyên nhân dẫn đến hiệu suất kém trong các dự án ML.

Hầu hết thời gian, các vấn đề liên quan đến dữ liệu là lý do chính khiến các dự án AI tuyệt vời không thể hoàn thành. Trong một số dự án, bạn đi đến kết luận rằng không có dữ liệu liên quan hoặc quá trình thu thập quá khó khăn và tốn thời gian.

Các mô hình học máy có giám sát đang được sử dụng thành công để giải quyết một loạt các thách thức kinh doanh. Tuy nhiên, những mô hình này đang đói dữ liệu và hiệu suất của chúng phụ thuộc rất nhiều vào kích thước của dữ liệu đào tạo có sẵn. Trong nhiều trường hợp, rất khó để tạo tập dữ liệu huấn luyện đủ lớn.

Một vấn đề khác tôi có thể đề cập là các nhà phân tích dự án có xu hướng đánh giá thấp lượng dữ liệu cần thiết để xử lý các vấn đề kinh doanh phổ biến. Tôi nhớ mình đã phải vật lộn để thu thập các tập dữ liệu đào tạo lớn. Việc thu thập dữ liệu thậm chí còn phức tạp hơn khi làm việc cho một công ty lớn.

5-cach-de-doi-pho-voi-viec-thieu-du-lieu-trong-hoc-may-1

Tôi cần bao nhiêu dữ liệu?

Chà, bạn cần số ví dụ gấp khoảng 10 lần so với số bậc tự do trong mô hình của bạn. Mô hình càng phức tạp, bạn càng dễ bị trang bị quá mức, nhưng điều đó có thể tránh được bằng cách xác thực. Tuy nhiên, có thể sử dụng ít dữ liệu hơn dựa trên trường hợp sử dụng.

Overfitting: Đề cập đến một mô hình mô hình hóa dữ liệu đào tạo quá tốt. Nó xảy ra khi một mô hình tìm hiểu chi tiết và nhiễu trong dữ liệu huấn luyện đến mức nó tác động tiêu cực đến hiệu suất của mô hình trên dữ liệu mới.

Vấn đề xử lý các giá trị còn thiếu cũng là điều đáng bàn. Đặc biệt nếu số lượng giá trị bị thiếu trong dữ liệu của bạn đủ lớn (trên 5%).

Một lần nữa, việc xử lý các giá trị còn thiếu sẽ phụ thuộc vào các tiêu chí "thành công" nhất định. Ngoài ra, các tiêu chí này khác nhau đối với các tập dữ liệu khác nhau và thậm chí đối với các ứng dụng khác nhau, chẳng hạn như nhận dạng, phân đoạn, dự đoán và phân loại (được cung cấp cùng một tập dữ liệu) ngay cả đối với các ứng dụng khác nhau (nhận dạng, phân đoạn, dự đoán, phân loại).

Điều quan trọng là phải hiểu rằng không có cách nào hoàn hảo để xử lý dữ liệu bị thiếu.

Các giải pháp khác nhau tồn tại, nhưng nó phụ thuộc vào loại vấn đề - Phân tích chuỗi thời gian, ML, Hồi quy,...

Khi nói đến các kỹ thuật dự đoán, chúng chỉ được sử dụng khi các giá trị bị thiếu không được quan sát hoàn toàn ngẫu nhiên và các biến được chọn để quy các giá trị bị thiếu đó có mối quan hệ nào đó với nó, nếu không nó có thể mang lại các ước tính không chính xác.

Nói chung, các thuật toán học máy khác nhau có thể được sử dụng để xác định các giá trị còn thiếu. Điều này hoạt động bằng cách biến các tính năng bị thiếu thành nhãn và hiện sử dụng các cột không có giá trị bị thiếu để dự đoán các cột có giá trị bị thiếu.

Dựa trên kinh nghiệm của tôi, bạn sẽ phải đối mặt với việc thiếu dữ liệu hoặc thiếu dữ liệu tại một số thời điểm nếu bạn quyết định xây dựng một giải pháp do AI cung cấp, nhưng may mắn thay, có nhiều cách để biến điểm trừ đó thành điểm cộng.

Thiếu dữ liệu?

Như đã lưu ý ở trên, không thể ước tính chính xác lượng dữ liệu tối thiểu cần thiết cho một dự án AI. Rõ ràng, bản chất dự án của bạn sẽ ảnh hưởng đáng kể đến lượng dữ liệu bạn cần. Ví dụ: Văn bản, hình ảnh và video thường yêu cầu nhiều dữ liệu hơn. Tuy nhiên, nhiều yếu tố khác cần được xem xét để đưa ra ước tính chính xác.

Số loại được dự đoán

Đầu ra dự kiến của mô hình của bạn là gì? Về cơ bản, số lượng hoặc danh mục càng ít càng tốt.

Hiệu suất mô hình

Nếu bạn dự định đưa một sản phẩm vào sản xuất, bạn cần nhiều hơn thế. Một bộ dữ liệu nhỏ có thể đủ tốt để làm bằng chứng về khái niệm, nhưng trong quá trình sản xuất, bạn sẽ cần nhiều dữ liệu hơn.

Nói chung, các bộ dữ liệu nhỏ yêu cầu các mô hình có độ phức tạp thấp (hoặc độ lệch cao) để tránh mô hình phù hợp với dữ liệu.

Giải pháp phi kỹ thuật

Trước khi khám phá các giải pháp kỹ thuật, hãy phân tích những gì chúng tôi có thể làm để cải thiện tập dữ liệu của bạn. Điều này nghe có vẻ hiển nhiên nhưng trước khi bắt đầu với AI, vui lòng cố gắng thu thập càng nhiều dữ liệu càng tốt bằng cách phát triển các công cụ bên ngoài và bên trong của bạn có tính đến việc thu thập dữ liệu. Nếu bạn biết các tác vụ mà thuật toán máy học dự kiến sẽ thực hiện, thì bạn có thể tạo trước một cơ chế thu thập dữ liệu.

Cố gắng thiết lập một nền văn hóa dữ liệu thực sự trong tổ chức của bạn.

Để bắt đầu thực thi ML, bạn có thể dựa vào dữ liệu nguồn mở. Có rất nhiều dữ liệu có sẵn cho ML và một số công ty sẵn sàng cung cấp dữ liệu đó.

Nếu bạn cần dữ liệu bên ngoài cho dự án của mình, thì có thể có lợi khi thiết lập quan hệ đối tác với các tổ chức khác để có được dữ liệu liên quan. Hình thành quan hệ đối tác rõ ràng sẽ khiến bạn mất một khoảng thời gian, nhưng dữ liệu độc quyền thu được sẽ tạo ra một rào cản tự nhiên đối với bất kỳ đối thủ nào.

Xây dựng ứng dụng hữu ích, cho đi, sử dụng dữ liệu

Một cách tiếp cận khác mà tôi đã sử dụng trong dự án trước đây của mình là cấp quyền truy cập vào ứng dụng đám mây cho khách hàng. Dữ liệu đưa vào ứng dụng có thể được sử dụng để xây dựng các mô hình máy học. Khách hàng trước đây của tôi đã xây dựng một ứng dụng cho các bệnh viện và cung cấp miễn phí. Chúng tôi đã thu thập rất nhiều dữ liệu nhờ nó và quản lý để tạo một tập dữ liệu duy nhất cho giải pháp ML của chúng tôi. Nó thực sự hữu ích để nói với khách hàng hoặc nhà đầu tư rằng bạn đã xây dựng tập dữ liệu của riêng mình và duy nhất.

Tập dữ liệu nhỏ

Dựa trên kinh nghiệm của tôi, một số cách tiếp cận phổ biến có thể giúp xây dựng các mô hình dự đoán từ các tập dữ liệu nhỏ là:

Nói chung, thuật toán học máy càng đơn giản thì nó sẽ học càng tốt từ các tập dữ liệu nhỏ. Từ góc độ ML, dữ liệu nhỏ yêu cầu các mô hình có độ phức tạp thấp (hoặc độ lệch cao) để tránh mô hình phù hợp với dữ liệu. Tôi nhận thấy rằng thuật toán Naive Bayes là một trong những thuật toán phân loại đơn giản nhất và kết quả là học rất tốt từ các tập dữ liệu tương đối nhỏ.

Các phương pháp Naive Bayes: Tập hợp các thuật toán học có giám sát dựa trên việc áp dụng định lý Bayes với giả định “naive” về tính độc lập có điều kiện giữa mọi cặp tính năng với giá trị của biến lớp.

Bạn cũng có thể dựa vào các mô hình tuyến tính và cây quyết định khác. Thật vậy, chúng cũng có thể hoạt động tương đối tốt trên các tập dữ liệu nhỏ. Về cơ bản, các mô hình đơn giản có thể học hỏi từ các tập dữ liệu nhỏ tốt hơn các mô hình phức tạp hơn (mạng lưới thần kinh) vì về cơ bản chúng cố gắng học ít hơn.

Đối với các bộ dữ liệu rất nhỏ, các phương pháp Bayes nói chung là tốt nhất trong lớp, mặc dù kết quả có thể nhạy cảm với lựa chọn trước đó của bạn. Tôi nghĩ rằng trình phân loại Naive Bayes và hồi quy sườn núi là những mô hình dự đoán tốt nhất.

Khi nói đến các tập dữ liệu nhỏ, bạn cần các mô hình có ít tham số (độ phức tạp thấp) và/hoặc ưu tiên mạnh mẽ. Bạn cũng có thể diễn giải “trước” như một giả định mà bạn có thể đưa ra về cách dữ liệu hoạt động.

Nhiều giải pháp khác tồn tại tùy thuộc vào bản chất chính xác của các vấn đề kinh doanh và quy mô tập dữ liệu của bạn.

Học chuyển tiếp

Định nghĩa: Một khung tận dụng dữ liệu hoặc mô hình có liên quan hiện có trong khi xây dựng mô hình máy học.

Học chuyển giao sử dụng kiến thức từ một nhiệm vụ đã học để cải thiện hiệu suất của một nhiệm vụ liên quan, thường là giảm lượng dữ liệu đào tạo cần thiết.

Các kỹ thuật học chuyển giao rất hữu ích vì chúng cho phép các mô hình đưa ra dự đoán cho một miền hoặc nhiệm vụ mới (được gọi là miền đích) bằng cách sử dụng kiến thức học được từ một tập dữ liệu khác hoặc các mô hình máy học hiện có (miền nguồn).

Các kỹ thuật học chuyển giao nên được xem xét khi bạn không có đủ dữ liệu đào tạo mục tiêu và miền nguồn và miền đích có một số điểm tương đồng nhưng không giống hệt nhau.

Các mô hình tổng hợp ngây thơ hoặc các bộ dữ liệu khác nhau không phải lúc nào cũng hoạt động! Nếu các bộ dữ liệu hiện có rất khác so với dữ liệu mục tiêu, thì người học mới có thể bị ảnh hưởng tiêu cực bởi dữ liệu hoặc mô hình hiện có.

Chuyển giao học tập hoạt động tốt khi bạn có các bộ dữ liệu khác mà bạn có thể sử dụng để suy luận kiến thức, nhưng điều gì xảy ra khi bạn không có dữ liệu nào cả? Đây là nơi tạo dữ liệu có thể đóng một vai trò. Nó được sử dụng khi không có sẵn dữ liệu hoặc khi bạn cần tạo nhiều dữ liệu hơn mức bạn có thể tích lũy ngay cả khi tổng hợp.

Trong trường hợp này, một lượng nhỏ dữ liệu tồn tại được sửa đổi để tạo ra các biến thể trên dữ liệu đó nhằm huấn luyện mô hình. Ví dụ: Nhiều hình ảnh về ô tô có thể được tạo bằng cách cắt xén và thu nhỏ một hình ảnh duy nhất về ô tô.

Thật không may, việc thiếu dữ liệu được dán nhãn chất lượng cũng là một trong những thách thức lớn nhất mà các nhóm khoa học dữ liệu phải đối mặt, nhưng bằng cách sử dụng các kỹ thuật, chẳng hạn như học chuyển giao và tạo dữ liệu, có thể khắc phục tình trạng khan hiếm dữ liệu.

Một ứng dụng phổ biến khác của học chuyển đổi là đào tạo các mô hình trên bộ dữ liệu khách hàng chéo để khắc phục các vấn đề khởi động nguội. Tôi nhận thấy rằng các công ty SaaS thường phải giải quyết vấn đề này khi giới thiệu khách hàng mới về các sản phẩm ML của họ. Thật vậy, cho đến khi khách hàng mới thu thập đủ dữ liệu để đạt được hiệu suất mô hình tốt (có thể mất vài tháng), thật khó để cung cấp giá trị.

Tăng cường dữ liệu

Tăng cường dữ liệu có nghĩa là tăng số lượng điểm dữ liệu. Trong dự án mới nhất của tôi, chúng tôi đã sử dụng các kỹ thuật tăng cường dữ liệu để tăng số lượng hình ảnh trong tập dữ liệu của mình. Trong điều kiện dữ liệu định dạng hàng/cột truyền thống có nghĩa là tăng số lượng hàng hoặc đối tượng.

Chúng tôi không có lựa chọn nào khác ngoài việc dựa vào việc tăng cường dữ liệu vì hai lý do: Thời gian và độ chính xác. Mỗi quá trình thu thập dữ liệu được liên kết với một chi phí. Chi phí này có thể tính bằng đô la, nỗ lực của con người, tài nguyên máy tính và tất nhiên là thời gian tiêu tốn trong quá trình này.

Do đó, chúng tôi phải bổ sung dữ liệu hiện có để tăng kích thước dữ liệu mà chúng tôi cung cấp cho các bộ phân loại ML của mình và để bù đắp chi phí liên quan đến việc thu thập thêm dữ liệu.

Có nhiều cách để tăng cường dữ liệu.

Trong trường hợp của chúng tôi, bạn có thể xoay ảnh gốc, thay đổi điều kiện ánh sáng, cắt ảnh theo cách khác, vì vậy, đối với một ảnh, bạn có thể tạo các mẫu phụ khác nhau. Bằng cách này, bạn có thể giảm việc trang bị quá mức cho bộ phân loại của mình.

Tuy nhiên, nếu bạn đang tạo dữ liệu nhân tạo bằng cách sử dụng các phương pháp lấy mẫu quá mức, chẳng hạn như SMOTE, thì rất có thể bạn sẽ giới thiệu việc trang bị quá mức.

Trang bị quá mức: Mô hình được trang bị quá mức là mô hình có đường xu hướng phản ánh các lỗi trong dữ liệu mà nó được đào tạo, thay vì dự đoán chính xác dữ liệu chưa nhìn thấy.

Đây là điều bạn phải cân nhắc khi phát triển giải pháp AI của mình.

Dữ liệu tổng hợp

Dữ liệu tổng hợp có nghĩa là dữ liệu giả mạo có cùng lược đồ và thuộc tính thống kê giống như dữ liệu "thực" của nó. Về cơ bản, nó trông thật đến mức gần như không thể nói rằng nó không phải vậy.

Vì vậy, điểm của dữ liệu tổng hợp là gì và tại sao nó lại quan trọng nếu chúng ta đã có quyền truy cập vào dữ liệu thực?

Tôi đã thấy dữ liệu tổng hợp được áp dụng, đặc biệt là khi chúng tôi xử lý dữ liệu riêng tư (ngân hàng, chăm sóc sức khỏe,...), điều này làm cho việc sử dụng dữ liệu tổng hợp trở thành một cách tiếp cận an toàn hơn để phát triển trong một số trường hợp nhất định.

Dữ liệu tổng hợp được sử dụng chủ yếu khi không có đủ dữ liệu thực hoặc không có đủ dữ liệu thực cho các mẫu cụ thể mà bạn biết. Cách sử dụng của nó hầu như giống nhau đối với tập dữ liệu huấn luyện và kiểm tra.

Kỹ thuật lấy mẫu quá mức thiểu số tổng hợp (SMOTE) và Modified-SMOTE là hai kỹ thuật tạo dữ liệu tổng hợp. Nói một cách đơn giản, SMOTE lấy các điểm dữ liệu của lớp thiểu số và tạo các điểm dữ liệu mới nằm giữa bất kỳ hai điểm dữ liệu gần nhất nào được nối với nhau bằng một đường thẳng.

Thuật toán tính toán khoảng cách giữa hai điểm dữ liệu trong không gian đối tượng, nhân khoảng cách với một số ngẫu nhiên trong khoảng từ 0 đến 1 và đặt điểm dữ liệu mới ở khoảng cách mới này so với một trong các điểm dữ liệu được sử dụng để tính toán khoảng cách.

Để tạo dữ liệu tổng hợp, bạn phải sử dụng tập huấn luyện để xác định mô hình, mô hình này sẽ yêu cầu xác thực và sau đó bằng cách thay đổi các tham số quan tâm, bạn có thể tạo dữ liệu tổng hợp thông qua mô phỏng. Miền/kiểu dữ liệu rất quan trọng vì nó ảnh hưởng đến độ phức tạp của toàn bộ quy trình.

Theo tôi, việc tự hỏi bản thân xem bạn có đủ dữ liệu hay không sẽ tiết lộ những điểm không nhất quán mà có lẽ bạn chưa từng phát hiện ra trước đây. Nó sẽ giúp làm nổi bật các vấn đề trong quy trình kinh doanh mà bạn nghĩ là hoàn hảo và giúp bạn hiểu tại sao đó là chìa khóa để tạo chiến lược dữ liệu thành công trong tổ chức của bạn.

Copyright Disclaimer:

This site does not store any files on its server. We only index and link to content provided by other sites. Please contact the content providers to delete copyright contents if any and email us, we'll remove relevant links or contents immediately.

Tuyên bố miễn trừ bản quyền:

Trang web này không lưu trữ bất kỳ tệp nào trên máy chủ của nó. Chúng tôi chỉ lập chỉ mục và liên kết đến nội dung được cung cấp bởi các trang web khác. Vui lòng liên hệ với các nhà cung cấp nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa các liên kết hoặc nội dung có liên quan ngay lập tức.

Tham khảo các bài viết cùng chủ đề:

1. 5 Cuốn Sách Khoa Học Dữ Liệu Miễn Phí Bạn Phải Đọc Năm 2023

2. 7 Dự Án Danh Mục Đầu Tư Học Máy Để Thúc Đẩy Sơ Yếu Lý Lịch

3. ETL Phải Làm Gì Với Machine Learning?

Weekly Study | Kênh Tri Thức Việt

5 Cách Để Đối Phó Với Việc Thiếu Dữ liệu Trong Học Máy

Thiếu dữ liệu?

Giải pháp phi kỹ thuật

Xây dựng ứng dụng hữu ích, cho đi, sử dụng dữ liệu

Tập dữ liệu nhỏ

Học chuyển tiếp

Tăng cường dữ liệu

Dữ liệu tổng hợp

Copyright Disclaimer:

Tuyên bố miễn trừ bản quyền:

Tham khảo các bài viết cùng chủ đề:

7 Khóa học Trí tuệ nhân tạo AI miễn phí tốt nhất năm 2025

15 Dự án Trí tuệ nhân tạo AI thú vị cho Người mới bắt đầu

5 Vị trí Công việc trong ngành Trí tuệ nhân tạo AI phổ biến nhất hiện nay.

Trí tuệ nhân tạo (AI) là gì ? Định nghĩa đúng và ngắn gọn

Tìm hiểu Học sâu Deep Learning thông qua 10 dự án mạng thần kinh vào năm 2023