7 cách để có được nguồn dữ liệu chi phí thấp cho học máy

Quản Trị Viên

07 ديسمبر

(Weekly Study - Machine learning) Việc có được nguồn dữ liệu chất lượng là cần thiết cho việc học máy, nhưng việc lấy dữ liệu như vậy không đơn giản và rẻ tiền. Chúng tôi liệt kê 7 phương pháp tiếp cận bao gồm định vị lại, thu thập các nguồn miễn phí, đào tạo lại các mô hình trên dữ liệu chất lượng cao dần và hơn thế nữa.

7 cách để có được nguồn dữ liệu chi phí thấp cho học máy

Các nhà khoa học dữ liệu biết rằng một mô hình thống kê chưa được đào tạo sẽ vô dụng. Nếu không có dữ liệu đào tạo được gắn nhãn chất lượng cao, việc học có giám sát sẽ bị phá vỡ và không có cách nào để đảm bảo rằng các mô hình có thể dự đoán, phân loại hoặc phân tích hiện tượng quan tâm với bất kỳ độ chính xác nào.

Khi bạn đang thực hiện việc học có giám sát, tốt nhất là không nên phát triển một mô hình nếu không có khả năng tìm thấy dữ liệu đào tạo phù hợp. Ngay cả khi bạn đã tìm thấy một tập dữ liệu đào tạo phù hợp, sẽ không tốt nếu các mục nhập của nó chưa được gắn nhãn, gắn thẻ hoặc chú thích để đào tạo thuật toán học máy của bạn một cách hiệu quả.

Tuy nhiên, ghi nhãn là một việc làm vô nghĩa mà rất ít nhà khoa học dữ liệu sẽ làm vì bất kỳ lý do nào. Theo thứ tự của các công việc khoa học dữ liệu, việc gắn nhãn dữ liệu đào tạo đang ở gần cuối. Việc dán nhãn dữ liệu đào tạo là một việc vặt mà một nhà khoa học dữ liệu vô đạo đức có thể cố gắng lừa các sinh viên đại học trẻ không cố ý làm mà không được bồi thường.

Như tác giả Rasmus Rothe lưu ý, có những cách tiếp cận khác sẽ tạo ra dữ liệu đào tạo được gắn nhãn với chi phí không nhất thiết phải phá vỡ ngân sách khoa học dữ liệu của bạn. Sau đây là bản tóm tắt của tôi về các cách tiếp cận này:

Thay thế dữ liệu và nhãn đào tạo hiện có: Đây có thể là cách tiếp cận rẻ nhất, dễ nhất và nhanh nhất để đào tạo, nếu chúng ta giả định rằng miền của nhiệm vụ học tập mới đủ giống với miền của nhiệm vụ ban đầu. Khi thực hiện phương pháp này, các công cụ và kỹ thuật “học chuyển giao” có thể giúp bạn xác định yếu tố nào của tập dữ liệu đào tạo nguồn có thể thay thế cho miền mô hình mới.
Thu thập dữ liệu và nhãn đào tạo của riêng bạn từ các nguồn miễn phí: Web, mạng xã hội và các nguồn trực tuyến khác chứa đầy dữ liệu có thể được thu thập nếu bạn có các công cụ phù hợp. Trong thời đại máy tính nhận thức này, trên thực tế, bạn có thể thu được nhiều luồng ngôn ngữ tự nhiên, tình cảm xã hội và dữ liệu đào tạo khác từ nhiều nguồn khác nhau mà tôi đã nêu bật trong cột Dataversity này từ cuối năm ngoái. Nếu bạn có quyền truy cập vào trình thu thập dữ liệu, đây có thể là một lựa chọn tốt để có được tập dữ liệu đào tạo - cũng như các nhãn được liên kết - từ nội dung nguồn và siêu dữ liệu. Rõ ràng, bạn sẽ cần phải vật lộn với một loạt các vấn đề liên quan đến quyền sở hữu dữ liệu, chất lượng dữ liệu, ngữ nghĩa, lấy mẫu, v.v. khi cố gắng đánh giá tính phù hợp của dữ liệu được thu thập thông tin cho việc đào tạo mô hình.
Khám phá các tập dữ liệu công khai được gắn nhãn trước: Có rất nhiều dữ liệu miễn phí có sẵn trong các cộng đồng nguồn mở và thậm chí từ các nhà cung cấp thương mại khác nhau. Các nhà khoa học dữ liệu nên xác định xem dữ liệu nào trong số này có thể phù hợp ít nhất cho việc đào tạo ban đầu các mô hình của họ. Lý tưởng nhất là tập dữ liệu miễn phí nên được gắn nhãn trước theo cách hữu ích cho nhiệm vụ học tập của bạn. Nếu nó chưa được dán nhãn trước, bạn sẽ cần phải tìm ra cách hiệu quả nhất để làm như vậy.
Đào tạo lại các mô hình trên các tập dữ liệu được gắn nhãn chất lượng cao hơn dần dần: Tài nguyên dữ liệu của riêng bạn có thể không đủ để đào tạo các mô hình của bạn. Để đào tạo bootstrap, bạn có thể đào tạo trước với dữ liệu công khai miễn phí có liên quan gần như đến miền của bạn. Nếu bộ dữ liệu miễn phí bao gồm các nhãn có thể chấp nhận được thì càng tốt. Sau đó, bạn có thể đào tạo lại mô hình trên các tập dữ liệu có nhãn nhỏ hơn, chất lượng cao hơn, có liên quan trực tiếp đến nhiệm vụ học tập mà bạn đang cố gắng giải quyết. Khi bạn dần dần đào tạo lại mô hình của mình trên các bộ dữ liệu chất lượng cao hơn, những phát hiện có thể cho phép bạn tinh chỉnh kỹ thuật tính năng, các lớp và siêu tham số trong mô hình của mình. Quá trình lặp đi lặp lại này có thể đề xuất các bộ dữ liệu khác, chất lượng cao hơn mà bạn nên mua hoặc dán nhãn chất lượng cao hơn sẽ được thực hiện trong các vòng đào tạo trong tương lai để tinh chỉnh mô hình của bạn hơn nữa.
Tận dụng dịch vụ gắn nhãn nguồn cung ứng cộng đồng: Bạn có thể không có đủ nhân viên nội bộ để gắn nhãn dữ liệu đào tạo của mình. Hoặc nhân viên của bạn có thể không có sẵn hoặc quá đắt để bạn sử dụng cho việc ghi nhãn. Hoặc nguồn nhân lực nhân viên của bạn có thể không đủ để gắn nhãn một lượng lớn dữ liệu đào tạo đủ nhanh. Trong những trường hợp đó và ngân sách cho phép, bạn có thể thuê các công việc dán nhãn cho các dịch vụ thương mại như Amazon Mechanical Turk hoặc CrowdFlower. Việc thuê ngoài nhiệm vụ ghi nhãn cho các môi trường hướng tới đám đông có thể dễ mở rộng hơn nhiều so với việc thực hiện nó trong nội bộ, mặc dù bạn từ bỏ một số quyền kiểm soát đối với chất lượng và tính nhất quán của các nhãn kết quả. Về mặt tích cực, các dịch vụ này có xu hướng sử dụng các công cụ ghi nhãn chất lượng cao giúp quy trình nhanh hơn, chính xác hơn và hiệu quả hơn những gì bạn có thể quản lý bằng các quy trình nội bộ.
Nhúng các tác vụ ghi nhãn trong các ứng dụng trực tuyến: Nhận thức của con người là một nguồn lực vô hạn trên Internet, bạn đủ thông minh để tận dụng nó cho các tác vụ ghi nhãn. Ví dụ: nhúng dữ liệu đào tạo trong các thử thách CAPTCHA , thường gặp trong các kịch bản xác thực hai yếu tố, là một cách tiếp cận phổ biến để đào tạo các mô hình nhận dạng văn bản và hình ảnh. Theo cách tương tự, bạn có thể cân nhắc việc trình bày dữ liệu đào tạo trong các ứng dụng trò chơi hóa nhằm khuyến khích người dùng xác định, phân loại hoặc nhận xét về hình ảnh, văn bản, đối tượng và các thực thể được trình bày khác.
Dựa vào các mô hình của bên thứ ba đã được đào tạo trước trên dữ liệu được gắn nhãn: Nhiều nhiệm vụ học tập đã được giải quyết bằng các mô hình đủ tốt đã được đào tạo với bộ dữ liệu đủ tốt, có lẽ đã được gắn nhãn đầy đủ trước khi đào tạo tương ứng các mô hình. Các mô hình tiền định sẵn có sẵn từ nhiều nguồn khác nhau, bao gồm các nhà nghiên cứu hàn lâm, các nhà cung cấp thương mại và cộng đồng khoa học dữ liệu nguồn mở. Hãy nhớ rằng tiện ích của các mô hình này sẽ giảm nếu miền, bộ tính năng và nhiệm vụ học tập của bạn xa nguồn hơn theo thời gian.

Việc giữ cho các mô hình phù hợp với mục đích phụ thuộc rất nhiều vào sự sẵn có của dữ liệu đào tạo, nhu cầu đào tạo lại thường xuyên, sự sẵn có của các nguồn tài nguyên ghi nhãn, v.v. Rõ ràng, không có một cách tiếp cận nào phù hợp với tất cả các yêu cầu đối với việc thu thập và gắn nhãn các tập dữ liệu đào tạo.

Bài viết được dựa trên thông tin từ tác giả: James Kobielus , SiliconANGLE.

Weekly Study - Kênh tri thức Việt

Weekly Study | Kênh Tri Thức Việt

7 cách để có được nguồn dữ liệu chi phí thấp cho học máy

7 Khóa học Trí tuệ nhân tạo AI miễn phí tốt nhất năm 2025

15 Dự án Trí tuệ nhân tạo AI thú vị cho Người mới bắt đầu

Datasets for Data Science, Machine Learning, AI & Analytics

5 Vị trí Công việc trong ngành Trí tuệ nhân tạo AI phổ biến nhất hiện nay.

9 Dự án Máy học (Machine Learning) bạn sẽ được thuê