Trong Thế Giới Dữ Liệu Chúng Tôi Tin Tưởng Trung Tâm Dữ Liệu AI

Liu

30 يوليو

Published 15 مارس

trong-gioi-du-lieu-chung-toi-tin-tuong-trung-tam-du-lieu-ai

Vào năm 2012, các tác giả Björn Bloching, Lars Luck và Thomas Ramge đã xuất bản cuốn Dữ liệu chúng ta tin tưởng: Dữ liệu khách hàng đang cách mạng hóa nền kinh tế của chúng ta như thế nào. Cuốn sách đi vào chi tiết về việc có bao nhiêu công ty có tất cả thông tin họ cần trong tầm tay. Các công ty không còn cần phải đưa ra quyết định dựa trên trực giác và thị trường nữa, họ có thể sử dụng các luồng dữ liệu để giúp họ hiểu rõ hơn về tương lai và bước đi tiếp theo của họ.

Khi thế giới dữ liệu, đặc biệt là Trí tuệ nhân tạo tiếp tục phát triển - ngày càng có nhiều người hoài nghi. Một số người có thể nói rằng việc sử dụng dữ liệu và các tính năng tự trị đã cải thiện cuộc sống hàng ngày của chúng ta. Trong khi một số người cảm thấy mệt mỏi về cách dữ liệu của họ đang được sử dụng và sự phát triển của AI có thể gây ra những tác động nghiêm trọng như thế nào đối với con người chúng ta.

Mặc dù AI đã được chứng minh là tạo ra một số kết quả ấn tượng, nhưng nó cũng đã thất bại - ngay cả những công ty siêu quy mô lớn như Google và Amazon. Vào năm 2019, phần mềm Rekognition của Amazon do ACLU của Massachusetts thực hiện bằng cách sử dụng tính năng nhận dạng khuôn mặt đã khớp sai 27 vận động viên chuyên nghiệp với ảnh chụp các nhà vô địch Super Bowl.

Những thất bại này có thể có tác động lớn đến sự phát triển liên tục của AI. Mọi người sẽ tự nhiên mất lòng tin và muốn tránh xa nó. Lỗi không đến từ AI nói chung, nó đến từ dữ liệu được nhập và sử dụng trong các mô hình này để tạo ra các kết quả đầu ra sai này.

Đây là lúc chúng ta cần tin tưởng dữ liệu và triển khai AI làm trung tâm dữ liệu.

Data-Centric AI là gì?

Nếu bạn đã từng làm việc trong ngành công nghệ hoặc với các mô hình máy học, bạn sẽ thấy mọi người tập trung vào việc xây dựng phần mềm, mô hình, v.v. Tuy nhiên, đây có thể là cái chết của phần mềm này nếu đầu vào chính xác tạo ra đầu ra không chính xác.

Ví dụ, chẳng ích gì khi dành nhiều năm để cố gắng chế tạo một chiếc ô tô trông đẹp mắt, có động cơ điên rồ và có tất cả các bộ phận công nghệ mới bên trong nếu nhiên liệu bạn cung cấp vào lúc này có chất lượng kém khiến bạn thậm chí không thể khởi động. xe của bạn hãy để một mình hoàn thành điểm đến của bạn.

Vấn đề là gì? Rác vào, rác ra.

AI cũng vậy. Việc dành hàng giờ để xây dựng một mô hình có ích lợi gì khi một khi bạn đưa dữ liệu vào bên trong, nó sẽ tạo ra lỗi?

Data-Centric AI là một hệ thống chỉ tập trung vào dữ liệu, thay vì mã. Tôi không nói rằng nó không sử dụng mã, tất nhiên là có. Nó thiết kế một cách có hệ thống dữ liệu được sử dụng để xây dựng các hệ thống AI và kết hợp dữ liệu đó với các phần tử có giá trị của mã.

Chúng ta cần loại dữ liệu nào?

Để các mô hình AI trở nên đáng tin cậy và tạo ra kết quả đầu ra chính xác, nó cần dữ liệu sạch và dữ liệu đa dạng. Nếu không có hai yếu tố dữ liệu này, bạn có thể sẽ không thể đưa ra các quy trình ra quyết định chính xác trong tương lai. Chất lượng > Số lượng.

Nếu dữ liệu của bạn không sạch hoặc không đủ đa dạng, nó sẽ tự nhiên làm giảm hiệu suất và tạo ra lỗi trong đầu ra của bạn. Dữ liệu không rõ ràng cũng như không đa dạng sẽ khiến mô hình bối rối vì mô hình phải làm việc chăm chỉ hơn gấp 10 lần để hiểu dữ liệu. Vậy những công cụ nào chúng ta có thể sử dụng để đảm bảo chúng ta có dữ liệu đa dạng, rõ ràng?

Data Labelling

Data Labelling là một yếu tố quan trọng để biến dữ liệu không sạch thành dữ liệu sạch và để đạt được điều này, bạn có thể sử dụng các công cụ ghi nhãn dữ liệu. Các công cụ ghi nhãn có thể nhanh chóng chú thích hình ảnh và các dạng dữ liệu khác, chẳng hạn như nhận dạng thực thể được đặt tên (NER) để phân loại tài liệu.

Các công cụ ghi nhãn dữ liệu giúp các Nhà khoa học dữ liệu, Kỹ sư và các chuyên gia khác làm việc với dữ liệu để cải thiện độ chính xác và hiệu suất tổng thể của mô hình của họ

Công cụ ghi nhãn có thể và nên được sử dụng liên quan đến bản thể luận, được mô tả dưới đây.

Ontology

Có một bản thể luận. Bản thể luận là một đặc điểm kỹ thuật về ý nghĩa của các ký hiệu trong một hệ thống thông tin. Nó là một danh mục ảo các định nghĩa, đóng vai trò như từ điển của bạn. Bản thể luận hoạt động giống như một điểm tham chiếu hoặc một kho lưu trữ phong phú trong quá trình ghi nhãn dữ liệu.

Human-in-the-loop

Như đã nói, việc triển khai một con người trong quy trình của bạn có thể giúp bạn đạt được dữ liệu sạch. Nhìn chung, AI đang cố gắng bắt chước trí thông minh của con người vào máy tính, vậy cách nào tốt hơn để cải thiện quy trình này hơn là đưa con người vào quy trình?

Human-in-the-loop sử dụng kiến thức chuyên môn của con người để đào tạo AI giỏi bằng cách để họ tham gia xây dựng hệ thống, tinh chỉnh và thử nghiệm mô hình. Điều này sẽ giúp đảm bảo rằng các công cụ ghi nhãn dữ liệu đã hoạt động hiệu quả, rằng kết quả đầu ra được cải thiện về độ chính xác và việc ra quyết định về tổng thể sẽ tốt hơn.

Quản lý chất lượng dữ liệu

Đây có phải là một chi phí bổ sung? Đúng. Nó sẽ giúp bạn trong thời gian dài? Tất nhiên rồi. Nếu bạn định làm một việc gì đó, tốt nhất là nên làm ngay từ đầu, sau đó phải xem lại vài lần để làm cho đúng. Mặc dù ban đầu bạn có thể coi đó là một chi phí bổ sung, nhưng theo thời gian, việc quản lý chất lượng có thể giúp bạn tiết kiệm rất nhiều thời gian và tiền bạc.

Thông qua quản lý chất lượng dữ liệu, bạn sẽ có thể xác định các lỗi trong dữ liệu và giải quyết các lỗi này sớm hơn trong quy trình trước khi gây ra quá nhiều thiệt hại.

Tăng cường dữ liệu

Tăng cường dữ liệu là một tập hợp các kỹ thuật được sử dụng để tăng giả tạo lượng dữ liệu có sẵn bằng cách tạo các điểm dữ liệu mới từ dữ liệu hiện có. Điều này được thực hiện bằng cách thực hiện các thay đổi nhỏ đối với các điểm dữ liệu hiện có để tạo các điểm dữ liệu mới.

Bằng cách tạo các biến thể này trong dữ liệu hiện có và tạo các điểm dữ liệu mới, mô hình trở nên mạnh mẽ hơn và có thể học cách đưa ra dự đoán phù hợp với thế giới thực. Bạn càng có nhiều điểm dữ liệu, dữ liệu của bạn càng đa dạng - mô hình của bạn càng có thể học hỏi nhiều hơn để cải thiện độ chính xác và hiệu suất tổng thể của nó.

Phần kết luận

Tất cả những điều trên là những công cụ tốt giúp chúng ta chống lại những thách thức hiện tại mà thế giới đang phải đối mặt liên quan đến trí tuệ nhân tạo. Đây là một sự thay đổi mô hình và các công ty đang tham gia hàng ngày. Các chuyên gia công nghệ biết cách xây dựng một mô hình và những gì AI có thể làm, nhưng trọng tâm bây giờ là cách chúng tôi có thể cải thiện mô hình đó và chúng tôi hiểu rằng mô hình đó dựa trên dữ liệu chúng tôi sử dụng.

Copyright Disclaimer:

This site does not store any files on its server. We only index and link to content provided by other sites. Please contact the content providers to delete copyright contents if any and email us, we'll remove relevant links or contents immediately.

Tuyên bố miễn trừ bản quyền:

Trang web này không lưu trữ bất kỳ tệp nào trên máy chủ của nó. Chúng tôi chỉ lập chỉ mục và liên kết đến nội dung được cung cấp bởi các trang web khác. Vui lòng liên hệ với các nhà cung cấp nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa các liên kết hoặc nội dung có liên quan ngay lập tức.