ETL Phải Làm Gì Với Machine Learning?

Liu

30 يوليو

Published 13 يناير

Bạn có thể đã nghe ETL ở đâu đấy, khi bạn đang đọc blog hoặc xem video YouTube. Vậy ETL phải làm gì với máy học?

Đối với những người chưa biết, học máy là một loại trí tuệ nhân tạo sử dụng phân tích dữ liệu để dự đoán kết quả chính xác. Chính các thuật toán học máy tạo ra các kết quả đầu ra dự đoán này bằng cách tìm hiểu dữ liệu lịch sử và các tính năng của nó.

ETL là viết tắt của Extract - Transform - Load. Đó là quá trình di chuyển dữ liệu từ nhiều nguồn để đưa nó đến một cơ sở dữ liệu tập trung.

Extract:

Bước đầu tiên của bạn là TRÍCH XUẤT dữ liệu từ nguồn ban đầu. Điều này có thể được đặt trong một cơ sở dữ liệu hoặc ứng dụng khác nói chung.

Transform:

Giống như phần lớn thời gian khi làm việc với các thuật toán học máy và dữ liệu - có một giai đoạn làm sạch nó. Trong giai đoạn CHUYỂN ĐỔI, bạn sẽ dọn sạch dữ liệu, tìm kiếm và chỉnh sửa bất kỳ dữ liệu trùng lặp nào và chuẩn bị tải dữ liệu vào cơ sở dữ liệu khác.

Load:

Khi dữ liệu của bạn ở đúng định dạng, nó có thể được tải vào cơ sở dữ liệu đích.

Tại sao ETL lại quan trọng?

Mọi phần của giai đoạn ETL đều quan trọng để cung cấp sản phẩm cuối cùng một cách chính xác. Lợi ích mà nó mang lại cho máy học là nó giúp trích xuất dữ liệu, làm sạch và phân phối dữ liệu từ Điểm A đến Điểm B.

Tuy nhiên, nó còn làm được nhiều hơn thế.

Hầu hết các công ty có rất nhiều dữ liệu nhưng chúng có xu hướng bị cô lập. Có nghĩa là chúng ở các định dạng khác nhau, không nhất quán và không giao tiếp tốt với các khía cạnh khác của doanh nghiệp. Nó về cơ bản là vô dụng.

Tất cả chúng ta đều biết dữ liệu có thể làm gì trong thời đại ngày nay - những thứ mà dữ liệu có thể tạo ra, những vấn đề mà dữ liệu đã giải quyết và cách dữ liệu có thể mang lại lợi ích cho tương lai của chúng ta. Vậy tại sao chỉ để nó ở đó để làm gì?

Khi bạn kết hợp các bộ dữ liệu khác nhau trong một kho lưu trữ tập trung, nó sẽ cung cấp:

Bối cảnh - các tổ chức có nhiều dữ liệu lịch sử hơn để cung cấp cho họ bối cảnh

Có thể diễn giải - với nhiều dữ liệu hơn, chúng tôi có chế độ xem hợp nhất và có thể diễn giải tốt hơn thông qua phân tích và báo cáo.

Năng suất - nó loại bỏ các quy trình mã hóa nặng nề, tiết kiệm cả thời gian và tiền bạc và cải thiện năng suất

Độ chính xác - tất cả các điểm trên cải thiện độ chính xác tổng thể của dữ liệu và kết quả đầu ra của nó, điều này có thể bắt buộc phải tuân thủ các quy định và tiêu chuẩn.

Các giai đoạn này làm cho quy trình làm việc của các thuật toán máy học diễn ra suôn sẻ và tạo ra kết quả đầu ra chính xác mà chúng ta có thể tin tưởng.

Tại sao không sử dụng điện toán đám mây?

Có, chúng tôi tạo và thu thập rất nhiều dữ liệu với tốc độ phát triển theo cấp số nhân đến mức chúng tôi có thể lưu trữ tất cả dữ liệu đó trong cơ sở hạ tầng kho dữ liệu truyền thống. Đó là nơi Điện toán đám mây đã mang lại lợi ích cho tất cả chúng ta.

Điện toán đám mây không chỉ cho phép chúng tôi lưu trữ khối lượng lớn dữ liệu mà còn giúp chúng tôi thực hiện các phân tích tốc độ cao. Các doanh nghiệp đã có thể mở rộng quy mô và tiếp tục đổi mới kể từ khi Điện toán đám mây gia nhập thị trường.

Tuy nhiên, dữ liệu của bạn vẫn cần được lưu trữ trong kho lưu trữ trung tâm, bất kể đó là thông qua kho dữ liệu truyền thống hay đám mây. Mục đích của ETL là chuẩn bị dữ liệu của bạn ở định dạng phù hợp nhất để sử dụng trong học máy. Nếu bạn không chuẩn bị dữ liệu của mình thông qua ETL - thì không có sự khác biệt nào giữa việc dữ liệu ở định dạng thô trong kho dữ liệu hay chỉ nằm trên đám mây.

ETL và học máy

Để một thuật toán học máy được tin cậy và hoạt động tốt, nó cần một lượng lớn dữ liệu đào tạo. Dữ liệu đào tạo này cần phải có chất lượng tốt và chứa các tính năng và đặc điểm có thể giúp giải quyết nhiệm vụ trong tầm tay.

ETL trong quá trình sản xuất các thuật toán học máy hiệu quả được tìm thấy ở cơ sở - nền tảng. Hãy xem qua các bước về tầm quan trọng của ETL đối với máy học.

Thu thập dữ liệu

Sau khi bạn thu thập dữ liệu nếu đó là thông qua nguồn bên ngoài, nội dung do người dùng tạo, cảm biến,... Bước tiếp theo sẽ là di chuyển và lưu trữ dữ liệu đó. Đây là nơi ETL xuất hiện, với các bước khác như cơ sở hạ tầng, đường ống, cấu trúc và lưu trữ dữ liệu phi cấu trúc.

Chuẩn bị dữ liệu

Khi dữ liệu đã được di chuyển và lưu trữ ở đúng vị trí, bước tiếp theo sẽ là khám phá dữ liệu và chuyển đổi dữ liệu khi cần. Việc chuyển đổi dữ liệu cũng có thể được gọi là chuẩn bị dữ liệu và bao gồm làm sạch và phát hiện lỗi.

Ghi nhãn dữ liệu

Sau khi dữ liệu đã được chuẩn bị và ở định dạng tốt - chúng ta có thể chuyển sang gắn nhãn dữ liệu cho đầu vào trong các thuật toán học máy. Dữ liệu này sẽ được sử dụng làm dữ liệu đào tạo, nơi chúng tôi sẽ tìm hiểu thêm về các tính năng của các điểm dữ liệu và thực hiện phân tích để hiểu rõ hơn.

Học dữ liệu

Đây là lúc học máy phát huy tác dụng. Với dữ liệu được gắn nhãn, chúng tôi có thể nhập dữ liệu đó vào các thuật toán học máy để chúng có thể tìm hiểu tốt hơn các tính năng của từng điểm dữ liệu và mối quan hệ giữa chúng. Trong giai đoạn này, sẽ có rất nhiều thử nghiệm và thử nghiệm A/B để hiểu những hạn chế của dữ liệu và hiệu suất của nó.

Như bạn có thể thấy, ETL là một trong những bước đầu tiên trong quy trình thuật toán máy học - đó là lý do tại sao tôi gọi nó là nền tảng. Nếu bạn bỏ lỡ ETL, bạn sẽ thấy mình phải quay đi quay lại để khắc phục các lỗi và sự cố trong dữ liệu của mình, điều này sẽ tạo ra kết quả đầu ra không chính xác sau khi được nhập vào thuật toán máy học.

ETL so với ELT

Bạn cũng có thể đã nghe nói về ELT, đây là các giai đoạn giống nhau nhưng khác nhau - Extract - Load - Transform. Mặc dù họ sử dụng cùng một từ, nhưng chúng khác nhau.

ETL biến đổi dữ liệu trên một máy chủ xử lý riêng biệt, do đó dữ liệu thô không bao giờ được chuyển vào kho dữ liệu. Quá trình biến đổi dữ liệu sang server xử lý riêng nên việc nhập dữ liệu chậm hơn.

Tuy nhiên, ELT chuyển dữ liệu thô đến kho dữ liệu và dữ liệu được chuyển đổi ở đó. Do ELT không sử dụng máy chủ xử lý riêng nên việc cung cấp dữ liệu nhập nhanh hơn.

Phần kết luận

ETL đang được sử dụng hiệu quả trong nhiều tác vụ quản lý dữ liệu, BigData, Hadoop,... Khi xem xét ETL, bạn cần xem xét:

Bạn cần trích xuất những nguồn dữ liệu nào?

Những biến đổi nào bạn cần thực hiện trên dữ liệu này?

Bạn định tải dữ liệu ở đâu?

Đây là tổng quan về những gì ETL phải làm với máy học và tôi hy vọng tôi đã trả lời câu hỏi của bạn.

Copyright Disclaimer:

This site does not store any files on its server. We only index and link to content provided by other sites. Please contact the content providers to delete copyright contents if any and email us, we'll remove relevant links or contents immediately.

Tuyên bố miễn trừ bản quyền:

Trang web này không lưu trữ bất kỳ tệp nào trên máy chủ của nó. Chúng tôi chỉ lập chỉ mục và liên kết đến nội dung được cung cấp bởi các trang web khác. Vui lòng liên hệ với các nhà cung cấp nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa các liên kết hoặc nội dung có liên quan ngay lập tức.

Tham khảo các bài viết cùng chủ đề:

1. Tài Khoản Instagram Tốt Nhất Để Theo Dõi Về Khoa Học Dữ Liệu, Học Máy & AI
2. Kết Luận Không Thể Chối Cãi: Học Máy Không Giống Như Bộ Não Của Bạn
3. Sự Thật Phũ Phàng Mà Các Nhà Khoa Học Dữ Liệu Sẽ Phải Đối Mặt Nếu Không Có Kỹ Năng Kỹ Thuật Dữ Liệu

Weekly Study | Kênh Tri Thức Việt