Tùy Chỉnh Chế Độ Xem
Cài đặt chỉ áp dụng cho trình duyệt này
Chế độ ánh sáng màn hình
  • Giao diện sáng
  • Giao diện tối
  • Giao diện mặc định

Sự Thật Phũ Phàng Mà Các Nhà Khoa Học Dữ Liệu Sẽ Phải Đối Mặt Nếu Không Có Kỹ Năng Kỹ Thuật Dữ Liệu

su-that-phu-phang-ma-cac-nha-khoa-hoc-du-lieu-se-phai-doi-mat-neu-khong-co-ky-nang-ky-thuat-du-lieu

Mặc dù vai trò của nhà khoa học dữ liệu vẫn đang phát triển, nhưng dữ liệu vẫn là cốt lõi của nó. Đặt kỳ vọng phù hợp cho những gì bạn sẽ làm với tư cách là một nhà khoa học dữ liệu là rất quan trọng và chắc chắn rằng việc biết các công cụ của kỹ thuật dữ liệu sẽ giúp bạn sẵn sàng cho thế giới thực.

Bạn có thể đã đọc một bài viết về sự khác biệt giữa nhà khoa học dữ liệukỹ sư dữ liệu. Tôi luôn nghĩ rằng sự khác biệt là rõ ràng. Các kỹ sư dữ liệu làm cho dữ liệu sẵn sàng để sử dụng và sau đó các nhà khoa học dữ liệu làm việc trên dữ liệu đó.

Tuy nhiên, quan điểm của tôi về sự khác biệt này đã thay đổi đáng kể sau khi tôi bắt đầu làm việc với tư cách là một nhà khoa học dữ liệu.

Mọi thứ trong khoa học dữ liệu đều bắt đầu với dữ liệu. Mô hình học máy của bạn cũng tốt như dữ liệu được cung cấp vào đó. Rác vào, rác ra! Một nhà khoa học dữ liệu không thể thực hiện một số phép thuật để tạo ra một sản phẩm có giá trị nếu không có dữ liệu phù hợp.

Dữ liệu phù hợp không phải lúc nào cũng có sẵn cho các nhà khoa học dữ liệu. Trong hầu hết các trường hợp, nhà khoa học dữ liệu sẽ có trách nhiệm chuyển đổi dữ liệu thô sang định dạng phù hợp.

Trừ khi bạn làm việc cho một công ty công nghệ lớn, có các nhóm kỹ sư dữ liệu và nhà khoa học dữ liệu riêng biệt, bạn nên có khả năng và kỹ năng để xử lý một số nhiệm vụ kỹ thuật dữ liệu. Các tác vụ này bao gồm một loạt các hoạt động và tôi sẽ giải thích chi tiết về điều này trong phần còn lại của bài viết.

Sự khác biệt là gì?

Tôi muốn nêu quan điểm của mình về mối quan hệ giữa công việc của một kỹ sư dữ liệu và một nhà khoa học dữ liệu.

Một kỹ sư dữ liệu là một kỹ sư dữ liệu. Một nhà khoa học dữ liệu nên vừa là nhà khoa học dữ liệu vừa là kỹ sư dữ liệu.

Nó có vẻ giống như một tuyên bố gây tranh cãi. Tuy nhiên, tôi muốn nhấn mạnh rằng quan điểm của tôi đã khác trước khi tôi bắt đầu làm việc với tư cách là một nhà khoa học dữ liệu. Tôi từng nghĩ kỹ sư dữ liệu và nhà khoa học dữ liệu là những thực thể riêng biệt.

Trong phần còn lại của bài viết, tôi sẽ cố gắng giải thích ý của tôi khi nói một nhà khoa học dữ liệu nên vừa là nhà khoa học dữ liệu vừa là kỹ sư dữ liệu.

Chẳng hạn, các kỹ sư dữ liệu thực hiện một tập hợp các hoạt động được gọi là ETL (trích xuất, biến đổi, tải). Nó bao gồm các quy trình thu thập dữ liệu từ một hoặc nhiều nguồn, áp dụng một số phép biến đổi, sau đó tải dữ liệu đó vào một nguồn khác.

Tôi chắc chắn sẽ không ngạc nhiên nếu một nhà khoa học dữ liệu được mong đợi sẽ thực hiện các hoạt động ETL. Khoa học dữ liệu vẫn đang phát triển và hầu hết các công ty không phân biệt rõ vai trò của kỹ sư dữ liệu và nhà khoa học dữ liệu. Do đó, một nhà khoa học dữ liệu sẽ có thể thực hiện một số nhiệm vụ kỹ thuật dữ liệu.

Nếu bạn muốn chỉ chạy các thuật toán máy học với dữ liệu sẵn sàng sử dụng, thì bạn sẽ phải đối mặt với sự thật phũ phàng ngay sau khi bắt đầu làm việc với tư cách là một nhà khoa học dữ liệu.

Bạn có thể phải viết một số thủ tục được lưu trữ trong SQL để xử lý trước dữ liệu máy khách. Cũng có thể bạn nhận được dữ liệu khách hàng từ một vài nguồn khác nhau. Công việc của bạn là trích xuất và kết hợp chúng. Sau đó, bạn sẽ cần tải chúng vào một nguồn duy nhất. Để viết các thủ tục lưu trữ hiệu quả, bạn cần có kỹ năng SQL chuyên sâu.

Phần chuyển đổi của quy trình ETL bao gồm nhiều bước thao tác và làm sạch dữ liệu. SQL có thể không phải là lựa chọn tốt nhất nếu bạn làm việc với dữ liệu quy mô lớn. Điện toán phân tán là một giải pháp thay thế tốt hơn trong những trường hợp như vậy. Do đó, một nhà khoa học dữ liệu cũng nên làm quen với điện toán phân tán.

Người bạn tốt nhất của bạn trong điện toán phân tán có thể là Spark. Nó là một công cụ phân tích được sử dụng để xử lý dữ liệu quy mô lớn. Chúng tôi có thể phân phối cả dữ liệu và tính toán trên các cụm để đạt được mức tăng hiệu suất đáng kể.

Nếu bạn đã quen thuộc với Python và SQL, bạn sẽ không gặp khó khăn khi làm quen với Spark. Bạn có thể sử dụng các tính năng của Spark với PySpark, đây là API Python dành cho Spark.

Khi làm việc với các cụm, môi trường tối ưu là đám mây. Có nhiều nhà cung cấp đám mây khác nhau, nhưng AWS, Azure và Google Cloud Platform (GCP) dẫn đầu.

Mặc dù mã PySpark giống nhau đối với tất cả các nhà cung cấp đám mây, nhưng cách bạn thiết lập môi trường và tạo các cụm sẽ thay đổi giữa chúng. Chúng cho phép tạo các cụm bằng cả tập lệnh hoặc giao diện người dùng.

Điện toán phân tán trên các cụm là một thế giới hoàn toàn khác. Nó không giống như làm phân tích trên máy tính của bạn. Nó có động lực rất khác nhau. Đánh giá hiệu suất của cụm và chọn số lượng công nhân tối ưu cho cụm sẽ là mối quan tâm chính của bạn.

Phần kết luận

Tóm lại, xử lý dữ liệu sẽ là một phần quan trọng trong công việc của bạn với tư cách là một nhà khoa học dữ liệu. Nói một cách đáng kể, ý tôi là hơn 80% thời gian của bạn. Xử lý dữ liệu không chỉ là làm sạch và thao tác dữ liệu. Nó cũng liên quan đến các hoạt động ETL được cho là công việc của một kỹ sư dữ liệu.

Tôi thực sự khuyên bạn nên làm quen với các khái niệm và công cụ ETL. Sẽ rất hữu ích nếu bạn có cơ hội thực hành chúng.

Sẽ là một khá giả định ngây thơ khi nghĩ rằng bạn sẽ chỉ làm việc với các thuật toán học máy với tư cách là một nhà khoa học dữ liệu. Đó cũng là một nhiệm vụ quan trọng, nhưng nó sẽ chỉ tiêu tốn một phần nhỏ thời gian của bạn.

Copyright Disclaimer:

This site does not store any files on its server. We only index and link to content provided by other sites. Please contact the content providers to delete copyright contents if any and email us, we'll remove relevant links or contents immediately.

Tuyên bố miễn trừ bản quyền:

Trang web này không lưu trữ bất kỳ tệp nào trên máy chủ của nó. Chúng tôi chỉ lập chỉ mục và liên kết đến nội dung được cung cấp bởi các trang web khác. Vui lòng liên hệ với các nhà cung cấp nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa các liên kết hoặc nội dung có liên quan ngay lập tức.

Tham khảo các bài viết cùng chủ đề:

1. Những Cuốn Sách Cần Thiết Để Bạn Trở Thành Một Kỹ Sư Dữ Liệu
2. Cách trở thành nhà khoa học dữ liệu tự do thành công
3. 10 Lầm Tưởng Về Khoa Học Dữ Liệu Bị Lật Tẩy
4. Khóa Học Cơ Sở Dữ Liệu Và SQL Miễn Phí

Đọc thêm
إرسال تعليق