Khoa Học Dữ Liệu Có Phải Là Một Nghề Sắp Chết?

khoa-hoc-du-lieu-co-phai-la-mot-nghe-sap-chet


Giới thiệu

Gần đây tôi đã đọc một bài báo mô tả khoa học dữ liệu là một lĩnh vực quá bão hòa. Bài báo dự đoán rằng các kỹ sư ML sẽ thay thế các nhà khoa học dữ liệu trong những năm tới.

Theo tác giả của bài viết này, hầu hết các công ty đã làm việc để giải quyết các vấn đề kinh doanh rất giống nhau với khoa học dữ liệu. Do đó, các nhà khoa học dữ liệu sẽ không cần thiết phải đưa ra các phương pháp mới để giải quyết vấn đề. 

Tác giả tiếp tục nói rằng chỉ cần có các kỹ năng khoa học dữ liệu cơ bản để giải quyết các vấn đề trong hầu hết các tổ chức dựa trên dữ liệu. Kỹ sư máy học có thể dễ dàng thay thế vai trò này - một người có kiến ​​thức cơ bản về các thuật toán khoa học dữ liệu, đồng thời cũng có kiến ​​thức về triển khai các mô hình ML.

Tôi đã đọc nhiều bài báo tương tự trong năm qua.

Một số người trong số họ tuyên bố rằng vai trò của nhà khoa học dữ liệu sẽ được thay thế bằng các công cụ như AutoML, trong khi những người khác coi khoa học dữ liệu là một “lĩnh vực đang hấp hối” sẽ sớm bị thay thế bởi các vai trò như kỹ thuật dữ liệu và hoạt động ML.

Là người làm việc chặt chẽ với các trụ cột khác nhau của ngành dữ liệu, tôi muốn đưa ra ý kiến ​​của mình về chủ đề này và trả lời các câu hỏi theo các dòng sau:

  • Khoa học dữ liệu có phải là một nghề sắp chết và liệu có còn nhu cầu về nó trong vài năm tới không?
  • Các công cụ tự động sẽ khiến các nhà khoa học dữ liệu thất nghiệp?
  • Liệu khoa học dữ liệu đã quá bão hòa và liệu lĩnh vực này có bị thay thế bởi những vai trò mới hơn trong tương lai gần?
  • Các nhà khoa học dữ liệu có mang lại lợi nhuận cho các tổ chức không? Làm thế nào để họ gia tăng giá trị cho doanh nghiệp?

Nhà khoa học dữ liệu có cần thiết không?

Quy trình làm việc khoa học dữ liệu trong hầu hết các tổ chức khá giống nhau. Nhiều công ty thuê các nhà khoa học dữ liệu để giải quyết các vấn đề kinh doanh tương tự. Hầu hết các mô hình được xây dựng không yêu cầu bạn phải đưa ra các giải pháp mới.

Hầu hết các phương pháp bạn sẽ thực hiện để giải quyết các vấn đề dựa trên dữ liệu tại các tổ chức này rất có thể đã được sử dụng trước đây và bạn có thể lấy cảm hứng từ biển tài nguyên có sẵn trực tuyến.

Ngoài ra, sự gia tăng của các công cụ tự động như AutoML và DataRobot đã làm cho việc lập mô hình dự đoán trở nên dễ dàng hơn.

Tôi sử dụng DataRobot cho một số trường hợp sử dụng kinh doanh và đó là một công cụ tuyệt vời. Nó lặp lại nhiều giá trị và chọn các tham số tốt nhất có thể cho mô hình của bạn, để đảm bảo rằng bạn có được mô hình có độ chính xác cao nhất có thể.

Vì vậy, nếu mô hình dự đoán đã trở nên dễ dàng hơn theo thời gian, tại sao các công ty vẫn yêu cầu các nhà khoa học dữ liệu? Tại sao họ không sử dụng kết hợp các công cụ tự động và kỹ sư ML để quản lý toàn bộ quy trình khoa học dữ liệu của mình?

Đáp án đơn giản:

Thứ nhất, khoa học dữ liệu chưa bao giờ là phát minh lại bánh xe hoặc xây dựng các thuật toán cực kỳ phức tạp. 

Vai trò của một nhà khoa học dữ liệu là gia tăng giá trị cho một tổ chức bằng dữ liệu. Và ở hầu hết các công ty, chỉ một phần rất nhỏ trong số này liên quan đến việc xây dựng các thuật toán ML.

Thứ hai, sẽ luôn có những vấn đề không thể giải quyết bằng các công cụ tự động. Các công cụ này có một bộ thuật toán cố định mà bạn có thể chọn và nếu bạn tìm thấy một vấn đề cần kết hợp các phương pháp để giải quyết, bạn sẽ cần thực hiện thủ công. 

Và mặc dù điều này không xảy ra thường xuyên nhưng nó vẫn xảy ra — và với tư cách là một tổ chức, bạn cần thuê những người đủ kỹ năng để làm việc này. Ngoài ra, các công cụ như DataRobot không thể xử lý trước dữ liệu hoặc bất kỳ công việc nặng nhọc nào trước khi xây dựng mô hình. 

Cảm ứng của con người

Là một người đã tạo ra các giải pháp dựa trên dữ liệu cho các công ty mới thành lập cũng như các công ty lớn, tình huống này rất khác so với những gì nó giống như xử lý bộ dữ liệu Kaggle.

Không có vấn đề cố định. Thông thường, bạn có một bộ dữ liệu và bạn được giao một vấn đề kinh doanh. Bạn phải tìm ra những việc cần làm với dữ liệu khách hàng để tối đa hóa doanh số bán hàng cho công ty.

Điều này có nghĩa là một nhà khoa học dữ liệu không chỉ cần có các kỹ năng kỹ thuật hoặc mô hình hóa. Bạn sẽ cần kết nối dữ liệu với vấn đề đang gặp phải. Bạn cần quyết định các nguồn dữ liệu bên ngoài có thể tối ưu hóa giải pháp của mình.

Quá trình tiền xử lý dữ liệu mất nhiều thời gian và công sức, không chỉ vì nó yêu cầu kỹ năng lập trình tốt mà còn vì bạn cần thử nghiệm các biến khác nhau và mức độ liên quan của chúng với vấn đề hiện tại.

Bạn cần liên hệ độ chính xác của mô hình với một số liệu như tỷ lệ chuyển đổi.

Xây dựng mô hình không phải lúc nào cũng là một phần của quá trình này. Đôi khi, một phép tính đơn giản có thể đủ để thực hiện một nhiệm vụ như xếp hạng khách hàng. Chỉ có một số vấn đề yêu cầu bạn phải thực sự đưa ra một dự đoán.

Vào cuối ngày, giá trị mà một nhà khoa học dữ liệu cung cấp cho một tổ chức nằm ở khả năng áp dụng dữ liệu của họ vào các trường hợp sử dụng trong thế giới thực. Cho dù đó là xây dựng mô hình phân khúc, hệ thống đề xuất hay đánh giá tiềm năng của khách hàng, thì tổ chức cũng không có lợi ích thực sự trừ khi kết quả có thể hiểu được. 

Miễn là một nhà khoa học dữ liệu có thể giải quyết các vấn đề với sự trợ giúp của dữ liệu và thu hẹp khoảng cách giữa các kỹ năng kỹ thuật và kinh doanh, thì vai trò này sẽ tiếp tục tồn tại.

Copyright Disclaimer:

This site does not store any files on its server. We only index and link to content provided by other sites. Please contact the content providers to delete copyright contents if any and email us, we'll remove relevant links or contents immediately.

Tuyên bố miễn trừ bản quyền:

Trang web này không lưu trữ bất kỳ tệp nào trên máy chủ của nó. Chúng tôi chỉ lập chỉ mục và liên kết đến nội dung được cung cấp bởi các trang web khác. Vui lòng liên hệ với các nhà cung cấp nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa các liên kết hoặc nội dung có liên quan ngay lập tức.

Tham khảo các bài viết cùng chủ đề:

1. 8 Cộng Đồng Slack Khoa Học Dữ Liệu Hàng Đầu Sẽ Tham Gia Vào Năm 2023
2. Khai Thác Tiềm Năng Của Sản Phẩm Dữ Liệu Vào Năm 2023
3. 5 Cuốn Sách Khoa Học Dữ Liệu Miễn Phí Bạn Phải Đọc Năm 2023


Read Also
Đăng nhận xét