Tầm Quan Trọng Của Tiền Xử Lý Dữ Liệu Trong Machine Learning

Liu

30 يوليو

Published 03 أبريل

tam-quan-trong-cua-tien-xu-ly-du-lieu-trong-machine-learning

Rõ ràng là các nhóm ML đang phát triển các mô hình hoặc thuật toán mới mong đợi rằng hiệu suất của mô hình trên dữ liệu thử nghiệm sẽ là tối ưu.

Nhưng nhiều lần điều đó không xảy ra.

Có thể có nhiều lý do, nhưng thủ phạm hàng đầu là:

Không có đủ dữ liệu
Dữ liệu kém chất lượng
Overfitting
Underfitting
Lựa chọn thuật toán không phù hợp
Điều chỉnh siêu tham số
Độ lệch trong tập dữ liệu

Danh sách trên không phải là đầy đủ.

Trong bài viết này, chúng ta sẽ thảo luận về quy trình có thể giải quyết nhiều vấn đề nêu trên và các nhóm ML phải hết sức lưu ý khi thực hiện quy trình đó.

Đó là tiền xử lý dữ liệu.

Cộng đồng máy học chấp nhận rộng rãi rằng tiền xử lý dữ liệu là một bước quan trọng trong quy trình ML và nó có thể cải thiện hiệu suất của mô hình.

Có rất nhiều nghiên cứu và bài báo đã chỉ ra tầm quan trọng của tiền xử lý dữ liệu trong học máy, chẳng hạn như:

"Một nghiên cứu của Bezdek và cộng sự (1984) đã phát hiện ra rằng tiền xử lý dữ liệu đã cải thiện độ chính xác của một số thuật toán phân cụm lên tới 50%."

"Một nghiên cứu của Chollet (2018) đã phát hiện ra rằng các kỹ thuật tiền xử lý dữ liệu như chuẩn hóa dữ liệu và tăng cường dữ liệu có thể cải thiện hiệu suất của các mô hình học sâu."

Điều đáng nói là các kỹ thuật tiền xử lý không chỉ quan trọng để cải thiện hiệu suất của mô hình mà còn giúp mô hình trở nên dễ hiểu và mạnh mẽ hơn.

Ví dụ: xử lý các giá trị bị thiếu, loại bỏ các giá trị ngoại lệ và chia tỷ lệ dữ liệu có thể giúp ngăn chặn việc khớp quá mức, điều này có thể dẫn đến các mô hình tổng quát hóa tốt hơn cho dữ liệu mới.Trong mọi trường hợp, điều quan trọng cần lưu ý là các kỹ thuật tiền xử lý cụ thể và mức độ tiền xử lý cần thiết cho một tập dữ liệu nhất định sẽ phụ thuộc vào bản chất của dữ liệu và các yêu cầu cụ thể của thuật toán.

Cũng cần lưu ý rằng trong một số trường hợp, việc xử lý trước dữ liệu có thể không cần thiết hoặc thậm chí có thể gây hại cho hiệu suất của mô hình.

Xử lý trước dữ liệu trước khi áp dụng nó vào thuật toán máy học (ML) là một bước quan trọng trong quy trình ML.

Bước này giúp đảm bảo rằng dữ liệu ở định dạng mà thuật toán có thể hiểu được và không có lỗi hoặc giá trị ngoại lệ có thể tác động tiêu cực đến hiệu suất của mô hình.

Trong bài viết này, chúng tôi sẽ thảo luận về một số ưu điểm của việc xử lý trước dữ liệu và cung cấp một ví dụ mã về cách xử lý trước dữ liệu bằng thư viện Python phổ biến, Pandas.

Ưu điểm của tiền xử lý dữ liệu

Một trong những ưu điểm chính của dữ liệu tiền xử lý là nó giúp cải thiện độ chính xác của mô hình. Bằng cách làm sạch và định dạng dữ liệu, chúng tôi có thể đảm bảo rằng thuật toán chỉ xem xét thông tin có liên quan và nó không bị ảnh hưởng bởi bất kỳ dữ liệu không liên quan hoặc không chính xác nào.

Điều này có thể dẫn đến một mô hình chính xác và mạnh mẽ hơn.

Một ưu điểm khác của dữ liệu tiền xử lý là nó có thể giúp giảm thời gian và tài nguyên cần thiết để huấn luyện mô hình. Bằng cách loại bỏ dữ liệu không liên quan hoặc dư thừa, chúng ta có thể giảm lượng dữ liệu mà thuật toán cần xử lý, điều này có thể giảm đáng kể lượng thời gian và tài nguyên cần thiết để đào tạo mô hình.

Dữ liệu tiền xử lý cũng có thể giúp ngăn chặn quá khớp. Việc trang bị quá mức xảy ra khi một mô hình được đào tạo trên một tập dữ liệu quá cụ thể và kết quả là mô hình hoạt động tốt trên dữ liệu đào tạo nhưng lại kém trên dữ liệu mới, không nhìn thấy được.

Bằng cách xử lý trước dữ liệu và loại bỏ thông tin không liên quan hoặc dư thừa, chúng tôi có thể giúp giảm nguy cơ khớp quá mức và cải thiện khả năng khái quát hóa dữ liệu mới của mô hình.

Dữ liệu tiền xử lý cũng có thể cải thiện khả năng diễn giải của mô hình. Bằng cách làm sạch và định dạng dữ liệu, chúng ta có thể dễ dàng hiểu được mối quan hệ giữa các biến khác nhau và cách chúng ảnh hưởng đến dự đoán của mô hình. Điều này có thể giúp chúng tôi hiểu rõ hơn về hành vi của mô hình và đưa ra quyết định sáng suốt hơn về cách cải thiện nó.

Ví dụ

Bây giờ, hãy xem một ví dụ về tiền xử lý dữ liệu bằng Pandas. Chúng tôi sẽ sử dụng tập dữ liệu chứa thông tin về chất lượng rượu vang. Bộ dữ liệu có một số tính năng như rượu, clorua, mật độ, v.v. và một biến mục tiêu, chất lượng của rượu.

import pandas as pd

# Load the data
data = pd.read_csv("winequality.csv")

# Check for missing values
print(data.isnull().sum())

# Drop rows with missing values
data = data.dropna()

# Check for duplicate rows
print(data.duplicated().sum())
# Drop duplicate rows
data = data.drop_duplicates()

# Check for outliers
Q1 = data.quantile(0.25)
Q3 = data.quantile(0.75)
IQR = Q3 - Q1
data = data[
    ~((data < (Q1 - 1.5 * IQR)) | (data > (Q3 + 1.5 * IQR))).any(axis=1)
]

# Scale the data
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
data_scaled = scaler.fit_transform(data)

# Split the data into training and testing sets
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    data_scaled, data["quality"], test_size=0.2, random_state=42
)

Trong ví dụ này, trước tiên chúng tôi tải dữ liệu bằng hàm read_csv từ Pandas, sau đó kiểm tra các giá trị bị thiếu bằng hàm isnull. Sau đó, chúng tôi xóa các hàng có giá trị bị thiếu bằng hàm dropna.

Tiếp theo, chúng tôi kiểm tra các hàng trùng lặp bằng chức năng sao chép và loại bỏ chúng bằng chức năng drop_duplicates.

Sau đó, chúng tôi kiểm tra các giá trị ngoại lệ bằng phương pháp phạm vi liên vùng (IQR), phương pháp này sẽ tính toán sự khác biệt giữa phần tư thứ nhất và phần tư thứ ba. Bất kỳ điểm dữ liệu nào nằm ngoài 1,5 lần IQR đều được coi là ngoại lệ và bị xóa khỏi tập dữ liệu.

Sau khi xử lý các giá trị bị thiếu, các hàng trùng lặp và giá trị ngoại lệ, chúng tôi chia tỷ lệ dữ liệu bằng cách sử dụng hàm StandardScaler từ thư viện sklearn.preprocessing. Chia tỷ lệ dữ liệu rất quan trọng vì nó giúp đảm bảo rằng tất cả các biến đều có cùng tỷ lệ, điều cần thiết để hầu hết các thuật toán học máy hoạt động chính xác.

Cuối cùng, chúng tôi chia dữ liệu thành các tập huấn luyện và kiểm tra bằng cách sử dụng hàm train_test_split từ thư viện sklearn.model_selection. Bước này là cần thiết để đánh giá hiệu suất của mô hình trên dữ liệu không nhìn thấy.

Nếu bỏ qua bước xử lý trước dữ liệu sẽ như thế nào?

Việc không xử lý trước dữ liệu trước khi áp dụng nó vào thuật toán máy học có thể gây ra một số hậu quả tiêu cực. Một số vấn đề chính có thể phát sinh là:

Hiệu suất mô hình kém: Nếu dữ liệu không được làm sạch và định dạng chính xác, thuật toán có thể không hiểu chính xác, điều này có thể dẫn đến hiệu suất mô hình kém. Điều này có thể do các giá trị bị thiếu, giá trị ngoại lệ hoặc dữ liệu không liên quan không bị xóa khỏi tập dữ liệu.
Phù hợp quá mức: Nếu tập dữ liệu không được làm sạch và xử lý trước, nó có thể chứa thông tin không liên quan hoặc dư thừa có thể dẫn đến quá mức. Việc trang bị quá mức xảy ra khi một mô hình được đào tạo trên một tập dữ liệu quá cụ thể và kết quả là mô hình hoạt động tốt trên dữ liệu đào tạo nhưng lại kém trên dữ liệu mới, không nhìn thấy được.
Thời gian đào tạo dài hơn: Việc không xử lý trước dữ liệu có thể dẫn đến thời gian đào tạo lâu hơn, vì thuật toán có thể cần xử lý nhiều dữ liệu hơn mức cần thiết, điều này có thể tốn thời gian.
Khó hiểu mô hình: Nếu dữ liệu không được xử lý trước, có thể khó hiểu mối quan hệ giữa các biến khác nhau và cách chúng ảnh hưởng đến dự đoán của mô hình. Điều này có thể khiến việc xác định lỗi hoặc các khu vực cần cải thiện trong mô hình trở nên khó khăn hơn.
Kết quả sai lệch: Nếu dữ liệu không được xử lý trước, dữ liệu có thể chứa lỗi hoặc sai lệch có thể dẫn đến kết quả không công bằng hoặc không chính xác. Ví dụ: nếu dữ liệu chứa các giá trị bị thiếu, thì thuật toán có thể đang làm việc với mẫu dữ liệu bị sai lệch, điều này có thể dẫn đến kết luận không chính xác.

Nói chung, việc không xử lý trước dữ liệu có thể dẫn đến các mô hình kém chính xác hơn, khó diễn giải hơn và khó làm việc hơn. Tiền xử lý dữ liệu là một bước quan trọng trong quy trình học máy không nên bỏ qua.

Phần kết luận

Tóm lại, tiền xử lý dữ liệu trước khi áp dụng nó vào thuật toán máy học là một bước quan trọng trong quy trình ML. Nó giúp cải thiện độ chính xác, giảm thời gian và tài nguyên cần thiết để đào tạo mô hình, ngăn chặn quá mức và cải thiện khả năng diễn giải của mô hình.

Ví dụ mã trên trình bày cách tiền xử lý dữ liệu bằng thư viện Python phổ biến, Pandas, nhưng có nhiều thư viện khác có sẵn để tiền xử lý dữ liệu, chẳng hạn như NumPy và Scikit-learning, có thể được sử dụng tùy thuộc vào nhu cầu cụ thể của dự án của bạn.

Copyright Disclaimer:

This site does not store any files on its server. We only index and link to content provided by other sites. Please contact the content providers to delete copyright contents if any and email us, we'll remove relevant links or contents immediately.

Tuyên bố miễn trừ bản quyền:

Trang web này không lưu trữ bất kỳ tệp nào trên máy chủ của nó. Chúng tôi chỉ lập chỉ mục và liên kết đến nội dung được cung cấp bởi các trang web khác. Vui lòng liên hệ với các nhà cung cấp nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa các liên kết hoặc nội dung có liên quan ngay lập tức.