Kỹ Thuật Giảm Kích Thước Trong Khoa Học Dữ Liệu

Liu

30 يوليو

Published 23 فبراير

Giới thiệu

Phân tích dữ liệu với một danh sách các biến trong học máy đòi hỏi rất nhiều tài nguyên và tính toán, chưa kể đến lao động thủ công đi kèm với nó. Đây chính xác là nơi các kỹ thuật giảm kích thước xuất hiện trong bức tranh. Kỹ thuật giảm kích thước là một quá trình chuyển đổi tập dữ liệu chiều cao thành tập dữ liệu chiều thấp hơn mà không làm mất các thuộc tính có giá trị của dữ liệu gốc. Các kỹ thuật giảm kích thước này về cơ bản là một phần của bước tiền xử lý dữ liệu, được thực hiện trước khi đào tạo mô hình.

Giảm kích thước trong Khoa học dữ liệu là gì?

Hãy tưởng tượng bạn đang đào tạo một mô hình có thể dự đoán thời tiết ngày hôm sau dựa trên các điều kiện khí hậu khác nhau của ngày hôm nay. Các điều kiện ngày nay có thể dựa trên ánh sáng mặt trời, độ ẩm, lạnh, nhiệt độ và hàng triệu đặc điểm môi trường như vậy, quá phức tạp để phân tích. Do đó, chúng ta có thể giảm bớt số lượng các tính năng bằng cách quan sát những tính năng nào trong số chúng có mối tương quan chặt chẽ với nhau và ghép chúng thành một.

ky-thuat-giam-kich-thuoc-trong-khoa-hoc-du-lieu-1

Ở đây, chúng ta có thể biến độ ẩm và lượng mưa thành một đặc điểm phụ thuộc duy nhất vì chúng ta biết chúng có mối tương quan chặt chẽ với nhau. Đó là nó! Đây là cách kỹ thuật giảm kích thước được sử dụng để nén dữ liệu phức tạp thành dạng đơn giản hơn mà không làm mất đi bản chất của dữ liệu. Ngoài ra, các chuyên gia về khoa học dữ liệu và AI hiện cũng đang sử dụng các giải pháp khoa học dữ liệu để thúc đẩy ROI của doanh nghiệp. Trực quan hóa dữ liệu, khai thác dữ liệu, phân tích dự đoán và các dịch vụ phân tích dữ liệu khác của Datatobiz đang thay đổi cuộc chơi kinh doanh.

Tại sao giảm kích thước cần thiết?

kỹ thuật học máy và học sâu được thực hiện bằng cách nhập một lượng lớn dữ liệu để tìm hiểu về các biến động, xu hướng và mẫu. Thật không may, dữ liệu khổng lồ như vậy bao gồm nhiều tính năng, thường dẫn đến lời nguyền về chiều.

Hơn nữa, sự thưa thớt là một sự xuất hiện phổ biến trong các bộ dữ liệu lớn. Độ thưa thớt đề cập đến việc có các tính năng không đáng kể hoặc không có giá trị và nếu nó được đưa vào một mô hình đào tạo, thì nó sẽ hoạt động kém khi thử nghiệm. Ngoài ra, các tính năng dư thừa như vậy gây ra vấn đề trong việc phân cụm các tính năng tương tự của dữ liệu.

Do đó, để chống lại lời nguyền của kích thước, các kỹ thuật giảm kích thước ra đời. Các câu trả lời cho câu hỏi tại sao giảm kích thước lại hữu ích là:

Mô hình hoạt động chính xác hơn vì dữ liệu dư thừa sẽ bị loại bỏ, điều này sẽ dẫn đến ít chỗ cho giả định hơn.
Sử dụng ít tài nguyên tính toán hơn, điều này sẽ tiết kiệm thời gian và ngân sách tài chính
Một số kỹ thuật học máy/Học sâu không hoạt động trên dữ liệu nhiều chiều, một vấn đề sẽ được giải quyết khi kích thước giảm.
Dữ liệu sạch và không thưa thớt sẽ tạo ra nhiều kết quả có ý nghĩa thống kê hơn vì việc phân cụm dữ liệu đó dễ dàng và chính xác hơn.

Bây giờ hãy cho chúng tôi hiểu thuật toán nào được sử dụng để giảm kích thước dữ liệu bằng các ví dụ.

Kỹ thuật giảm kích thước là gì?

Các kỹ thuật giảm kích thước được chia thành hai loại, cụ thể là,

Phương pháp tuyến tính
Phương pháp phi tuyến tính

1. Phương pháp tuyến tính

PCA

Phân tích thành phần chính (PCA) là một trong những kỹ thuật DR được sử dụng trong khoa học dữ liệu. Hãy xem xét một tập hợp các biến "p" có tương quan với nhau. Kỹ thuật này làm giảm tập hợp các biến "p" này thành một số lượng nhỏ hơn các biến không tương quan, thường được ký hiệu là "k", trong đó ( k<p ). Các biến "k" này được gọi là các thành phần chính và biến thể của chúng tương tự như tập dữ liệu gốc.

PCA được sử dụng để tìm ra mối tương quan giữa các tính năng mà nó kết hợp với nhau. Do đó, tập dữ liệu kết quả có ít tính năng hơn tương quan tuyến tính với nhau. Bằng cách này, mô hình thực hiện việc giảm các tính năng tương quan đồng thời tính toán phương sai tối đa trong tập dữ liệu gốc. Sau khi tìm thấy các hướng của phương sai này, nó hướng chúng vào một không gian có chiều nhỏ hơn, tạo ra các thành phần mới gọi là thành phần chính.

Các thành phần này là khá đủ để đại diện cho các tính năng ban đầu. Do đó, nó làm giảm lỗi tái tạo trong khi tìm ra các thành phần tối ưu. Bằng cách này, dữ liệu được giảm bớt, giúp các thuật toán học máy hoạt động tốt hơn và nhanh hơn. PrepAI là một trong những ví dụ hoàn hảo về AI đã sử dụng kỹ thuật PCA trong phần phụ trợ để tạo câu hỏi từ một văn bản thô nhất định một cách thông minh.

Phân tích nhân tố

Kỹ thuật này là một phần mở rộng của Phân tích thành phần chính (PCA). Trọng tâm chính của kỹ thuật này không chỉ là giảm tập dữ liệu. Nó tập trung nhiều hơn vào việc tìm ra các biến tiềm ẩn, là kết quả của các biến khác từ tập dữ liệu. Chúng không được đo trực tiếp trong một biến duy nhất.

Các biến tiềm ẩn còn được gọi là các yếu tố. Do đó, quá trình xây dựng một mô hình đo lường các biến tiềm ẩn này được gọi là phân tích nhân tố. Nó không chỉ giúp giảm các biến mà còn giúp phân biệt các cụm phản hồi. Ví dụ, bạn phải xây dựng một mô hình dự đoán sự hài lòng của khách hàng. Bạn sẽ chuẩn bị một bảng câu hỏi có các câu hỏi như,

"Bạn có hài lòng với sản phẩm của chúng tôi không?"

"Bạn có thể chia sẻ kinh nghiệm của bạn với người quen của bạn?"

Nếu bạn muốn tạo một biến để xếp hạng mức độ hài lòng của khách hàng, thì bạn sẽ tính trung bình các câu trả lời hoặc tạo một biến phụ thuộc vào yếu tố. Điều này có thể được thực hiện bằng cách sử dụng PCA và giữ yếu tố đầu tiên làm thành phần chính.

Phân tích phân biệt tuyến tính

Đây là một kỹ thuật giảm kích thước được sử dụng chủ yếu cho các vấn đề phân loại được giám sát. Hồi quy logistic không thành công trong đa phân loại. Do đó, LDA ra đời để khắc phục nhược điểm đó. Nó phân biệt hiệu quả giữa các biến đào tạo trong các lớp tương ứng của chúng. Hơn nữa, nó khác với PCA ở chỗ nó tính toán sự kết hợp tuyến tính giữa các đặc trưng đầu vào để tối ưu hóa quá trình phân biệt các lớp khác nhau.

Đây là một ví dụ để giúp bạn hiểu LDA:

Xét một tập hợp các quả bóng thuộc hai lớp: Bóng đỏ và Bóng xanh. Hãy tưởng tượng chúng được vẽ ngẫu nhiên trên mặt phẳng 2D, sao cho chúng không thể được tách thành hai lớp riêng biệt bằng một đường thẳng. Trong những trường hợp như vậy, LDA được sử dụng, có thể chuyển đổi biểu đồ 2D thành biểu đồ 1D, do đó tối đa hóa sự khác biệt giữa các loại bóng. Các quả bóng được chiếu lên một trục mới để phân tách chúng thành các lớp theo cách tốt nhất có thể. Trục mới được hình thành bằng hai bước:

Bằng cách tối đa hóa khoảng cách giữa các phương tiện của hai lớp
Bằng cách giảm thiểu sự thay đổi trong mỗi lớp riêng lẻ

SVD

Xem xét dữ liệu có cột "m". Phương pháp phân tách giá trị số ít bị cắt bớt (TSVD) là một phương pháp chiếu trong đó các cột (đặc trưng) "m" này được chiếu vào một không gian con có các cột "m" hoặc nhỏ hơn mà không làm mất các đặc tính của dữ liệu.

Một ví dụ mà TSVD có thể được sử dụng là tập dữ liệu chứa các bài đánh giá về các sản phẩm thương mại điện tử. Cột đánh giá hầu hết được để trống, điều này dẫn đến các giá trị null trong dữ liệu và TSVD đã xử lý cột đó một cách hiệu quả. Phương pháp này có thể được thực hiện dễ dàng bằng hàm TruncatedSVD().

Trong khi PCA sử dụng dữ liệu dày đặc, SVD sử dụng dữ liệu thưa thớt. Ngoài ra, ma trận hiệp phương sai được sử dụng để phân tích thừa số PCA, trong khi TSVD được thực hiện trên ma trận dữ liệu.

2. Phương pháp phi tuyến tính

Nhân PCA

PCA khá hiệu quả đối với các bộ dữ liệu có thể phân tách tuyến tính. Tuy nhiên, nếu chúng tôi áp dụng nó cho các bộ dữ liệu phi tuyến tính, kích thước giảm của bộ dữ liệu có thể không chính xác. Do đó, đây là lúc Kernel PCA trở nên hiệu quả.

Tập dữ liệu trải qua một chức năng nhân và tạm thời được chiếu vào một không gian đặc trưng có chiều cao hơn. Ở đây, các lớp được chuyển đổi và có thể được phân tách tuyến tính và phân biệt với sự trợ giúp của một đường thẳng. Hơn nữa, một PCA chung được áp dụng và dữ liệu được chiếu trở lại vào một không gian chiều giảm. Tiến hành phương pháp giảm kích thước tuyến tính này trong không gian đó sẽ tốt như tiến hành giảm kích thước phi tuyến tính trong không gian thực tế.

Kernel PCA hoạt động trên 3 siêu tham số quan trọng: số lượng thành phần chúng tôi muốn giữ lại, loại kernel chúng tôi muốn sử dụng và hệ số kernel. Có nhiều loại nhân khác nhau, cụ thể là "tuyến tính", "poly", "rbf", "sigmoid", "cosine". Radial Basis Function kernel (RBF) được sử dụng rộng rãi trong số đó.

T-Distributed Stochastic Neighbor Embedding

Đây là một phương pháp giảm kích thước phi tuyến tính chủ yếu được áp dụng cho trực quan hóa dữ liệu, xử lý hình ảnh và NLP. T-SNE có một tham số linh hoạt, cụ thể là 'sự bối rối'. Nó giới thiệu cách duy trì sự tham gia giữa các khía cạnh toàn cầu và cục bộ của bộ dữ liệu. Nó đưa ra ước tính về số lượng hàng xóm gần của từng điểm dữ liệu. Ngoài ra, nó chuyển đổi những điểm tương đồng giữa các điểm dữ liệu khác nhau thành xác suất chung và phân kỳ Kullback-Leibler được giảm thiểu giữa xác suất chung của bộ dữ liệu nhúng chiều thấp và chiều cao. Hơn nữa, T-SNE còn đưa ra một hàm chi phí không lồi về bản chất và với các cách khởi tạo khác nhau, người ta có thể nhận được các kết quả khác nhau.

T-SNE chỉ duy trì khoảng cách theo cặp tối thiểu hoặc điểm tương đồng cục bộ, trong khi PCA duy trì khoảng cách theo cặp tối đa để tối đa hóa phương sai. Ngoài ra, PCA hoặc TSVD rất nên giảm kích thước của các tính năng trong tập dữ liệu để vượt quá 50 vì T-SNE không thành công trong trường hợp này.

Chia tỷ lệ đa chiều

Chia tỷ lệ đề cập đến việc làm cho dữ liệu đơn giản hơn bằng cách giảm dữ liệu xuống thứ nguyên thấp hơn. Đây là một kỹ thuật giảm kích thước phi tuyến tính, thể hiện khoảng cách hoặc sự khác biệt giữa các bộ tính năng theo cách trực quan. Các tính năng có khoảng cách ngắn hơn được coi là tương tự nhau, trong khi các tính năng có khoảng cách lớn hơn là không giống nhau.

MDS giảm kích thước dữ liệu và giải thích sự khác biệt trong dữ liệu. Ngoài ra, dữ liệu không mất đi bản chất sau khi thu nhỏ lại; hai điểm dữ liệu sẽ luôn ở cùng một khoảng cách bất kể kích thước của chúng. Kỹ thuật này chỉ có thể được áp dụng cho các ma trận có dữ liệu quan hệ, chẳng hạn như tương quan, khoảng cách, v.v. Hãy hiểu điều này với sự trợ giúp của một ví dụ.

Hãy xem xét bạn phải tạo một bản đồ, nơi bạn được cung cấp một danh sách các địa điểm của thành phố. Bản đồ cũng sẽ hiển thị khoảng cách giữa hai thành phố. Phương pháp khả thi duy nhất để làm điều này là đo khoảng cách giữa các thành phố với sự trợ giúp của thước dây mét. Nhưng nếu bạn chỉ được cung cấp khoảng cách giữa các thành phố và những điểm tương đồng của chúng thay vì vị trí của thành phố thì sao? Bạn vẫn có thể vẽ bản đồ bằng cách sử dụng các giả định logic và kiến thức rộng về hình học.

Ở đây, về cơ bản, bạn đang áp dụng MDS để tạo bản đồ. MDS quan sát sự khác biệt trong tập dữ liệu và tạo bản đồ tính toán khoảng cách ban đầu và cho bạn biết vị trí của chúng.

Ánh xạ đẳng cự (Isomap)

Đây là một kỹ thuật giảm kích thước phi tuyến tính, về cơ bản là một phần mở rộng của MDS hoặc Kernel PCA. Nó làm giảm kích thước bằng cách kết nối mọi đối tượng địa lý trên cơ sở khoảng cách cong hoặc trắc địa giữa các đối tượng lân cận gần nhất của chúng.

Isomap được bắt đầu bằng cách xây dựng một mạng lưới khu phố. Sau đó, nó sử dụng khoảng cách đồ thị để ước tính khoảng cách trắc địa giữa mọi cặp điểm. Cuối cùng, tập dữ liệu được nhúng vào một chiều thấp hơn bằng cách phân tách các giá trị riêng của ma trận trắc địa. Có thể chỉ định số lượng láng giềng cần xem xét cho mỗi điểm dữ liệu bằng cách sử dụng siêu tham số n_neighbours của lớp Isomap(). Lớp này thực hiện thuật toán Isomap.

Nhu cầu giảm kích thước trong khai thác dữ liệu là gì?

Khai thác dữ liệu là quá trình quan sát các mẫu, mối quan hệ và sự bất thường ẩn trong các tập dữ liệu lớn để ước tính kết quả. Các bộ dữ liệu lớn có nhiều biến tăng theo cấp số nhân. Do đó, việc tìm kiếm và phân tích các mẫu trong chúng trong quá trình khai thác dữ liệu cần rất nhiều tài nguyên và thời gian tính toán. Do đó, kỹ thuật giảm kích thước có thể được áp dụng trong khi khai thác dữ liệu để hạn chế các tính năng dữ liệu đó bằng cách ghép chúng lại và vẫn đủ để đại diện cho tập dữ liệu gốc.

Ưu điểm và nhược điểm của giảm kích thước

Thuận lợi

Không gian lưu trữ và thời gian xử lý ít hơn
Đa cộng tuyến của các biến phụ thuộc bị loại bỏ
Giảm cơ hội trang bị quá mức cho mô hình
Trực quan hóa dữ liệu trở nên dễ dàng hơn

Nhược điểm

Một số lượng dữ liệu bị mất.
PCA không thể được áp dụng khi dữ liệu không thể được xác định thông qua giá trị trung bình và hiệp phương sai.
Không phải mọi biến cần phải tương quan tuyến tính, điều mà PCA có xu hướng tìm thấy.
Dữ liệu được gắn nhãn là cần thiết để LDA hoạt động, không có sẵn trong một số trường hợp.

Phần kết luận

Một lượng lớn dữ liệu được tạo ra mỗi giây. Vì vậy, việc phân tích chúng với việc sử dụng tối ưu các nguồn lực và độ chính xác cũng quan trọng không kém. Các kỹ thuật Giảm kích thước giúp xử lý trước dữ liệu một cách chính xác và hiệu quả—không có gì lạ khi tại sao nó được coi là một lợi ích cho các nhà khoa học dữ liệu.

Copyright Disclaimer:

This site does not store any files on its server. We only index and link to content provided by other sites. Please contact the content providers to delete copyright contents if any and email us, we'll remove relevant links or contents immediately.

Tuyên bố miễn trừ bản quyền:

Trang web này không lưu trữ bất kỳ tệp nào trên máy chủ của nó. Chúng tôi chỉ lập chỉ mục và liên kết đến nội dung được cung cấp bởi các trang web khác. Vui lòng liên hệ với các nhà cung cấp nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa các liên kết hoặc nội dung có liên quan ngay lập tức.

Tham khảo các bài viết cùng chủ đề:

1. Khoa Học Dữ Liệu Có Phải Là Một Nghề Sắp Chết?
2. 8 Cộng Đồng Slack Khoa Học Dữ Liệu Hàng Đầu Sẽ Tham Gia Vào Năm 2023
3. Khai Thác Tiềm Năng Của Sản Phẩm Dữ Liệu Vào Năm 2023
4. Kiểm Tra Giả Thuyết Trong Khoa Học Dữ Liệu

5. Bạn Cần Bao Nhiêu Toán Học Trong Khoa Học Dữ Liệu?

Weekly Study | Kênh Tri Thức Việt