Dùng kiến thức phổ thông để hiểu về Trí tuệ nhân tạo AI và Học máy
( Weekly Study - IoT/AI ) Bài viết này chúng tôi sẽ tiếp tục bài viết " Hiểu về Học máy và Trí tuệ nhân tạo AI theo cách hiểu phổ thông nhất ", tại đây chúng tôi sẽ nói về các mối quan hệ toán học liên quan.
Lập mô hình như một công cụ ước lượng hàm
Bây giờ chúng ta có thể giải quyết vấn đề này dựa trên toán học cơ bản.
Quá trình mô hình hóa mà chúng tôi đã giới thiệu trong phần trước liên quan đến việc tìm kiếm một hàm đại diện của dữ liệu (ví dụ: một hàm dự đoán giá nhà ở). Chức năng này có thể được biểu diễn như một phương trình để dự đoán dữ liệu chưa biết. Quá trình điều chỉnh mô hình bao gồm việc cho phép thuật toán tìm hiểu mối quan hệ giữa các biến dự báo (tính năng) và kết quả.
Khi thuật toán xác định mối quan hệ chức năng giữa đối tượng địa lý và biến kết quả, nó có thể dự đoán giá trị của biến kết quả đối với đối tượng địa lý không nhìn thấy. Do đó, thuật toán phù hợp nhất có các tham số mô tả chính xác nhất vấn đề và cũng có thể dự đoán các điểm dữ liệu vô hình. Tất nhiên, sức mạnh của mô hình này nằm ở việc dự đoán các dữ liệu không nhìn thấy được.
Mô hình hóa là một quá trình lặp đi lặp lại. Ban đầu, nó liên quan đến việc sử dụng các cơ chế như biểu đồ phân tán để khám phá các xu hướng và mối quan hệ giữa các biến. Một số mối quan hệ có thể dự đoán được; ví dụ: tuổi tác và kinh nghiệm có liên quan với nhau.
Hồi quy tuyến tính
Trong trường hợp đơn giản nhất, hàm là một biểu thức tuyến tính được biểu diễn bằng một mối quan hệ tuyến tính
Mối quan hệ tuyến tính là gì?
Mối quan hệ tuyến tính có nghĩa là một đường thẳng có thể được sử dụng để biểu diễn mối quan hệ giữa hai tập hợp các biến. Mối quan hệ tuyến tính có thể biểu diễn nhiều hiện tượng. Ví dụ, lực liên quan đến việc kéo căng một sợi dây cao su là tuyến tính, bởi vì lực càng lớn thì tỷ lệ kéo căng cao su càng lớn. Chúng ta có thể biểu diễn mối quan hệ này dưới dạng một phương trình tuyến tính có dạng sau:
Trong đó "m" là độ dốc của đường thẳng, "x" là bất kỳ điểm nào (giá trị đầu vào hoặc x) trên đường và "c" là giao điểm của đường thẳng và trục y. Trong mối quan hệ tuyến tính, bất kỳ thay đổi nhất định nào trong biến độc lập sẽ dẫn đến thay đổi tương ứng trong biến phụ thuộc. Hồi quy tuyến tính được sử dụng để dự đoán nhiều vấn đề, chẳng hạn như dự báo bán hàng và phân tích hành vi khách hàng.
Mối quan hệ này có thể được thể hiện như sau:
Tại sao lại bắt đầu với hồi quy tuyến tính?
Bởi vì đây là một ý tưởng mà ngay cả những người ở trường trung học cũng quen thuộc, nó cũng cho phép chúng ta mở rộng tư duy của mình sang những ý tưởng phức tạp hơn. Quá trình lắp mô hình nhằm mục đích tìm giá trị tốt nhất của các tham số m và c. Chúng tôi xác định một đường phù hợp nhất với các điểm dữ liệu hiện có. Khi chúng ta phù hợp với mô hình, chúng ta có thể sử dụng nó để dự đoán kết quả (trục y) dựa trên đầu vào (trục x). Huấn luyện mô hình liên quan đến việc tìm kiếm các tham số phù hợp nhất với dữ liệu cho mô hình. Đường mà tổng sai số giữa các giá trị dự đoán và các giá trị quan sát được là nhỏ nhất được gọi là đường phù hợp nhất hoặc đường hồi quy.
Trong Hồi quy Tuyến tính Bình phương Tối thiểu Thông thường (OLS) như được mô tả ở trên, mục tiêu của chúng ta là tìm đường thẳng (hoặc siêu mặt phẳng) giảm thiểu các hiệu số dọc. Hay nói cách khác, chúng tôi định nghĩa dòng phù hợp nhất là dòng giảm thiểu tổng sai số bình phương (SSE) .
Trong trường hợp này, tổng sai số được giảm thiểu là
Hình: Tổng sai số bình phương.
Cùng một ý tưởng có thể được mở rộng thành nhiều tính năng. Trên thực tế, đối với ví dụ về giá nhà, chúng tôi đã sử dụng nhiều tính năng (giá trị x) để dự đoán kết quả (giá trị y), tức là giá nhà. Vì vậy, thay vì y = mx + c, phương trình sẽ có dạng
Vì vậy, các phép toán cấp độ GCSE cơ bản có thể được sử dụng để hiểu các nguyên tắc cơ bản của việc xây dựng và đào tạo mô hình.Phần kết luận
Trong bài viết này, Weekly Study đã giới thiệu cho các bạn cách bạn có thể bắt đầu với học máy và học sâu bằng cách sử dụng kiến thức cơ bản ở trường trung học. Bài viết dựa trên ấn phẩm của Ajit Jaokar, FutureText và Oxford đăng trên KDnuggets.
Weekly Study - Kênh tri thức Việt