Tìm hiểu Học sâu Deep Learning thông qua 10 dự án mạng thần kinh vào năm 2023

Quản Trị Viên

05 tháng 6

Published 09 tháng 1

(Weekly Study - Deep Learning) Dưới đây là 10 dự án mạng nơ-ron mà bạn có thể thực hiện vào năm 2022 để xây dựng kỹ năng, bí quyết và danh mục đầu tư của mình.

Tìm hiểu Học sâu Deep Learning thông qua 10 dự án mạng thần kinh vào năm 2022

Với sự phát minh ra máy tính, nhiều người đã nói về thực tế rằng máy tính sẽ không bao giờ vượt qua được thành tích của con người, cho dù đó là đánh bại một nhà vô địch ở cờ vua hay giải một khối Rubik. Chà, máy tính ngày nay có thể làm được tất cả những điều đó. Tất cả đều cảm ơn Neural Networks vì đã thay đổi thế giới, mạng thần kinh đã xuất hiện từ những năm 1950, nhưng chỉ trong hai thập kỷ gần đây, con người mới có thể nhận ra sức mạnh thực sự của chúng.

Học sâu và mạng thần kinh đã tìm thấy đường vào cuộc sống hàng ngày của chúng ta kể từ năm 2012. Kể từ đó, mạng thần kinh đã đóng góp vào việc khám phá thuốc và chẩn đoán y tế cho các đề xuất của Netflix. Và sự tăng trưởng sẽ không sớm bị chùn bước; số lượng tham số mạng nơron đã tăng từ vài trăm nghìn lên 1 nghìn tỷ trong vòng mười năm.

Có vô số ứng dụng học sâu mà chúng ta có thể xây dựng bằng mạng nơ-ron, nhưng đây là 10 ứng dụng nằm trong danh sách của tôi bạn có thể xây dựng vào năm 2022. Việc xây dựng các dự án mạng nơ-ron này sẽ cung cấp cho máy các kỹ năng và kiến thức cần thiết để xây dựng các ứng dụng học tập sâu đa dạng.

Nếu bạn muốn tìm hiểu và thử thực hành cách xây dựng từng dự án mạng nơ-ron này, hãy xem các Dự án học sâu và Mạng nơ-ron đã được giải quyết này , nơi bạn sẽ học cách tạo các ứng dụng học sâu cấp độ mới bắt đầu đến nâng cao.

10 dự án mạng thần kinh bạn nên xây dựng vào năm 2022

Ý tưởng dự án mạng thần kinh sử dụng mạng thần kinh hợp pháp (CNN)

CNN là một mạng nơ-ron dựa vào phép toán tích chập để trích xuất các tính năng từ một đầu vào nhất định (thường là một hình ảnh). Các phép biến đổi được thực hiện tuần tự bởi các bộ lọc có kích thước khác nhau cùng với các phép biến đổi khác như gộp và chuẩn hóa để trích xuất và tìm hiểu các mẫu từ dữ liệu.

1) Nhận dạng ký tự quang học (OCR) cho văn bản viết tay

Công việc về nhận dạng ký tự quang học (OCR) cho văn bản in đã được tiến hành trong vài thập kỷ. Với sự gia tăng của các mạng nơ-ron phức hợp sâu, ngay cả văn bản viết tay mangily giờ đây (phần nào) cũng có thể đọc được đối với máy móc. OCR đang được sử dụng rộng rãi ngày nay với tính năng nhận dạng biển số xe để bắt giữ những người chạy quá tốc độ, tự động báo cáo và lọc các bài đăng xúc phạm và không phù hợp từ các trang web truyền thông xã hội, đồng thời xử lý nhận dạng trực tuyến chỉ bằng cách quét các tài liệu cá nhân như hộ chiếu và giấy phép lái xe. Viết tay khó xử lý hơn đối với cả con người và máy móc. Nhưng việc tự động hóa nó với OCR viết tay có các ứng dụng trong việc số hóa hàng triệu tài liệu cổ và các mẩu báo, xử lý các mẫu đơn điền tay được quét và thậm chí cả việc học trực tuyến với các bảng viết nguệch ngoạc kỹ thuật số.

Một số mô hình OCR hiện đại chứng minh điểm chuẩn của chúng trên tập dữ liệu viết tay IAM và bạn có thể sử dụng miễn phí để kiểm tra mô hình của mình. Sử dụng phân tích thực nghiệm, bạn có thể xây dựng kiến trúc CNN cho tập dữ liệu của mình chỉ bằng cách sử dụng các lớp Conv2D và MaxPooling2D. Một mẫu bên dưới xác định lớp thứ hai lấy đầu vào từ lớp đầu tiên, “pool_1”.

Thêm một lớp RNN hoặc Bi-LSTM ở cuối có thể giúp cải thiện đáng kể khả năng nhận dạng. Tại sao? Chà, chữ viết tay trong cùng một tài liệu có xu hướng nhất quán. Học hỏi từ tính nhất quán đó sẽ giúp cải thiện các dự đoán khi chúng ta tiến xa hơn trong một câu hoặc tài liệu. Thành phần được bổ sung này thậm chí có thể giúp mô hình hội tụ với ít dữ liệu hơn một CNN đơn giản. Bạn có thể sử dụng mô-đun keras.layers.recurrent.GRU cho RNN và keras.layers.Bidirectional cho đơn vị Bi-LSTM.

Tập dữ liệu để bạn thử thực hành: IAM Handwriting Top50, Nhận dạng chữ viết tay (OCR), tập dữ liệu Đơn thuốc của bác sĩ, Nhận dạng chữ viết tay Kaggle

2) Chẩn đoán bệnh từ các báo cáo y tế

Tự động hóa việc đọc các hình ảnh chụp X-quang ngực và tế bào máu có thể giúp chẩn đoán nhanh các bệnh mãn tính như lao và ung thư, đồng thời có khả năng cứu sống với độ chính xác đạt được của các mạng trung lập trong việc phát hiện những bệnh này ngay từ khi mới khởi phát. Trong đợt đại dịch mới nhất, ứng dụng này đã tìm thấy một trường hợp sử dụng thời gian thực để giảm bớt khối lượng công việc của một số cơ sở chăm sóc sức khỏe.

Bằng cách đào tạo một CNN chuyên sâu với hình ảnh chú thích của XRays ở ngực, người ta có thể dự đoán một cách đáng tin cậy sự khởi phát của một căn bệnh cụ thể, đặc biệt là COVID-19. Bạn có thể tìm thấy một tập dữ liệu sơ bộ ở đây. Ý tưởng dự án mạng nơ-ron này là một cơ hội tuyệt vời để khai thác việc học chuyển giao để đạt được hiệu suất tốt và hội tụ nhanh chóng với một tập dữ liệu nhỏ. Sử dụng trọng số được đào tạo trước của các kiến trúc CNN hiện đại như ResNet50 và Xception trên tập dữ liệu ImageNet phổ biến, bạn có thể dễ dàng tinh chỉnh các mô hình phức tạp này cho trường hợp sử dụng của mình.

Sử dụng tập dữ liệu XRay rương có sẵn, người ta có thể tải các mô hình này từ Keras với cờ include_top được đặt thành Sai (điều này có nghĩa là lớp cuối cùng sẽ bị bỏ qua trong khi tải). Sau đó, bạn có thể xác định lớp dày đặc của mình, lớp này sẽ được đào tạo dựa trên các lớp và hình ảnh của tập dữ liệu của bạn.

Tập dữ liệu để bạn thử thực hành: Tập dữ liệu NIH, Hình ảnh X-quang ngực (Viêm phổi), PADCHEST - BIMCV, Chụp X-quang COVID-19 mở rộng và Tập dữ liệu hình ảnh CT ngực, Hình ảnh tế bào máu

3) Phân loại tài liệu

Một số ngành như bảo hiểm, kế toán và tư pháp sử dụng dịch vụ để phân loại hàng nghìn tài liệu họ nhận được hàng ngày thành một số danh mục được xác định trước. Việc phân loại này được thực hiện bằng cách sử dụng nội dung của các tài liệu đó (văn bản / hình ảnh) hoặc bố cục trực quan (biểu mẫu, bảng, biểu đồ). Và thông thường, cả hai chế độ này đều hữu ích cho việc phân loại. Sử dụng các mô hình sâu, người ta có thể làm cho nhiệm vụ tẻ nhạt này theo cách thủ công nhanh hơn bằng cách tự động hóa nó bằng cách sử dụng CNN hoặc mô hình ngôn ngữ được đào tạo.

Để phân loại trực quan, dựa trên hình ảnh, người ta có thể xem tập dữ liệu Tobacco3482 chứa hình ảnh của 10 loại tài liệu, bao gồm biểu mẫu, bản ghi nhớ, báo cáo, quảng cáo và biểu đồ. CNN nhiều lớp sử dụng Conv2D + MaxPooling2D sẽ đủ cho tỷ lệ phân loại tốt> 85%. Các bộ dữ liệu khác bao gồm Bộ dữ liệu RVL-CDIP.

Đối với cách tiếp cận dựa trên văn bản, người ta có thể sử dụng các công cụ OCR mã nguồn mở như Tesseract hoặc EasyOCR để trích xuất văn bản từ tài liệu của họ và xây dựng tập dữ liệu cho cách tiếp cận dựa trên văn bản. Hoặc một bộ dữ liệu đánh giá phim IMDb rất sơ bộ có thể được truy cập từ keras.datasets.imdb . Sử dụng một loạt Bi-LSTM (Hai chiều ở Keras) với chiến lược bỏ học là một cách tuyệt vời để bắt đầu. Một cách tiếp cận thú vị sẽ là sử dụng đơn vị Conv1D + MaxPooling1D để trích xuất các tính năng từ việc nhúng câu đầu vào và đào tạo một LSTM về các tính năng không gian đó.

Tập dữ liệu để bạn thử thực hành: Phân cực đánh giá Cornell, Tập dữ liệu nhóm tin, tin tức AG, Văn bản Reuters-21578, Văn bản đầy đủ của BBC.

4) Hệ thống đề xuất dựa trên nội dung

Hệ thống đề xuất có mặt khắp nơi trong các nền tảng bán lẻ trực tuyến và phương tiện truyền thông lấy nội dung làm trung tâm; ngay cả các trang blog trên một trang web kinh doanh cũng có các đề xuất phù hợp với mọi khách hàng. Các kỹ thuật như lọc cộng tác đã nổi tiếng và được sử dụng rộng rãi, nhưng phân nhóm và đề xuất nội dung tương tự sẽ thông minh hơn.

Bạn có thể bắt đầu với Tập dữ liệu thời trang trên Kaggle và làm việc với mô hình phức hợp của mình để tìm hiểu các đại diện của những hình ảnh này. Một cách sẽ là sử dụng học chuyển tiếp, sử dụng mô hình ResNet50 được đào tạo trước của Keras và thêm một lớp Tổng hợp cuối cùng để tìm hiểu các biểu diễn cụ thể cho dữ liệu của bạn. Mô hình này sẽ tạo một nhúng cho từng mặt hàng thời trang trong tập dữ liệu. Giờ đây, bạn có thể nhập một hình ảnh cụ thể vào mô hình này, tạo nhúng và sử dụng tính tương tự cosine để tìm những thứ gần với mục nhất định về mặt không gian. Do đó, bạn có thể giới thiệu chúng một cách đáng tin cậy cho người dùng.

Bộ dữ liệu để bạn thử thực hành: Dữ liệu đề xuất thương mại điện tử, Hình ảnh màu kiểu dáng, Hình ảnh sản phẩm thương mại điện tử.

5) Phát hiện hoạt động của con người

Mặc dù bị một số người ủng hộ quyền riêng tư phản đối, nhưng việc giám sát là cần thiết đối với một số trường hợp sử dụng một cách có kiểm soát. Có thể phát hiện hoạt động của con người từ cảnh quay CCTV để bảo mật hoặc làm tín hiệu cho cửa tự động có thể thực hiện được với mạng thần kinh sâu trong thời gian thực.

Để bắt đầu, bạn có thể truy cập API phát hiện đối tượng TensorFlow 2 và kiểm tra các mô hình phát hiện đối tượng có sẵn mà họ cung cấp. Họ cũng cung cấp các bước để thực hiện suy luận về hình ảnh của chính bạn trong sổ tay này. Sau khi nhìn thấy điều này, bạn sẽ biết những gì mong đợi từ một hệ thống phát hiện con người. Tuy nhiên, các mô hình sẵn sàng sử dụng này hoạt động tốt nhất với GPU. Hiện tại, bạn có thể sử dụng GPU giới hạn miễn phí trên Google Colab.

Để làm việc từ đầu, bạn có thể thực hiện mô hình phát hiện đối tượng như Faster R-CNN sử dụng Keras hoặc PyTorch và cố gắng thực hành của bạn tập hợp dữ liệu phát hiện con người như Kaggle của Detection Nhân Dataset, CrowdHuman Dataset và Pedestrian Detection Database.

6) Phân đoạn ngữ nghĩa của các đối tượng trên đường

Phân đoạn ngữ nghĩa liên quan đến việc phân loại mọi pixel trong một hình ảnh thành một lớp đối tượng được xác định trước; nó tạo ra các mặt nạ xung quanh một đối tượng của một danh mục cụ thể. Segmentation, một trong những ứng dụng thực tế nhất của CNN được sử dụng bởi ô tô tự lái trong việc định vị và theo dõi các đối tượng trên đường, bao gồm cả con đường, bằng camera vệ tinh để phát hiện tài nguyên thiên nhiên hoặc các mô hình di cư hoặc các khu định cư khủng bố từ các hình ảnh trên không và kỹ thuật số theo dõi bản đồ để phân đoạn các con đường và tòa nhà để vẽ một con đường có hướng dẫn.

Trong khi một số kiến trúc có trọng lượng lớn đã đạt được kết quả gần với kết quả được hiển thị ở trên, chúng ta có thể bắt đầu với một kiến trúc khá hợp lý, như được hiển thị bên dưới.

Như được hiển thị trên trang web Keras, kiến trúc này hoạt động dựa trên khái niệm lấy mẫu xuống một hình ảnh để tìm hiểu các biểu diễn cơ bản của nó và sau đó học cách làm tăng mẫu, cuối cùng tạo ra một hình ảnh giống như mặt nạ. Hiện tại, một số mô hình phân đoạn ngữ nghĩa hoạt động tốt nhất bao gồm HRNet, DeepLab và ASPP.

Tập dữ liệu để thử thực hành: tập dữ liệu ADE20K, Điểm chuẩn phân tích cú pháp cảnh MIT, Tập dữ liệu RTK, Nhóm hình học trực quan: Pet Dataset, parissculpt360

Ý tưởng dự án mạng thần kinh sử dụng bộ nhớ ngắn hạn dài (LSTM)

LSTM là một loại Mạng thần kinh tái diễn hoạt động dựa trên chuỗi dữ liệu và lưu giữ thông tin đã học theo thời gian. Ở mỗi bước, thông tin mới mà mạng học được sẽ được thêm vào “bộ nhớ” được cập nhật dựa trên mức độ quan trọng của kiến thức mới đối với mạng. Mạng này đã tạo ra một cuộc cách mạng về nhận dạng giọng nói và chữ viết tay, hiểu ngôn ngữ, dự báo và một số ứng dụng bình thường hơn bình thường ngày nay.

7) Dự đoán từ tiếp theo

Một trong những thách thức đáng kể trong xử lý ngôn ngữ tự nhiên và mô hình ngôn ngữ là học các cách biểu diễn nắm bắt ngữ cảnh của mỗi câu. Trong khi đọc, con người thường có thể theo dõi ngữ cảnh từ các từ đã gặp một vài từ trước đó. Tương tự, một mạng nơ-ron cũng có thể được thiết kế để ghi nhớ những điều đã học từ những từ mà nó gặp phải trong một thời gian để học tốt hơn từ một số từ hoặc câu sau đây.

Dự đoán hoặc tạo từ tiếp theo là nhiệm vụ chuẩn để kiểm tra khả năng của một mô hình ngôn ngữ trong việc nhận ra và ghi nhớ nội dung trong quá khứ giống như con người. Trong cuộc sống hàng ngày, chúng ta sử dụng dự đoán từ trong khi nhắn tin hoặc viết email. Các ứng dụng nâng cao hơn bao gồm các công cụ sửa ngữ pháp và đề xuất chỉnh sửa văn bản hoặc thậm chí tạo toàn bộ bài luận từ một lời nhắc nhất định.

Bộ nhớ ngắn hạn dài (LSTM) là một mô hình thần kinh cải thiện kiến trúc và trực giác của các phương pháp trước đây để ghi nhớ ngữ cảnh, chẳng hạn như ANN tiêu chuẩn hoặc Mạng thần kinh tái tạo (RNN). Một LSTM tiêu chuẩn bao gồm ba cổng, cổng đầu vào, đầu ra và cổng quên. Các đơn vị này học các tham số của riêng chúng để xác định xem có nên nhớ từ hiện tại hay không và quên bao nhiêu nội dung trong quá khứ.

Bạn có thể bắt đầu xây dựng LSTM của riêng mình bằng cách sử dụng mô-đun LSTM từ keras.layers. Dữ liệu văn bản cần thiết để đào tạo có thể là bất kỳ bộ câu nào phù hợp với trường hợp sử dụng của bạn. Tuy nhiên, bạn có thể sử dụng các tác phẩm kinh điển như Shakespeare và Plato làm điểm xuất phát của mình. Cần lưu ý rằng các mô hình toán học, bao gồm cả LSTM, không thể đọc các từ /câu và do đó, cần các biểu diễn vectơ làm đầu vào.

Tập dữ liệu để thử thực hành: Dự án Gutenberg, tập dữ liệu bài báo phương tiện

8) Dự đoán chuỗi thời gian sử dụng LSTM

Khái niệm lưu giữ bộ nhớ và nội dung quá khứ, như được chứng minh bởi LSTM, cũng hữu ích trong trường hợp dữ liệu quá khứ là cách duy nhất để dự đoán hiện tại. Dự báo thời tiết, dự đoán giá cổ phiếu, hoặc thậm chí dự đoán dòng thời gian của các bệnh như COVID-19 có thể được thực hiện bằng cách sử dụng dự đoán chuỗi thời gian.

Việc xem xét tất cả dữ liệu ngay từ đầu có thể gây hiểu nhầm vì nhiều yếu tố quan trọng sau đó đã lỗi thời. Do đó, việc xác định “kích thước cửa sổ” hoặc “bước thời gian” là điều cần thiết để nhìn về quá khứ trong khi dự đoán hiện tại / tương lai. Do đó, dữ liệu của bạn có thể tập hợp n bước dữ liệu lại với nhau để đào tạo một LSTM.

Bạn có thể sử dụng lại mô-đun LSTM từ Keras để đạt được điều này. Để làm cho mọi thứ trở nên khó khăn hơn, bạn có thể sử dụng mô hình Tuần tự từ Keras và xây dựng một loạt các LSTM theo sau là một lớp dày đặc để tìm hiểu các mối quan hệ phức tạp hơn và cải thiện hiệu suất.

Datasets Để Hãy thử Hands-On của bạn: dữ liệu Time-series trên data.world, COVID-19 chuỗi thời gian dữ liệu, Novel Corona Virus 2019 Dataset.

9) Chatbot trò chuyện

Hầu hết mọi công ty đều có một chatbot “thông minh” trên trang web của mình, nhưng trải nghiệm người dùng chắc chắn không tuyệt vời với tất cả chúng. Có thể có hai cách mà một chatbot trò chuyện có thể trả lời một tin nhắn nhất định: tìm nạp từ một tập hợp các câu trả lời được xác định trước dựa trên kết quả trùng khớp gần nhất hoặc tạo ra một câu trả lời của riêng nó. Phương pháp trước đây thường mang lại kết quả dư thừa một cách khó chịu, và giờ đây với những tiến bộ trong AI đàm thoại, phương pháp thứ hai nằm trong tầm tay của bạn.

Mặc dù có một số phương pháp nâng cao để tạo chatbots mạnh mẽ, nhưng cách tốt nhất để bắt đầu sẽ là một kiến trúc bộ mã hóa-giải mã sử dụng các LSTM xếp chồng lên nhau. Kiểu kiến trúc này trong ngữ cảnh tạo văn bản thuộc bất kỳ loại nào được gọi là mô hình trình tự nối tiếp (seq2seq). Nó có thể đạt được bằng cách sử dụng các mô-đun Keras tiêu chuẩn của Hai chiều hoặc LSTM.

Tập dữ liệu để bạn thử thực hành: Để triển khai Chatbot hội thoại: The NPS Chat Corpus, ConvAI2 và Cornell Movie-Dialogs Corpus. For Q&A-type chatbots: TREC QA Collection, The WikiQA Corpus và Question-Answer Database.

10) Tóm tắt văn bản - Tóm tắt các tài liệu lớn

Một ứng dụng khác của mô hình seq2seq là tóm tắt văn bản dạng dài thành một tập hợp các câu. Nhiệm vụ cấp cao này yêu cầu người mẫu phải hiểu toàn bộ tài liệu, trích xuất các chi tiết quan trọng nhất của nó và tạo ra các câu mạch lạc để truyền đạt thông tin đó theo cách ngắn nhất có thể. Các nhà nghiên cứu có thể sử dụng công cụ này để tóm tắt hàng chục bài báo và lọc ra những bài mà họ thực sự muốn dành thời gian đọc. Tương tự, các thiết bị hỗ trợ giọng nói và công cụ tìm kiếm cũng có thể cung cấp các đoạn trích nhanh cho người dùng cho một truy vấn tìm kiếm nhất định.

Tương tự như trước đây, bạn có thể tạo mô hình seq2seq với cấu trúc bộ mã hóa-giải mã dựa trên các LSTM xếp chồng lên nhau theo sau là lớp Dày. Hơn nữa, chúng ta có thể sử dụng lại tính năng học chuyển giao ở đây bằng cách sử dụng nhúng GloVe vào bộ mã hóa và / hoặc bộ giải mã để bắt đầu học các biểu diễn câu. Bạn có thể tìm thấy GloVe tại trang web Stanford NLP.

Tập dữ liệu để bạn thử thực hành: Wiki- Summary, yaolu/Multi-XScience, The New York Times Annotated Corpus - Linguistic Data Consortium.

>>> Bạn có thể đọc nội dung liên quan:

Weekly Study - Kênh tri thức Việt

Weekly Study | Kênh Tri Thức Việt