Các Phương Pháp Hay Nhất Để Tạo Các Mô Hình AI Dành Riêng Cho Miền

Liu

30 يوليو

Published 21 مارس

cac-phuong-phap-hay-nhat-de-tao-cac-mo-hinh-ai-danh-rieng-cho-mien

Việc triển khai AI chung trên quy mô lớn đóng vai trò là khối xây dựng tuyệt vời để giải quyết một số vấn đề B2B. Tuy nhiên, mong muốn nhanh chóng tạo ra các nguyên mẫu và mang lại kết quả tập trung vào quyết định đang thúc đẩy nhu cầu về các sáng kiến AI dành riêng cho miền.

Các trường hợp sử dụng và kiến thức chuyên môn về chủ đề để giúp ích, nhưng các nhà khoa học và nhà phân tích dữ liệu cần điều chỉnh chu trình triển khai AI để giải quyết các vấn đề đòi hỏi tính cụ thể và mức độ liên quan hơn. Rào cản lớn nhất mà bất kỳ ai cũng gặp phải khi xây dựng các mô hình AI như vậy là tìm kiếm dữ liệu chất lượng, dành riêng cho miền. Dưới đây là một số phương pháp và kỹ thuật tốt nhất để điều chỉnh mô hình theo miền cụ thể đã hiệu quả với chúng tôi nhiều lần.

Vấn đề dữ liệu

Bắt đầu bằng cách khai thác tổ chức của bạn để khám phá càng nhiều nội dung dữ liệu dành riêng cho miền có liên quan càng tốt. Nếu đó là sự cố liên quan trực tiếp đến doanh nghiệp và ngành của bạn, thì bạn có thể có các tài sản dữ liệu chưa được khai thác mà việc triển khai của bạn có thể tận dụng. Trong trường hợp không chắc bạn thấy mình không có đủ tài sản dữ liệu, thì mọi hy vọng sẽ không bị mất. Có nhiều chiến lược và phương pháp giúp tạo hoặc nâng cao các bộ dữ liệu cụ thể, bao gồm học tích cực, học chuyển giao, tự đào tạo để cải thiện quá trình đào tạo trước và tăng cường dữ liệu. Một số chi tiết dưới đây.

Active Learning (Học chủ động)

Active Learning là một kiểu học bán giám sát với chiến lược truy vấn để chọn các trường hợp cụ thể mà nó muốn học từ đó. Việc sử dụng các chuyên gia miền với cơ chế con người trong vòng lặp để gắn nhãn các phiên bản đã chọn như vậy giúp tinh chỉnh quy trình để hướng tới các kết quả có ý nghĩa trong thời gian nhanh hơn nhiều. Ngoài ra, Active Learning yêu cầu lượng dữ liệu được gắn nhãn nhỏ hơn, do đó giảm chi phí chú thích thủ công trong khi vẫn đạt được mức độ chính xác cao hơn.

Dưới đây là một số mẹo để giúp học tập tích cực với dữ liệu hạn chế:

Trước tiên, hãy chia tập dữ liệu của bạn thành dữ liệu gốc và dữ liệu chưa được gắn nhãn.
Dán nhãn hạt giống và sử dụng nó để đào tạo mô hình học viên.
Dựa trên chức năng truy vấn, chọn (các) phiên bản cho chú thích của con người từ dữ liệu chưa được chú thích (bước quan trọng nhất). Chiến lược truy vấn có thể dựa trên lấy mẫu độ không đảm bảo (ví dụ: độ tin cậy thấp nhất, lấy mẫu lề hoặc entropy), truy vấn theo ủy ban (ví dụ: entropy biểu quyết, phân kỳ Kullback-Leibler trung bình), v.v.
Thêm dữ liệu mới được chú thích vào tập dữ liệu gốc và đào tạo lại mô hình người học.
Lặp lại hai bước trước đó cho đến khi đạt đến tiêu chí dừng, ví dụ: số lượng phiên bản được truy vấn, số lần lặp lại hoặc cải thiện hiệu suất.

Transfer Learning (Học chuyển giao)

Phương pháp này tận dụng kiến thức từ miền nguồn để học kiến thức mới trên miền đích. Khái niệm này đã xuất hiện được một thời gian, nhưng trong vài năm trở lại đây, khi mọi người nói về Transfer Learning, họ nói về một mạng lưới thần kinh, có thể là do các trường hợp triển khai thành công ở đó.

Sử dụng ImageNet làm ví dụ, đây là một số bài học kinh nghiệm:

Sử dụng mạng được đào tạo trước làm công cụ trích xuất tính năng. Việc xác định lớp nào sẽ xuất các tính năng tùy thuộc vào mức độ giống hoặc khác nhau giữa dữ liệu của bạn với tập dữ liệu huấn luyện cơ sở. Sự khác biệt sẽ quyết định chiến lược của bạn, như được nêu trong các điểm sau.
Nếu khác miền thì chỉ sử dụng các tính năng cấp thấp hơn của mạng nơ-ron. Các tính năng có thể được xuất và dùng làm đầu vào cho trình phân loại của bạn.
Nếu miền tương tự, hãy xóa lớp cuối cùng của mạng thần kinh và sử dụng toàn bộ mạng còn lại làm công cụ trích xuất tính năng. Hoặc thay thế lớp cuối cùng bằng một lớp mới phù hợp với số lớp tập dữ liệu đích.
Hãy thử giải phóng một vài lớp cuối cùng của mạng cơ sở và tiến hành tinh chỉnh ở tốc độ học thấp (ví dụ: 1e-5). Miền nguồn và miền đích càng gần thì số lớp cần tinh chỉnh càng nhỏ.

Tự đào tạo để cải thiện trước khi đào tạo (Jingfei Du et al., 2020)

Sự kết hợp này cung cấp một phương pháp tiềm năng để tận dụng tối đa dữ liệu được gắn nhãn hạn chế từ các tác vụ xuôi dòng. Nó cũng có thể giúp tận dụng tốt nhất khối lượng lớn dữ liệu chưa được gắn nhãn dễ dàng có sẵn. Đây là cách nó làm việc.

Tinh chỉnh mô hình được đào tạo trước (ví dụ: RoBERTa-Large) với dữ liệu được gắn nhãn của nhiệm vụ xuôi dòng được nhắm mục tiêu và sử dụng mô hình được tinh chỉnh làm giáo viên.
Trích xuất dữ liệu dành riêng cho nhiệm vụ của tập dữ liệu chưa được gắn nhãn bằng cách sử dụng nhúng truy vấn và chọn hàng xóm gần nhất từ tập dữ liệu.
Sử dụng mô hình giáo viên để chú thích dữ liệu trong miền được truy xuất trong dấu đầu dòng 2 và chọn k mẫu hàng đầu từ mỗi lớp có điểm cao nhất.
Sử dụng dữ liệu giả được tạo ở Bước 3 để tinh chỉnh RoBERTa-Large mới và cung cấp mô hình học sinh.

Data Augmentation (Tăng cường dữ liệu)

Tăng cường dữ liệu bao gồm một tập hợp các kỹ thuật hiệu quả, chi phí thấp để tạo các điểm dữ liệu mới từ dữ liệu hiện có. Dấu đầu dòng 2 trong phần trước về tự đào tạo cũng đề cập đến việc tăng cường dữ liệu, điều này rất quan trọng đối với toàn bộ bài tập.

Các kỹ thuật khác cho các ứng dụng NLP bao gồm dịch ngược, thay thế từ đồng nghĩa, chèn/hoán đổi/xóa ngẫu nhiên,... Đối với thị giác máy tính, các phương pháp chính bao gồm cắt xén, lật, thu phóng, xoay, chèn tiếng ồn, thay đổi độ sáng/độ tương phản/độ bão hòa và GAN ( mạng lưới đối thủ chung).

Việc xác định phương pháp nào sẽ sử dụng tùy thuộc vào trường hợp sử dụng của bạn, chất lượng tập dữ liệu ban đầu, doanh nghiệp vừa và nhỏ hiện có và khoản đầu tư có sẵn.

5 mẹo bổ sung để giúp tinh chỉnh AI dành riêng cho miền

Bạn sẽ thấy cần phải tiếp tục tinh chỉnh AI dành riêng cho miền của mình. Dưới đây là một số bài học mà chúng tôi đã học được từ kinh nghiệm tùy chỉnh triển khai để đáp ứng các trường hợp sử dụng cụ thể.

1. Tiến hành khám phá dữ liệu phù hợp để kiểm tra các vấn đề về chất lượng và số lượng với dữ liệu trước khi bắt đầu bằng chứng về khái niệm (POC) của bạn. Hiểu liệu dữ liệu có tuân thủ các tình huống ứng dụng thực tế hay không (ví dụ: các tác vụ xuôi dòng, như NER, Trích xuất quan hệ, QA,...), các biến thể và phân phối cũng như mức độ chính xác của dữ liệu. Đối với các biến thể và phân phối với vấn đề phân loại cấu trúc của phân loại, số lượng lớp ở mỗi cấp, lượng dữ liệu thuộc mỗi lớp, cân bằng so với không cân bằng,... tất cả đều quan trọng. Những gì bạn tìm thấy sẽ tác động đến phương pháp xử lý dữ liệu và lựa chọn phương pháp của bạn để cải thiện hiệu suất mô hình theo miền cụ thể.

2. Chọn thuật toán/mô hình phù hợp dựa trên trường hợp sử dụng và đặc điểm dữ liệu của bạn. Cũng xem xét các yếu tố như tốc độ, độ chính xác và triển khai. Sự cân bằng của các yếu tố này rất quan trọng vì chúng quyết định xem quá trình phát triển của bạn có thể dừng ở giai đoạn POC hay có tiềm năng ứng dụng và sản xuất thực tế hay không.

Ví dụ: Nếu mô hình của bạn cuối cùng sẽ được triển khai ở rìa, thì các mô hình lớn mặc dù chúng có thể có độ chính xác dự đoán cao hơn không nên được chọn. Việc các thiết bị cạnh chạy các mô hình như vậy là không thực tế, do sức mạnh tính toán của chúng.

Bắt đầu mọi sự thích ứng phát triển/miền với một mô hình cơ sở mạnh mẽ. Xem xét AutoML để nhanh chóng kiểm tra sự phù hợp của thuật toán đối với bộ dữ liệu dành riêng cho miền, sau đó tối ưu hóa dựa trên các quan sát.

3. Dữ liệu tiền xử lý là một phần thiết yếu của bất kỳ dự án NLP nào. Các bước thực hiện phải được xác định trên cơ sở từng trường hợp do các yêu cầu cụ thể của miền cũng như các phương pháp và mô hình đặc trưng đã chọn của chúng. Các quy trình chung có thể không mang lại kết quả tốt nhất.

Ví dụ: Một số bước như xóa từ dừng/dấu chấm câu và viết từ vựng có thể không phải lúc nào cũng cần thiết cho các mô hình học sâu. Chúng có thể làm mất ngữ cảnh; tuy nhiên, chúng có thể hữu ích nếu bạn đang sử dụng TF-IDF và các mô hình máy học. Mô đun hóa quy trình để một số bước phổ biến có thể được sử dụng lại trong khi tùy chỉnh để đáp ứng nhu cầu của trường hợp sử dụng.

4. Tận dụng các mô hình ngôn ngữ được đào tạo trước dành riêng cho miền nguồn mở nếu chúng có sẵn. Một số mô hình nổi tiếng là SciBERT, BioBERT, ClinicalBERT, PatentBERT và FinBERT. Các mô hình được đào tạo trước dành riêng cho miền này có thể giúp đạt được sự thể hiện tốt hơn và nhúng theo ngữ cảnh cho các tác vụ xuôi dòng. Trong trường hợp các mô hình này không có sẵn cho miền của bạn, nhưng bạn có đủ tài nguyên tính toán, hãy xem xét đào tạo mô hình được đào tạo trước của riêng bạn bằng cách sử dụng dữ liệu không được chú thích chất lượng cao trong miền.

5. Cân nhắc kết hợp từ vựng và quy tắc dành riêng cho miền. Đối với các tình huống nhất định, chúng cung cấp kết quả hiệu quả và chính xác hơn, đồng thời tránh được các sự cố lặp lại mô hình. Việc tạo từ vựng như vậy và xác định các quy tắc có thể đòi hỏi nỗ lực đáng kể và kiến thức chuyên môn về lĩnh vực, điều này cần phải được cân bằng.

Tóm tắt

Kênh AI để đáp ứng các nhu cầu và thách thức cụ thể của miền đòi hỏi kỷ luật xuyên suốt, không chỉ trong cách tiếp cận và tài nguyên. Tin tốt là các công ty ngày càng quan tâm đến các giải pháp giải quyết và giải quyết các thách thức cụ thể, từ đó tạo ra các phương pháp hay nhất cho các nhà khoa học dữ liệu và nhà phát triển AI đang tìm cách cung cấp ROI nhanh hơn cho các ứng dụng của họ.

Copyright Disclaimer:

This site does not store any files on its server. We only index and link to content provided by other sites. Please contact the content providers to delete copyright contents if any and email us, we'll remove relevant links or contents immediately.

Tuyên bố miễn trừ bản quyền:

Trang web này không lưu trữ bất kỳ tệp nào trên máy chủ của nó. Chúng tôi chỉ lập chỉ mục và liên kết đến nội dung được cung cấp bởi các trang web khác. Vui lòng liên hệ với các nhà cung cấp nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa các liên kết hoặc nội dung có liên quan ngay lập tức.