Visual ChatGPT: Microsoft Kết Hợp ChatGPT Và VFM

Liu

30 يوليو

Published 28 مارس

visual-chatgpt-microsoft-ket-hop-chatgpt-vfm-1

Ngay khi chúng ta nghĩ rằng mình đã nắm đủ tin tức về Mô hình Ngôn ngữ Lớn (LLM), thì nhóm Nghiên cứu Châu Á của Microsoft đã mang đến cho chúng ta Visual ChatGPT. Visual ChatGPT khắc phục những hạn chế hiện tại trong ChatGPT là không thể xử lý thông tin trực quan vì nó được đào tạo với một phương thức ngôn ngữ duy nhất.

Visual ChatGPT là gì?

Visual ChatGPT là một hệ thống kết hợp với Visual Foundation Models (VFM) để giúp ChatGPT hiểu rõ hơn, tạo và chỉnh sửa thông tin trực quan. VFM có khả năng chỉ định định dạng đầu vào-đầu ra, chuyển đổi thông tin trực quan sang định dạng ngôn ngữ và xử lý lịch sử, mức độ ưu tiên và xung đột của VFM.

Do đó, Visual ChatGPT là một mô hình AI hoạt động như một cầu nối giữa những hạn chế của ChatGPT và cho phép người dùng giao tiếp qua trò chuyện và tạo hình ảnh.

Hạn chế của ChatGPT

ChatGPT đã xuất hiện trong phần lớn cuộc trò chuyện của mọi người trong vài tuần và vài tháng qua. Tuy nhiên, do khả năng đào tạo ngôn ngữ của nó, nó không cho phép xử lý và tạo hình ảnh.

Trong khi bạn có các mô hình nền tảng trực quan như Visual Transformers và Steady Diffusion có khả năng trực quan tuyệt vời. Đây là nơi mà sự kết hợp giữa ngôn ngữ và mô hình hình ảnh đã tạo ra Visual ChatGPT.

Visual Foundation Models (Mô hình nền tảng trực quan) là gì?

Visual Foundation Models được sử dụng để nhóm các thuật toán cơ bản được sử dụng trong thị giác máy tính. Họ sử dụng các kỹ năng thị giác máy tính tiêu chuẩn và chuyển chúng vào các ứng dụng AI để giải quyết các nhiệm vụ phức tạp hơn.

Trình quản lý lời nhắc trong Visual ChatGPT bao gồm 22 VFM, bao gồm Chuyển văn bản thành hình ảnh, ControlNet, Edge-To-Image,... Điều này giúp ChatGPT chuyển đổi tất cả các tín hiệu trực quan của hình ảnh thành ngôn ngữ để ChatGPT hiểu rõ hơn. Vậy Visual ChatGPT hoạt động như thế nào?

Visual ChatGPT hoạt động như thế nào?

Visual ChatGPT được tạo thành từ các thành phần khác nhau để giúp ChatGPT mô hình ngôn ngữ lớn hiểu được hình ảnh.

Các thành phần kiến trúc của Visual ChatGPT

User Query: Đây là nơi người dùng sẽ gửi truy vấn của họ
Prompt Manager: Đây là nơi chuyển đổi các truy vấn trực quan của người dùng sang định dạng ngôn ngữ để mô hình ChatGPT có thể hiểu được.
Visual Foundation Models: Đây là nơi kết hợp nhiều loại VFM, chẳng hạn như BLIP (Đào tạo trước hình ảnh-ngôn ngữ khởi động), Khuếch tán ổn định, ControlNet, Pix2Pix, v.v.
System Principle: Đây là nơi cung cấp các quy tắc và yêu cầu cơ bản cho Visual ChatGPT.
History of Dialogue: Đây là điểm tương tác và trò chuyện đầu tiên mà hệ thống có với người dùng.
History of Reasoning: Đây là nơi sử dụng suy luận trước đây mà các VFM khác nhau đã có trong quá khứ để giải quyết các truy vấn phức tạp.
Intermediate Answer: Với việc sử dụng VFM, mô hình sẽ cố gắng đưa ra một số câu trả lời trung gian có phần trình bày hợp lý.

visual-chatgpt-microsoft-ket-hop-chatgpt-vfm-2

Thông tin thêm về Prompt Manager

Một số bạn có thể nghĩ rằng đây là một giải pháp bắt buộc để ChatGPT xử lý hình ảnh vì nó vẫn chuyển đổi tất cả tín hiệu hình ảnh của hình ảnh thành ngôn ngữ. Khi tải hình ảnh lên, Trình quản lý nhắc sẽ tổng hợp lịch sử trò chuyện nội bộ bao gồm các thông tin như tên tệp để ChatGPT có thể hiểu rõ hơn truy vấn đang đề cập đến điều gì.

Ví dụ: Tên của một hình ảnh do người dùng nhập vào sẽ hoạt động như một lịch sử hoạt động và sau đó trình quản lý nhắc nhở sẽ hỗ trợ mô hình đi qua "Định dạng lý luận" để tìm ra những gì cần thực hiện với hình ảnh. Bạn có thể coi đây là suy nghĩ bên trong của mô hình trước khi ChatGPT lựa chọn thao tác VFM chính xác.

Trong hình ảnh bên dưới, bạn có thể thấy cách Trình quản lý nhắc khởi tạo các quy tắc cho Visual ChatGPT:

visual-chatgpt-microsoft-ket-hop-chatgpt-vfm-3

Visual ChatGPT: Nói, Vẽ và Chỉnh sửa bằng Mô hình Visual Foundation

Image by Visual ChatGPT: Nói, Vẽ và Chỉnh sửa bằng Visual Foundation Models

Bắt đầu với Visual ChatGPT

Để bắt đầu hành trình Visual ChatGPT của bạn, trước tiên bạn cần chạy bản trình diễn Visual ChatGPT:

# create a new environment
conda create -n visgpt python=3.8

# activate the new environment
conda activate visgpt

#  prepare the basic environments
pip install -r requirement.txt

# download the visual foundation models
bash download.sh

# prepare your private openAI private key
export OPENAI_API_KEY={Your_Private_Openai_Key}

# create a folder to save images
mkdir ./image

# Start Visual ChatGPT !
python visual_chatgpt.py

Bạn cũng có thể tìm hiểu thêm trên Visual ChatGPT GitHub của Microsoft. Đảm bảo bạn xem mức sử dụng bộ nhớ GPU của họ trên từng Mô hình Visual Foundation.

Các trường hợp sử dụng Visual ChatGPT

Vậy Visual ChatGPT có thể làm gì?

Tạo ảnh

Bạn có thể yêu cầu Visual ChatGPT tạo hình ảnh từ đầu, cung cấp mô tả. Hình ảnh của bạn sẽ được tạo trong vòng vài giây, tùy thuộc vào sức mạnh tính toán có sẵn. Tạo hình ảnh tổng hợp của nó bằng cách sử dụng dữ liệu văn bản dựa trên Khuếch tán ổn định.

Thay đổi hình nền

Một lần nữa, bằng cách sử dụng khuếch tán ổn định, Visual ChatGPT có thể thay đổi nền của hình ảnh đã nhập của bạn. Người dùng có thể cung cấp cho trợ lý bất kỳ mô tả nào về những gì họ muốn nền được thay đổi và mô hình khuếch tán ổn định sẽ tô màu nền của hình ảnh.

Thay đổi màu sắc hình ảnh và các hiệu ứng khác

Bạn cũng sẽ có thể thay đổi màu sắc của hình ảnh và áp dụng các hiệu ứng, dựa trên việc cung cấp cho ứng dụng mô tả. Visual ChatGPT sẽ sử dụng nhiều mô hình được đào tạo trước và OpenCV, để thay đổi màu sắc hình ảnh, làm nổi bật các cạnh của hình ảnh,...

Thay đổi hình ảnh

Visual ChatGPT cho phép bạn xóa hoặc thay thế các khía cạnh của hình ảnh bằng cách chỉnh sửa và sửa đổi các đối tượng trong hình ảnh bằng mô tả văn bản được hướng dẫn cho ứng dụng. Tuy nhiên, thật tốt khi lưu ý rằng tính năng này đòi hỏi nhiều sức mạnh tính toán hơn.

Hạn chế của Visual ChatGPT

Như chúng ta biết, sẽ luôn có một số dạng không hoàn hảo mà các tổ chức sẽ cần phải khắc phục để cải thiện dịch vụ của họ.

Kết hợp các mô hình thị giác máy tính và ngôn ngữ lớn

Visual ChatGPT phụ thuộc rất nhiều vào ChatGPT và VFM, do đó, độ chính xác và độ tin cậy của các khía cạnh riêng lẻ này ảnh hưởng đến hiệu suất của Visual ChatGPT. Sự kết hợp giữa việc sử dụng Mô hình ngôn ngữ lớn và Thị giác máy tính đòi hỏi kỹ thuật nhanh chóng cao và có thể khó đạt được hiệu suất thành thạo.

Quyền riêng tư và bảo mật

Visual ChatGPT có khả năng dễ dàng cắm và rút VFM, điều này có thể khiến một số người dùng lo ngại về các vấn đề bảo mật và quyền riêng tư. Microsoft sẽ cần xem xét kỹ hơn về cách dữ liệu nhạy cảm không bị xâm phạm.

Mô-đun tự điều chỉnh

Một trong những hạn chế mà các nhà nghiên cứu của Visual ChatGPT gặp phải là kết quả tạo ra không nhất quán do lỗi VFM và tính đa dạng của lời nhắc. Do đó, họ kết luận rằng họ sẽ cần phải làm việc trên một mô-đun tự hiệu chỉnh để đảm bảo rằng kết quả đầu ra được tạo ra phù hợp với những gì người dùng đã yêu cầu và có thể thực hiện các hiệu chỉnh cần thiết.

Yêu cầu số lượng GPU cao

Để hưởng lợi từ Visual ChatGPT và tận dụng 22 VFM, bạn sẽ cần một lượng RAM GPU cao, chẳng hạn như A100. Tùy thuộc vào nhiệm vụ hiện tại, hãy đảm bảo rằng bạn hiểu lượng GPU cần thiết để hoàn thành nhiệm vụ một cách hiệu quả.

Kết thúc

Visual ChatGPT vẫn còn những hạn chế, tuy nhiên đây là một bước đột phá lớn trong việc sử dụng đồng thời Mô hình ngôn ngữ lớn và Thị giác máy tính. Nếu bạn muốn tìm hiểu thêm về Visual ChatGPT, hãy đọc bài viết này: Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models.

Copyright Disclaimer:

This site does not store any files on its server. We only index and link to content provided by other sites. Please contact the content providers to delete copyright contents if any and email us, we'll remove relevant links or contents immediately.

Tuyên bố miễn trừ bản quyền:

Trang web này không lưu trữ bất kỳ tệp nào trên máy chủ của nó. Chúng tôi chỉ lập chỉ mục và liên kết đến nội dung được cung cấp bởi các trang web khác. Vui lòng liên hệ với các nhà cung cấp nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa các liên kết hoặc nội dung có liên quan ngay lập tức.

Tham khảo các bài viết cùng chủ đề:

1. Trí Tuệ Nhân Tạo, Học Máy và Học Sâu Là Gì?

2. Trở Thành Một Nghệ Sĩ AI Bằng Cách Sử Dụng Cụm Từ Và Khuếch Tán Ổn Định

3. Giới Thiệu Về Thuật Toán Hill Climbing Trong AI

4. Tại Sao Các Nhà Khoa Học Dữ Liệu Mong Đợi Lời Khuyên Thiếu Sót Từ Google Bard?

5. AI Không Ở Đây Để Thay Thế Chúng Ta

6. 5 Công Cụ Miễn Phí Để Phát Hiện ChatGPT, GPT3 Và GPT2

7. ChatGPT Với Google Bard: So Sánh Sự Khác Biệt Về Kỹ Thuật

8. Google AI Bard Là Gì?

Weekly Study | Kênh Tri Thức Việt

Visual ChatGPT: Microsoft Kết Hợp ChatGPT Và VFM