Stable Diffusion có sức mạnh thế nào?

Được ra mắt năm 2022, Stable Diffusion là mô hình ngôn ngữ AI, cho phép người dùng sáng tạo ra hình ảnh bằng những dòng văn bản. Mô hình này sử dụng công nghệ kết hợp các các mạng lưới thần kinh khác nhau. Quá trình tạo văn bản thành hình ảnh của Stable Diffusion được chia thành 4 phần khác nhau, bao gồm:

Bộ mã hóa hình ảnh: Chuyển đổi hình ảnh huấn luyện thành vectơ trong một không gian toán học được gọi là không gian tiềm ẩn, nơi thông tin hình ảnh có thể được biểu diễn dưới dạng mảng số.
Bộ mã hóa văn bản: Chuyển đội và dịch văn bản thành các vectơ chiều cao mà các mô hình học máy có thể hiểu được.
Mô hình khuếch tán: sử dụng hướng dẫn văn bản để tạo hình ảnh mới trong không gian tiềm ẩn.
Cuối cùng, Bộ giải mã hình ảnh sẽ chuyển đổi dữ liệu hình ảnh từ không gian tiềm ẩn thành hình ảnh thực tế được tạo bằng pixel.

Stable Diffusion cho phép người dùng biến hóa mọi thứ từ văn bản thành hình ảnh (Ảnh: Artnet News)

Stable Diffusion có chức năng chính là tạo ra hình ảnh chi tiết từ mô tả bằng văn bản, nhưng nó cũng có thể được sử dụng cho các tác vụ khác như inpainting (bổ sung các phần thiếu trong hình ảnh), outpainting (mở rộng hình ảnh ra ngoài biên) và chuyển đổi từ hình ảnh này sang hình ảnh khác dưới sự hướng dẫn của văn bản. Công cụ này cung cấp công khai các tài nguyên như mô hình, thẻ mẫu và mã nguồn, cho phép người dùng tùy chỉnh và sử dụng theo nhu cầu riêng.

Stable Diffusion là một công cụ mạnh mẽ, có khả năng tương đương với DALL-E 3 của OpenAI nhưng dễ sử dụng hơn, mang đến sự linh hoạt cao cho người dùng so với các nền tảng khác như DALL-E và MidJourney.

Để cài đặt Stale Diffusion máy tính cần có cấu hình thế nào?

Đối với hệ điều hành MacOS

Diffusion Bee chỉ hỗ trợ chip Apple Silicon, không tương thích với Mac sử dụng chip Intel. Điều kiện thứ hai, máy Mac phải chạy macOS Monterey trở lên để cài đặt DiffusionBee.

Đối với hệ điều hành Windows

Yêu cầu hệ điều hành Windows 10 trở lên.

Card đồ họa của Nvidia là bắt buộc, vì Stable Diffusion WebUI chỉ hỗ trợ xử lý dựa trên tập lệnh và nhân CUDA trên GPU của Nvidia. Card đồ họa cần có VRAM tối thiểu 4GB. Trong quá trình nội suy, card đồ họa với VRAM lớn hơn sẽ cho kết quả tốt hơn. Tuy nhiên, không phải ai cũng có card RTX 3090 hoặc 4090 để thử nghiệm cùng trí tuệ nhân tạo.

Còn các giải pháp khác như AUTOMATIC1111, OnnxDiffuserUI, hỗ trợ card đồ họa Radeon của AMD hoặc có thể tùy chỉnh AUTOMATIC1111 để hỗ trợ card AMD. Phần này sẽ được trình bày trong một bài viết khác, vì cách “vượt rào” tương đối phức tạp.

Đối với máy tính để bàn

Các yêu cầu phần cứng tối thiểu cho Stable Diffusion là :

CPU: Intel Core i7-7700 hoặc AMD Ryzen 7 2700X trở lên

GPU: NVIDIA GeForce GTX 1060 6GB hoặc AMD Radeon RX 580 8GB trở lên

RAM: 16GB trở lên

Ổ cứng: 500GB trở lên

Cấu hình lý tưởng phổ thông top 2023 hiện tại tối ưu tốt Stable Difusion :

CPU: Intel Core i9-13900K hoặc AMD Ryzen 9 7950X trở lên

GPU: NVIDIA GeForce RTX 4090 24G hoặc AMD RX 7900X trở lên

RAM: 32GB trở lên

Ổ cứng: SSD 1TB trở lên

Một số lỗi thường gặp và cách khắc phục khi sử dụng Stable Diffusion tạo ảnh AI

Lỗi ảnh chân dung có hai đầu

Để tránh tình trạng ảnh tạo ra bị lỗi như có hai đầu người, bạn nên chọn kích thước ảnh là hình vuông (tỷ lệ 1:1), tốt nhất là 512×512.

Lệnh prompt “full body” bị bỏ qua.

Dù bạn đã dùng prompt là full boby nhưng ảnh tạo ra vẫn không có đủ toàn thân như mong muốn bạn có thể xử lý theo 2 cách sau:

Mô tả thêm phần thân dưới, nên thêm vào câu nhắc prompt các từ: standing, long dress, legs, shoes.
Chọn kích thước ảnh chiều cao lớn hơn chiều rộng.

Xử lý lỗi xuất hiện ở phần khuôn mặt và đôi mắt.

Để khắc phục khuôn mặt và mắt bị biến dạng, không hoàn hảo bạn nên:

Đánh dấu vào lựa chọn Resto Face.
Nếu bản SD nào không có lựa chọn này có thể vào link CodeFormer upload ảnh lỗi lên để sửa mặt và mắt cho đẹp hơn.

Hình ảnh người mẫu lỗi với tay bị bóp méo, có quá nhiều hoặc quá ít ngón tay.

Stable Diffusion thường được cho là khó khăn trong phần xử lý ở phần bàn tay và ngón tay. Nếu gặp các lỗi ở phần tay, bạn nên thử theo 2 cách sau:

Thêm các từ khóa mô tả bàn tay và ngón tay vào câu nhắc, điều này giúp AI nhận biết và xử lý bàn tay có chi tiết hơn. Ví dụ bạn có thể thêm “beautiful hands” và “detailed fingers” vào prompt.
Cách khắc phục thứ hai là sử dụng inpainting. Tạo một mặt nạ trong khu vực có vấn đề. Sử dụng inpainting để tạo nhiều hình ảnh và chọn hình ảnh bạn thích.

Tổng kết: Stable Diffusion đã trở thành một công cụ phổ biến trong nhiều ngành công nghiệp sáng tạo, cho phép nghệ sĩ, nhà thiết kế và người dùng bình thường tạo ra các hình ảnh nghệ thuật và đồ họa chuyên nghiệp chỉ với mô tả ngắn gọn. Nó giúp tiết kiệm thời gian và nâng cao năng lực sáng tạo mà trước đây cần đến sự can thiệp thủ công. Tuy nhiên, máy tính của bạn cần phải có cấu hình cao để trong quá trình sáng tạo hình ảnh sẽ không mất nhiều thời gian và khiến máy tính của bạn ảnh hưởng về tuổi thọ.