Gemini API hỗ trợ tạo hình ảnh bằng cách sử dụng Gemini 2.0 Flash Experimental và sử dụng Imagen 3. Hướng dẫn này sẽ giúp bạn bắt đầu sử dụng cả hai mô hình.
Để biết hướng dẫn về câu lệnh hình ảnh, hãy xem phần Hướng dẫn về câu lệnh hình ảnh.
Trước khi gọi Gemini API, hãy đảm bảo bạn đã cài đặt SDK mà bạn chọn và khoá Gemini API đã được định cấu hình và sẵn sàng sử dụng.
Gemini 2.0 Flash Experimental hỗ trợ khả năng xuất văn bản và hình ảnh cùng dòng. Điều này cho phép bạn sử dụng Gemini để chỉnh sửa hình ảnh theo cách trò chuyện hoặc tạo đầu ra có văn bản đan xen (ví dụ: tạo một bài đăng trên blog có văn bản và hình ảnh trong một lượt). Tất cả hình ảnh được tạo đều có hình mờ SynthID và hình ảnh trong Google AI Studio cũng có hình mờ hiển thị.
Lưu ý: Hãy nhớ thêm responseModalities: ["TEXT", "IMAGE"] vào cấu hình tạo của bạn để xuất văn bản và hình ảnh bằng gemini-2.0-flash-exp-image-generation. Không được phép chỉ sử dụng hình ảnh.Ví dụ sau đây cho thấy cách sử dụng Gemini 2.0 để tạo đầu ra văn bản và hình ảnh:
Tuỳ thuộc vào câu lệnh và ngữ cảnh, Gemini sẽ tạo nội dung ở nhiều chế độ (văn bản sang hình ảnh, văn bản sang hình ảnh và văn bản, v.v.). Dưới đây là một số ví dụ:
Để chỉnh sửa hình ảnh, hãy thêm hình ảnh làm dữ liệu đầu vào. Ví dụ sau đây minh hoạ cách tải hình ảnh được mã hoá base64 lên. Đối với nhiều hình ảnh và tải trọng lớn hơn, hãy kiểm tra phần đầu vào hình ảnh.
Bạn nên sử dụng mô hình nào để tạo hình ảnh? Điều này phụ thuộc vào trường hợp sử dụng của bạn.
Gemini 2.0 phù hợp nhất để tạo hình ảnh phù hợp theo ngữ cảnh, kết hợp văn bản và hình ảnh, kết hợp kiến thức về thế giới và suy luận về hình ảnh. Bạn có thể sử dụng thành phần này để tạo hình ảnh chính xác, phù hợp theo ngữ cảnh được nhúng trong các trình tự văn bản dài. Bạn cũng có thể chỉnh sửa hình ảnh theo cách trò chuyện, sử dụng ngôn ngữ tự nhiên, đồng thời duy trì ngữ cảnh trong suốt cuộc trò chuyện.
Nếu chất lượng hình ảnh là ưu tiên hàng đầu của bạn, thì Imagen 3 sẽ là lựa chọn phù hợp hơn. Imagen 3 nổi trội về độ chân thực của ảnh, chi tiết nghệ thuật và các phong cách nghệ thuật cụ thể như trường phái ấn tượng hoặc anime. Imagen 3 cũng là một lựa chọn phù hợp cho các nhiệm vụ chỉnh sửa hình ảnh chuyên biệt như cập nhật nền sản phẩm, nâng cấp hình ảnh và truyền tải thương hiệu cũng như phong cách vào hình ảnh. Bạn có thể sử dụng Imagen 3 để tạo biểu trưng hoặc các thiết kế sản phẩm mang thương hiệu khác.
API Gemini cung cấp quyền truy cập vào Imagen 3, mô hình chuyển văn bản thành hình ảnh có chất lượng cao nhất của Google, với một số tính năng mới và cải tiến. Imagen 3 có thể làm những việc sau:
Hiện tại, Imagen chỉ hỗ trợ câu lệnh bằng tiếng Anh và các thông số sau:
(Quy ước đặt tên khác nhau tuỳ theo ngôn ngữ lập trình.)
Phần này của hướng dẫn về Imagen cho bạn biết cách sửa đổi câu lệnh chuyển văn bản sang hình ảnh có thể tạo ra nhiều kết quả khác nhau, cùng với ví dụ về hình ảnh bạn có thể tạo.
Câu lệnh hay phải mang tính mô tả và rõ ràng, đồng thời sử dụng các từ khoá và đối tượng sửa đổi có ý nghĩa. Hãy bắt đầu bằng cách suy nghĩ về chủ đề, ngữ cảnh và phong cách.
Chủ thể: Điều đầu tiên cần nghĩ đến khi có bất kỳ câu lệnh nào là chủ thể: đối tượng, người, động vật hoặc cảnh mà bạn muốn chụp ảnh.
Ngữ cảnh và nền: Nền hoặc ngữ cảnh nơi đặt chủ thể cũng quan trọng không kém. Hãy thử đặt chủ thể của bạn trong nhiều nền. Ví dụ: phòng chụp có phông nền trắng, ngoài trời hoặc môi trường trong nhà.
Kiểu: Cuối cùng, hãy thêm kiểu hình ảnh mà bạn muốn. Phong cách có thể là chung (bức vẽ, ảnh chụp, bản phác thảo) hoặc rất cụ thể (bức vẽ màu phấn, bản vẽ bằng than, hình ảnh 3D phối cảnh isometric). Bạn cũng có thể kết hợp các kiểu.
Sau khi viết phiên bản đầu tiên của câu lệnh, hãy tinh chỉnh câu lệnh bằng cách thêm nhiều thông tin chi tiết hơn cho đến khi bạn có được hình ảnh mà mình muốn. Lặp lại là một yếu tố quan trọng. Bắt đầu bằng cách xác lập ý tưởng cốt lõi, sau đó tinh chỉnh và mở rộng ý tưởng cốt lõi đó cho đến khi hình ảnh được tạo gần với tầm nhìn của bạn.
Imagen 3 có thể biến ý tưởng của bạn thành hình ảnh chi tiết, cho dù câu lệnh của bạn ngắn hay dài và chi tiết. Tinh chỉnh tầm nhìn của bạn thông qua lời nhắc lặp lại, thêm chi tiết cho đến khi bạn đạt được kết quả hoàn hảo.
Một số lời khuyên khác về cách viết câu lệnh cho Imagen:
Imagen có thể thêm văn bản vào hình ảnh, mở ra nhiều khả năng tạo hình ảnh sáng tạo hơn. Hãy làm theo hướng dẫn sau để khai thác tối đa tính năng này:
Nhiều cụm từ: Thử nghiệm với hai hoặc ba cụm từ riêng biệt để cung cấp thêm thông tin. Tránh vượt quá 3 cụm từ để có các thành phần rõ ràng hơn.
Hướng dẫn vị trí: Mặc dù Imagen có thể cố gắng định vị văn bản theo hướng dẫn, nhưng đôi khi vẫn có thể có sự khác biệt. Tính năng này liên tục được cải thiện.
Kiểu phông chữ gợi ý: Chỉ định một kiểu phông chữ chung để ảnh hưởng một cách tinh tế đến các lựa chọn của Imagen. Đừng dựa vào việc sao chép phông chữ chính xác, mà hãy mong đợi các cách diễn giải sáng tạo.
Kích thước phông chữ: Chỉ định kích thước phông chữ hoặc chỉ báo chung về kích thước (ví dụ: nhỏ, vừa, lớn) để ảnh hưởng đến việc tạo kích thước phông chữ.
Để kiểm soát tốt hơn kết quả đầu ra, bạn nên tham số hoá dữ liệu đầu vào vào Imagen. Ví dụ: giả sử bạn muốn khách hàng có thể tạo biểu trưng cho doanh nghiệp của họ và bạn muốn đảm bảo biểu trưng luôn được tạo trên nền màu đồng nhất. Bạn cũng muốn giới hạn các tuỳ chọn mà ứng dụng có thể chọn trong trình đơn.
Trong ví dụ này, bạn có thể tạo một lời nhắc có tham số tương tự như sau:
A {logo_style} logo for a {company_area} company on a solid color background. Include the text {company_name}.Trong giao diện người dùng tuỳ chỉnh, khách hàng có thể nhập các tham số bằng trình đơn và giá trị mà họ chọn sẽ được điền vào lời nhắc mà Imagen nhận được.
Ví dụ:
Lời nhắc: A minimalist logo for a health care company on a solid color background. Include the text Journey.
Lời nhắc: A modern logo for a software company on a solid color background. Include the text Silo.
Lời nhắc: A traditional logo for a baking company on a solid color background. Include the text Seed.
Hãy sử dụng các ví dụ sau để tạo câu lệnh cụ thể hơn dựa trên các thuộc tính như nội dung mô tả nhiếp ảnh, hình dạng và chất liệu, phong trào nghệ thuật trong quá khứ và đối tượng sửa đổi chất lượng hình ảnh.
Để sử dụng kiểu này, hãy bắt đầu bằng cách sử dụng các từ khoá cho Imagen biết rõ rằng bạn đang tìm kiếm một bức ảnh. Bắt đầu câu lệnh bằng "Một bức ảnh về. . .". Ví dụ:
Nguồn hình ảnh: Mỗi hình ảnh được tạo bằng cách sử dụng câu lệnh dạng văn bản tương ứng với mô hình Imagen 3.
Trong các ví dụ sau, bạn có thể thấy một số đối tượng sửa đổi và tham số dành riêng cho nhiếp ảnh. Bạn có thể kết hợp nhiều đối tượng sửa đổi để kiểm soát chính xác hơn.
Khoảng cách chụp - Cận cảnh, chụp từ xa
Vị trí máy ảnh - từ trên cao, từ dưới lên
Ánh sáng - tự nhiên, ấn tượng, ấm áp, lạnh
Cài đặt máy ảnh - làm mờ chuyển động, lấy nét mềm, hiệu ứng bokeh, chân dung
Loại ống kính - 35mm, 50mm, mắt cá, góc rộng, macro
Loại phim - đen trắng, polaroid
Nguồn hình ảnh: Mỗi hình ảnh được tạo bằng cách sử dụng câu lệnh dạng văn bản tương ứng với mô hình Imagen 3.
Phong cách nghệ thuật rất đa dạng, từ phong cách đơn sắc như bản phác thảo bằng bút chì đến nghệ thuật số siêu thực tế. Ví dụ: các hình ảnh sau đây sử dụng cùng một câu lệnh với nhiều kiểu khác nhau:
"Một [art style or creation technique] của một chiếc sedan điện thể thao góc cạnh với các tòa nhà chọc trời ở hậu cảnh"
Nguồn hình ảnh: Mỗi hình ảnh được tạo bằng cách sử dụng câu lệnh dạng văn bản tương ứng với mô hình Imagen 2.
Một trong những điểm mạnh của công nghệ này là bạn có thể tạo hình ảnh mà nếu không thì rất khó hoặc không thể tạo được. Ví dụ: bạn có thể tạo lại biểu trưng công ty của mình bằng nhiều chất liệu và hoạ tiết.
Nguồn hình ảnh: Mỗi hình ảnh được tạo bằng cách sử dụng câu lệnh dạng văn bản tương ứng với mô hình Imagen 3.
Một số kiểu đã trở thành biểu tượng qua nhiều năm. Sau đây là một số ý tưởng về phong cách hội họa hoặc nghệ thuật lịch sử mà bạn có thể thử.
"tạo hình ảnh theo kiểu [art period or movement] : trang trại gió"
Nguồn hình ảnh: Mỗi hình ảnh được tạo bằng cách sử dụng câu lệnh dạng văn bản tương ứng với mô hình Imagen 3.
Một số từ khoá nhất định có thể cho mô hình biết rằng bạn đang tìm kiếm một thành phần chất lượng cao. Sau đây là một số ví dụ về đối tượng sửa đổi chất lượng:
Sau đây là một số ví dụ về lời nhắc không có đối tượng sửa đổi chất lượng và cùng một lời nhắc có đối tượng sửa đổi chất lượng.
Nguồn hình ảnh: Mỗi hình ảnh được tạo bằng cách sử dụng câu lệnh dạng văn bản tương ứng với mô hình Imagen 3.
Tính năng tạo hình ảnh bằng Imagen 3 cho phép bạn đặt 5 tỷ lệ khung hình hình ảnh riêng biệt.
Toàn màn hình (4:3) - Tỷ lệ khung hình này thường được dùng trong nội dung nghe nhìn hoặc phim. Đây cũng là kích thước của hầu hết TV cũ (không phải màn hình rộng) và máy ảnh định dạng trung bình. Tỷ lệ này giúp chụp được nhiều cảnh hơn theo chiều ngang (so với tỷ lệ 1:1), nên đây là tỷ lệ khung hình ưu tiên cho việc chụp ảnh.
Toàn màn hình dọc (3:4) - Đây là tỷ lệ khung hình toàn màn hình được xoay 90 độ. Điều này giúp bạn chụp được nhiều cảnh hơn theo chiều dọc so với tỷ lệ khung hình 1:1.
Màn hình rộng (16:9) - Tỷ lệ này đã thay thế tỷ lệ 4:3 và hiện là tỷ lệ khung hình phổ biến nhất cho TV, màn hình và màn hình điện thoại di động (ngang). Sử dụng tỷ lệ khung hình này khi bạn muốn chụp nhiều cảnh nền hơn (ví dụ: phong cảnh).
Dọc (9:16) - Tỷ lệ này là màn hình rộng nhưng được xoay. Đây là một tỷ lệ khung hình tương đối mới, được các ứng dụng video ngắn phổ biến (ví dụ: YouTube Shorts) sử dụng. Sử dụng chế độ này cho các đối tượng cao có hướng dọc rõ ràng, chẳng hạn như toà nhà, cây cối, thác nước hoặc các đối tượng tương tự khác.
Các phiên bản khác nhau của mô hình tạo hình ảnh có thể cung cấp kết quả kết hợp giữa nghệ thuật và ảnh chân thực. Sử dụng các từ sau trong câu lệnh để tạo ra kết quả chân thực hơn, dựa trên chủ thể mà bạn muốn tạo.
Lưu ý: Hãy xem những từ khoá này là hướng dẫn chung khi bạn cố gắng tạo hình ảnh chân thực. Bạn không bắt buộc phải sử dụng các chiến dịch này để đạt được mục tiêu. Trường hợp sử dụng Loại ống kính Tiêu cự Thông tin chi tiết khác Người (ảnh chân dung) Chế độ chính, thu phóng 24-35mm phim đen trắng, phim đen, độ sâu trường ảnh, hai tông màu (nhắc đến hai màu) Thức ăn, côn trùng, thực vật (đối tượng, tĩnh vật) Macro 60-105mm Độ chi tiết cao, lấy nét chính xác, ánh sáng được kiểm soát Thể thao, động vật hoang dã (ảnh động) Thu phóng tele 100-400mm Tốc độ màn trập nhanh, Theo dõi chuyển động hoặc hành động Thiên văn, ngang (góc rộng) Ống kính góc rộng 10-24mm Thời gian phơi sáng lâu, tiêu điểm sắc nét, phơi sáng lâu, nước hoặc mây mượtBằng cách sử dụng một số từ khoá trong bảng, Imagen có thể tạo ra các bức chân dung sau:
Câu lệnh: Một người phụ nữ, ảnh chân dung 35mm, hai tông màu xanh dương và xám Mẫu: imagen-3.0-generate-002
Câu lệnh: Một người phụ nữ, chân dung 35mm, phim đen Mẫu: imagen-3.0-generate-002
Bằng cách sử dụng một số từ khoá trong bảng, Imagen có thể tạo các hình ảnh đối tượng sau:
Lời nhắc: lá cây cầu nguyện, ống kính macro, 60mm Mẫu: imagen-3.0-generate-002
Lời nhắc: một đĩa mì ống, ống kính Macro 100mm Mẫu: imagen-3.0-generate-002
Bằng cách sử dụng một số từ khoá trong bảng, Imagen có thể tạo các ảnh động sau:
Lời nhắc: một cú chạm bóng thắng lợi, tốc độ chụp nhanh, theo dõi chuyển động Mô hình: imagen-3.0-generate-002
Câu lệnh: Một con nai đang chạy trong rừng, tốc độ màn trập nhanh, theo dõi chuyển động Mô hình: imagen-3.0-generate-002
Bằng cách sử dụng một số từ khoá trong bảng, Imagen có thể tạo ra các hình ảnh góc rộng sau:
Lời nhắc: một dãy núi rộng lớn, góc rộng 10mm theo chiều ngang Mô hình: imagen-3.0-generate-002
Câu lệnh: ảnh mặt trăng, ảnh thiên văn, góc rộng 10mm Mẫu: imagen-3.0-generate-002
Link nội dung: https://stt.edu.vn/tao-hinh-anh-a80542.html