Potensi DALL-E 3 & ChatGPT Menghasilkan Cerita Bergambar

DALL-E 3 dari OpenAI diklaim memiliki kelebihan di kemampuan kontrol terhadap gambar hasil generatif AI dibandingkan dengan model generatif AI sejenis seperti Midjourney.

Model AI modern untuk teks ke gambar cenderung mengabaikan kata-kata atau deskripsi, memaksa pengguna untuk mempelajari teknik prompt ¹. Dengan memakai DALL-E 3 ini akan mempercepat kemampuan kita untuk menghasilkan gambar yang benar-benar sesuai dengan teks yang diberikan.

gambar contoh dari web OpenAI tentang gambar hasil dari DALL-E 3

Studi Prompt

Kita akan melihat beberapa contoh macam prompt yang akan dimasukkan ke dalam ChatGPT dengan DALL-E 3 enabled.

Prompt “Siswa Intern di CERN”

Ilustrasi dalam gaya Komik Manga, menampilkan dua siswa Indonesia yang antusias di CERN. Mereka berjalan dengan percaya diri melewati mesin-mesin berteknologi tinggi, dengan salah satu siswa menunjuk ke peralatan mengesankan tersebut. Kedua siswa memiliki kaos yang bertuliskan ‘UNPAID’. Di sekitar mereka, para profesional lain tampak terkesan dengan dedikasi siswa-siswa tersebut. Seluruh atmosfer terasa elektrik dengan semangat belajar dan penemuan. Rasio 16:9

Perintah diatas menginginkan supaya DALL-E 3 di ChatGPT menggambarkan situasi sesuai dengan deskripsi dan dengan gaya komik seperti manga serta hasil gambar ber-rasio 16:9

Berikut hasil generatif AI dari prompt tersebut:

hasil generasi dall-e 3

Kalau dilihat hasilnya, seperti kebanyakan hasil model AI untuk teks ke gambar, DALL-E 3 juga memberikan gambar bervariasi dengan default sebanyak empat gambar. Kalau diinginkan satu gambar ataupun gaya komik tertentu maka harus secara eksplisit dicantumkan di prompt!

Mari kita bedah sedikit gambar hasil dari generatif AI memakai ChatGPT dan DALL-E 3:

bedah gambar

Dari gambar diatas terlihat bahwa gambar yang dihasilkan memang sesuai dengan prompt yang kita inginkan. Yang menarik adalah meskipun prompt dalam Bahasa Indonesia tetapi oleh ChatGPT akan ditranslasikan ke dalam Bahasa Inggris dan jika prompt memang cukup detail maka ChatGPT tidak akan banyak merubah isi prompt aslinya .

In a Manga comic style, two proud Indonesian students walk within CERN. The advanced technological machines surround them, and one student gestures towards a particularly fascinating device. Their shirts distinctly display ‘UNPAID’ and the Indonesian flag. Other scientists and professionals nearby seem to admire the students’ passion. The scene is filled with an electrifying vibe of innovation and knowledge.

Bisa dikatakan kalau ChatGPT adalah middlemen atau lebih tepatnya asisten pintar yang menjembatani antara kita dan DALL-E 3. Ada banyak hal yang bisa kita minta dan tergantung dengan imajinasi kita sebagai manusia, karena AI seperti ini hanya jembatan dan tool akselerasi.

Merubah Gaya Gambar

Mari kita rubah salah satu gambar menjadi gaya komik tertentu dengan memberikan perintah kepada ChatGPT

Rubah gambar komik nomer dua di atas menjadi gaya komik di Indonesia pada tahun 80an hitam putih

gaya gambar 80an

ChatGPT dengan pintar akan mengartikan perintah kita dengan mengambil prompt dari gamber ke 2 dan kemudian menyisipkan tambahan perintah untuk menghasilkan gaya komik yang baru. Kalau dilihat hasil prompt dari gambar tersebut adalah:

Illustration in the style of 1980s black and white Indonesian comics, depicting two proud Indonesian students walking within CERN. The advanced technological machines surround them, and one student gestures towards a particularly fascinating device. Their shirts distinctly display ‘UNPAID’ and the Indonesian flag. Other scientists and professionals nearby seem to admire the students’ passion. The scene conveys an electrifying vibe of innovation and knowledge.

Tambahan penting disini adalah kata-kata:

Illustration in the style of 1980s black and white

Yang perlu menjadi catatan adalaha bahwa saat ini ChatGPT belum bisa mempertahankan tiap elemen dari gambar sama persis dari gambar sebelumnya. Konsekuensinya adalah kita akan susah untuk membuat gambar dengan karakter yang konsisten.

Menambah Elemen Gambar

Selanjutnya kita bisa menambahkan elemen pada gambar, misalnya kita masukkan prompt berikut:

tambahkan ayam cemani yang berjalan bersama dua siswa Indonesia tersebut

menambah teman

atau misalnya jika dirasa agak absurd membawa ayam di CERN maka bisa kita ganti dengan teddy bear yang lucu 😄

suka teddy bear

Potensi Generatif

Ada banyak potensi yang bisa timbul dengan adanya ChatGPT yang bekerja bersama dengan DALL-E 3. Kemampuannya dalam generatif gambar dari sumber informasi yang luas ataupun prompt yang spesifik dan kemudahan dalam merubah gambar tersebut, jika diinginkan, yaitu hanya dengan memberikan beberapa kata-kata perubahan.

Salah satu yang pernah saya kerjakan adalah menggunakannya untuk cerita bergambar yang menggambarkan cerita penokohan dan pembuatan komik dengan dialog.

komik ritual

prompt adalah sebuah pertanyaan, perintah, atau pernyataan yang Anda masukkan ke dalam model AI untuk memulai respons atau tindakan, dengan memanfaatkan kekuatan pengolahan bahasa alami (bahasa yang dipakai sehari-hari). ↩