Open AI: Magical DALL-E. Penghasil gambar dari teks.

Sebuah sistem dari Open AI yang dapat menghasilkan gambar dari tulisan bernama DALL-E [1]. Sistem ini merupakan campuran dari seorang seniman Salvador Dali dan WALL-E. Sistem ini sangat mahir dalam bidang seni, salah satunya adalah ilustrasi. Peneliti AI menyebut kapabilitas luas semacam ini sebagai generalisasi, yang berarti algoritme tidak secara khusus ditujukan untuk satu jenis tugas atau gaya seni.

DALL-E mampu menghasilkan sebuah gambar dari teks yang mendeskripsikan sesuatu. Dengan parameter GPT-3 sebesar 12 miliar yang sanggup membuat versi hewan dan objek yang antropomorfis, menggabungkan konsep yang tidak terkait dengan cara yang masuk akal, merender teks, dan menerapkan transformasi ke gambar yang ada.

Menurut AI, mereka menemukan DALL-E mampu membuat gambar yang masuk akal untuk berbagai variasi kalimat. Mereka juga mengilustrasikannya dengan menggunakan serangkaian visual interaktif.  Selain itu, mereka menguji kemampuan DALL-E untuk pemosisian relatif, menumpuk objek, dan mengontrol beberapa atribut.

Dengan menggunakan 12 miliar parameter sebagai tombol kontrol yang diputar oleh algoritma yang sengaja dibuat untuk bisa melakukan penyesuaian dalam memahami ide. Algoritma ini belajar menganalisa gambar dan tulisan, maka pada saat diberi keterangan yang menggambarkan sesuatu. Ia akan menerjemahkannya hingga 256 token, sedang untuk gambar sampai 1.024 token. Hal ini cukup untuk algoritma mencocokkan input tulisan ke gambar yang lebih rumit.

Baca Juga:  Pelihara ular bisa berpenghasilan dua digit. Jobseeker wajib nyoba!

Misalnya pada ilustrasi hewan, seperti “Jerapah yang berwujud kura-kura”

from Open AI

atau “Penguin yang memakai topi biru, sarung tangan merah, baju hijau, dan celana kuning” seperti ini:

from Open AI

Namun, untuk para jomblo tidak perlu mencoba-coba sistem tersebut dengan harapan bisa melihat jodohmu hanya melalui deskripsi teks yang kemudian berubah menjadi gambar, seperti “Lelaki berpakaian kemeja flannel orange hitam dan celana hitam”. Karena hasilnya akan seperti ini:

from Open AI

Dan ini versi perempuannya, seperti “Perempuan memakai jaket kulit hitam dan rok berwarna gold”:

from Open AI

Open AI bergerak cepat dalam mengembangkan sebuah sistem, salah satunya ini. Namun ternyata sistem ini bukanlah upaya pertama kalinya Open AI, masih ada beberapa perusahaan yang mencoba pembuatan gambar dari teks seperti ini. Jadi, sistem ini merupakan versi terbaru. Dikutip dari Open AI sendiri, ada satu makalah penelitian generasi teks ke gambar, yaitu dari University of Michigan dan Max Planck Institute dengan menggunakan jaringan adversarial generatif atau GAN (Generative Adversarial Networks) [2] untuk menghasilkan sebuah gambar. GAN ini berfungsi menautkan algoritma satu sama lain. Artinya ketika satu menghasilkan gambar, maka yang lain menolak gambar jika tidak terlihat cukup jelas.

Baca Juga:  My AI Friend: Meski tak berperasaan, kita takkan kesepian

Mirip dengan pengambilan sampel penolakan yang digunakan di VQVAE-2[3], Open AI menggunakan CLIP untuk mengurutkan ulang 32 teratas dari 512 sampel untuk setiap teks di semua visual interaktif. Prosedur ini juga dapat dilihat sebagai jenis pencarian dengan panduan 16 bahasa, dan dapat berdampak besar pada kualitas sampel.

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button