Bongkar Pakai Video, yang Belum Paham Cara Kerja GPT3, Mari Merapat!
Secara umum GPT3 adalah language modeling yang terlatih dalam mengolah dan menghasilkan teks.
Dalam prakteknya, kita dapat memberikan beberapa teks sebagai input, yang akan memengaruhi output hasil dari GPT3.
Output dihasilkan dari apa yang "telah dipelajari" oleh GPT3 selama jangka waktu uji coba saat memindai teks dalam jumlah besar.
Uji coba adalah proses mengekspos model ke dalam banyak teks. Itu telah dilakukan sekaligus, yang dapat anda lihat dengan mencoba langsung semua eksperimen yang dapat dicoba berasal dari satu model terlatih. Diperkirakan telah menelan biaya untuk 355 GPU sebesar 4,6 juta USD.
Kumpulan data sebanyak 300 miliar teks digunakan untuk menghasilkan contoh uji coba bagi model tersebut. Misalnya, ini adalah tiga contoh uji coba yang dihasilkan dari satu kalimat di atas.
Anda dapat melihat bagaimana anda dapat menggeser tab pada semua teks dengan membuat juga begitu banyak contoh.
Model disajikan pasti dengan contoh yang telah disesuaikan. Kami hanya menampilkan fitur-fiturnya dan memintanya untuk memprediksi kata berikutnya dari input yang anda masukan.
Prediksi model tentu bisa salah. Kami menghitung kesalahan dalam prediksinya dan memperbarui lagi model sehingga lain kali membuat prediksi yang lebih baik.
Hal tersebut terjadi berulang jutaan kali.
Sekarang mari kita lihat langkah-langkah yang sama dengan sedikit lebih detail.
GPT3 sebenarnya menghasilkan output satu token pada satu waktu (anggap saja token adalah "kata" untuk saat ini).
Harap dicatat: Ini adalah deskripsi tentang cara kerja GPT-3 dan bukan diskusi tentang apa yang baru tentangnya (terutama dalam skala yang sangat besar).
GPT3 adalah ide yang sangat luas dan megah. GPT3 mengkodekan apa yang dipelajari dari uji coba dalam 175 miliar angka (kita sebut sebagai parameter). Angka-angka ini digunakan untuk menghitung token mana yang dihasilkan pada setiap proses.
Model yang belum terlatih akan memulai dengan parameter acak. Uji coba akan menemukan nilai yang mengarah pada prediksi yang lebih baik pada awalnya.
Angka-angka ini adalah bagian dari ratusan matriks di dalam sebuah model. Prediksi sebagian besar dalam bentuk banyak perkalian matriks.
Untuk menjelaskan bagaimana parameter ini didistribusikan dan digunakan, kita perlu mengeksplor model dan melihat lebih jauh didalamnya.
GPT3 memiliki kemampuan untuk menyimpan 2048 token berkelipatan. Kita menyebutnya sebagai "context window". Yang berarti memiliki 2048 trek di mana token diproses.
Ayo ikuti jalur berwarna ungu. Bagaimana sistem memproses kata "robotika" dan menghasilkan "A"?
Proses tingkat lanjut:
1. Ubah kata menjadi vektor (daftar angka) yang mewakili kata.
2. Hitung prediksi.
3. Ubah vektor yang dihasilkan menjadi kata.
LUAR BIASA menyadari GPT3 bisa menggunakan vektor embedding berukuran 12.288. Ekstrapolasi dari bagaimana d_model dan d_embd sama melewati GPT2. Mustahilkah?
Perhitungan krusial GPT3 terjadi di dalam tumpukan 96 lapisan dekoder transformator.
Lihat semua lapisan ini? Inilah "kedalaman" dalam "pembelajaran mendalam".
Masing-masing lapisan ini memiliki parameter 1,8B sendiri untuk membuat perhitungannya.
Posting Komentar untuk "Bongkar Pakai Video, yang Belum Paham Cara Kerja GPT3, Mari Merapat!"