Pengenalan terhadap Large Language Modelling atau LLM


Pengenalan terhadap Large Language Modelling atau LLM

Pengenalan Large Language Modelling (LLM)

Large Language Modelling (LLM) merupakan sebuah model deep learning pre-trained atau sudah dilakukan proses training menggunakan data teks dengan size yang cukup besar. Transformer yang ada di dalam LLM dibentuk dengan menggunakan Neural Network, sehingga dapat diibaratkan sebagai jaringan saraf yang ada pada otak manusia. Adapun fungsi encoder dan decoder, yang digunakan untuk mendeteksi perubahan pada sebuah teks. sehingga membantu kita dalam memahami hubungan antar kata maupun frasa yang ada di dalam suatu kalimat.

Transformers berbeda dengan model Recurrent Neural Network (RNN) dikarenakan mereka mampu memproses urutan data secara paralel. Sehingga Data Scientist perlu menggunakan GPU untuk melakukan proses training LLM berbasis transformer dengan tujuan agar mempercepat proses training pada model tersebut.

 

Cara Kerja Large Language Model (LLM)

Semua berawal dari tabel numerik yang digunakan untuk merepresentasikan setiap kata. Namun awal yang baik ini memiliki kekurangannya, yaitu mengenali hubungan antar kata. Misalnya, kata-kata yang memiliki arti yang mirip. Permasalahan tersebut dapat teratasi dengan menggunakan multidimensional vector atau disebut sebagai word embbeddings yang berguna untuk merepresentasikan kata-kata dengan makna yang sama.

Transformer menggunakan word embeddings untuk mengubah teks menjadi bentuk numerik melalui decoder dalam memahami konteks suatu frasa atau kata yang ada di dalam teks. Process decoder pada LLM mampu menghasilkan suatu output yang bersifat unique.

 

Proses Training pada Large Language Modelling (LLM)

Neural Network berbasis Transformer memiliki ukuran yang sangat besar, terdiri dari banyak node dan layer. Setiap node dalam sebuah layer terhubung dengan semua node di layer berikutnya, pada word embeddings tersebut juga diterapkan weight dan biasnya pada parameternya. Neural Network berbasis Transformer yang besar dapat memiliki miliaran parameter. Ukuran besar atau kecil dari model LLM dapat ditentukan oleh hubungan empiris antara ukuran model, jumlah parameter, dan ukuran data trainingnya.

Proses Training dilakukan menggunakan kumpulan data yang besar. Selama proses training, model secara iteratif menyesuaikan nilai parameternya hingga model tersebut dapat memprediksi token berikutnya dari urutan token input sebelumnya dengan benar. Proses training ini dilakukan melalui metode self-learning yang berguna untuk menyesuaikan parameter dalam memaksimalkan probabilitas token berikutnya.

Setelah proses training dilakukan, Model LLM dapat beradaptasi dan menyesuaikan kumpulan task menggunakan kumpulan data supervised dengan ukuran yang relatif kecil, proses tersebut dikenal sebagai fine-tuning.
 

Aplikasi dari Large Language Modelling (LLM)

Ada beberapa aplikasi berbasis Large Language Modelling, Diantaranya adalah:

Copywriting

Ada beberapa aplikasi yang mampu melakukan Copywriting selain GPT-3 dan ChatGPT , diantaranya seperti Claude, Llama 2, dan Cohere Command, yang berguna dalam membantu dalam membuat perubahan pada kalimat asli untuk meningkatkan gaya dan suara.

Text Classification

LLM dapat mengklasifikasikan teks dengan makna atau sentimen serupa. Penggunaannya meliputi mengukur sentimen pelanggan, menentukan hubungan antar teks, dan pencarian dokumen.

Code Generation

LLM mahir dalam menulis code berdasarkan prompt. Contohnya adalah Codex CodeWhisperer dari Amazon dan Open AI yang digunakan dalam GitHub Copilot, yang dapat menulis code dalam bahasa pemrograman seperti Python, JavaScript, Ruby, dan beberapa lainnya. Aplikasi pengkodean lainnya termasuk membuat query SQL, menulis perintah shell, dan desain situs web.