Google Memperkenalkan TW-BERT
10 August 2023
Google research paper memperkenalkan TW-BERT yang disebut akan meningkatkan kinerja search ranking.
Gambar: Research Google
Google mengumumkan framework untuk meningkatkan kinerja search ranking terbaru bernama Term Weighting BERT (TW-BERT). Nantinya ini akan meningkatkan hasil pencarian dan mudah diterapkan dalam sistem peringkat yang sudah ada.
Meskipun Google belum mengonfirmasi penggunaan TW-BERT, framework baru ini adalah terobosan dalam meningkatkan proses peringkat secara menyeluruh, termasuk dalam ekspansi kueri. Selain itu, penerapannya yang mudah membuat kemungkinan penggunaannya lebih tinggi.
Apa Itu TW-BERT?
TW-BERT adalah kerangka peringkat yang memberikan skor (disebut bobot) pada kata-kata dalam kueri pencarian untuk lebih akurat menentukan dokumen-dokumen yang relevan untuk kueri pencarian tersebut.
TW-BERT juga berguna dalam Ekspansi Kueri. Ekspansi Kueri adalah proses mengubah ulang kueri pencarian atau menambahkan lebih banyak kata agar lebih cocok dengan dokumen-dokumen pencarian.
Menambahkan skor pada kueri membantu menentukan dengan lebih baik apa yang dimaksudkan oleh kueri tersebut.
TW-BERT Menyatukan Dua Paradigma Pengambilan Informasi
Research paper tersebut membahas dua metode pencarian yang berbeda. Satu berbasis statistik dan yang lainnya adalah model pembelajaran mendalam.
Makalah tersebut mendiskusikan manfaat dan kelemahan dari kedua metode ini dan mengusulkan bahwa TW-BERT adalah cara untuk menyatukan kedua pendekatan ini tanpa mengalami kekurangan dari keduanya.
Mereka menulis:
"Metode pengambilan berbasis statistik ini memberikan pencarian yang efisien yang berskala dengan ukuran korpus dan menggeneralisasi ke domain-domain baru.
Namun, istilah-istilah tersebut diberi bobot secara independen dan tidak mempertimbangkan konteks dari seluruh kueri."
Para peneliti kemudian mencatat bahwa model pembelajaran mendalam dapat memahami konteks dari kueri pencarian.
Dijelaskan:
"Untuk masalah ini, model pembelajaran mendalam dapat melakukan kontekstualisasi terhadap kueri untuk memberikan representasi yang lebih baik bagi istilah-istilah individu."
Apa yang diusulkan oleh para peneliti adalah penggunaan TW-Bert untuk menyatukan kedua metode ini.
Terobosan ini dijelaskan:
"Kami menyatukan kedua paradigma ini untuk menentukan istilah-istilah pencarian yang paling relevan atau tidak relevan dalam kueri...
Kemudian istilah-istilah ini dapat diberi bobot lebih tinggi atau lebih rendah untuk memungkinkan sistem pengambilan kami menghasilkan hasil yang lebih relevan."
Contoh TW-BERT
Contoh kueri pencarian, "sepatu lari Nike."
Secara sederhana, kata-kata "sepatu lari Nike" adalah tiga kata dan algoritma harus mengerti dengan cara yang diinginkan oleh pencari.
Mereka menjelaskan bahwa menekankan bagian "lari" dari kueri akan menampilkan hasil pencarian yang tidak relevan yang berisi merek selain Nike.
Dalam contoh tersebut, nama merek Nike penting dan karena itu proses peringkat harus memerlukan bahwa halaman web kandidat mengandung kata Nike di dalamnya.
Halaman web kandidat adalah halaman yang dipertimbangkan untuk hasil pencarian.
Apa yang dilakukan oleh TW-BERT adalah memberikan skor (disebut bobot) untuk setiap bagian dari kueri pencarian sehingga kueri tersebut memiliki arti yang sama seperti orang yang memasukkan kueri pencarian tersebut.
Dalam contoh ini, kata Nike dianggap penting, sehingga harus diberikan skor yang lebih tinggi (bobot).
Para peneliti menulis:
"Oleh karena itu, tantangannya adalah kami harus memastikan bahwa 'Nike' diberi bobot yang cukup tinggi sambil tetap memberikan sepatu lari dalam hasil yang dikembalikan."
Tantangan lainnya adalah untuk memahami konteks dari kata-kata "lari" dan "sepatu," yang berarti bobotnya harus lebih tinggi untuk menggabungkan dua kata tersebut sebagai frasa "sepatu lari," daripada memberi bobot kepada dua kata tersebut secara independen.
Masalah ini dan solusinya dijelaskan:
"Aspek kedua adalah bagaimana memanfaatkan istilah n-gram yang lebih bermakna selama skoring.
Dalam kueri kami, istilah 'lari' dan 'sepatu' diberikan penanganan secara independen, yang sama cocoknya dengan 'kaos lari' atau 'sepatu skate'.
Dalam kasus ini, kami ingin mengambil kami bekerja pada tingkat istilah n-gram untuk menunjukkan bahwa 'sepatu lari' harus diberi bobot lebih tinggi saat skoring."
Memecahkan Batasan dalam Kerangka Kerja Saat Ini
Research paper Google merangkum bobot tradisional sebagai terbatas dalam variasi kueri dan menyebutkan bahwa metode pembobotan berbasis statistik tersebut kurang berhasil untuk skenario zero-shot.
zero-shot adalah referensi terhadap kemampuan suatu model untuk memecahkan masalah yang belum dilatih.
Ada juga ringkasan tentang batasan-batasan yang ada dalam metode-metode saat ini dari perluasan istilah.
Perluasan istilah adalah ketika sinonim digunakan untuk menemukan lebih banyak jawaban untuk kueri pencarian atau ketika kata lain diartikan.
Contohnya, ketika seseorang mencari "sop ayam," diartikan sebagai "resep sop ayam."
Mereka menulis tentang kelemahan metode saat ini:
"... fungsi skoring tambahan ini tidak memperhitungkan langkah-langkah pembobotan tambahan yang dilakukan oleh fungsi-fungsi skoring yang digunakan dalam mengambil yang sudah ada, seperti statistik kueri, statistik dokumen, dan nilai hyperparameter.
Ini dapat mengubah distribusi awal bobot istilah yang ditugaskan selama skoring akhir dan pengambilan."
Selanjutnya, para peneliti menyatakan bahwa pembelajaran mendalam memiliki kendala sendiri dalam bentuk kompleksitas untuk menerapkannya dan perilaku yang tidak dapat diprediksi ketika mereka menghadapi area-area baru yang tidak terlatih sebelumnya.
Inilah saatnya TW-BERT masuk ke dalam gambar.
TW-BERT Menyatukan Dua Pendekatan
Solusi yang diusulkan mirip dengan pendekatan hibrida. Dalam kutipan berikut, istilah IR berarti Information Retrieval (Pengambilan Informasi).
Mereka menulis:
"Untuk menjembatani kesenjangan, kami memanfaatkan ketangguhan pengambil leksikal yang sudah ada dengan representasi teks kontekstual yang diberikan oleh model-model mendalam.
Pengambil leksikal memberikan kemampuan untuk memberikan bobot pada istilah n-gram kueri saat melakukan pengambilan.
Kami memanfaatkan model bahasa pada tahap ini dari pipeline untuk memberikan bobot yang sesuai pada istilah n-gram kueri.
Term Weighting BERT (TW-BERT) ini dioptimalkan end-to-end menggunakan fungsi-fungsi skoring yang sama yang digunakan dalam pipeline pengambilan untuk memastikan konsistensi antara pelatihan dan pengambilan.
Ini menghasilkan perbaikan pengambilan ketika menggunakan bobot istilah yang dihasilkan oleh TW-BERT sambil tetap menjaga infrastruktur IR mirip dengan mitra produksinya yang sudah ada."
Algoritma TW-BERT memberikan bobot pada kueri untuk memberikan skor relevansi yang lebih akurat yang kemudian bisa digunakan oleh proses ranking yang lain.
TW-BERT Mudah Diterapkan
Salah satu keuntungan dari TW-BERT adalah bisa dimasukkan langsung ke dalam proses ranking pengambilan informasi yang sudah ada, seperti komponen yang bisa ditempelkan.
"Ini memungkinkan kami untuk langsung menerapkan bobot istilah kami dalam sistem IR selama pengambilan.
Ini berbeda dari metode pembobotan sebelumnya yang perlu menyetel lebih lanjut parameter retriever untuk mendapatkan kinerja pengambilan optimal karena mereka mengoptimalkan bobot istilah yang diperoleh oleh heuristik alih-alih mengoptimalkan end-to-end."
Yang penting dari kemudahan penerapannya adalah bahwa tidak memerlukan perangkat lunak khusus atau pembaruan perangkat keras untuk menambahkan TW-BERT ke dalam proses ranking algoritma.
Apakah Google Menggunakan TW-BERT dalam Ranking Algoritma Mereka?
Seperti yang disebutkan sebelumnya, penerapan TW-BERT relatif mudah.
Ini berarti Google bisa menambahkan TW-BERT ke dalam bagian peringkat dari algoritma tanpa harus melakukan pembaruan inti skala penuh.
Selain dari kemudahan penerapan, kualitas lain yang bisa dilihat untuk menebak apakah suatu algoritma bisa digunakan adalah seberapa sukses algoritma tersebut dalam meningkatkan hasil pencarian saat ini.
Ada banyak makalah penelitian yang hanya memiliki kesuksesan terbatas atau tidak ada perbaikan sama sekali. Algoritma-algoritma tersebut menarik, tetapi masuk akal untuk mengasumsikan bahwa mereka tidak akan dimasukkan ke dalam algoritma Google.
Tapi perlu diingat karena TW-BERT sangat mudah dan sukses. Terutama untuk memasukkannya ke dalam ranking algoritma yang sudah ada dan bahwa kinerjanya sebanding dengan "pembuat peringkat neural padat."
Para peneliti menjelaskan bagaimana TW-BERT meningkatkan sistem peringkat saat ini:
"Dengan menggunakan kerangka pengambil ini, kami menunjukkan bahwa metode pembobotan istilah kami lebih unggul daripada strategi pembobotan istilah dasar untuk tugas-tugas dalam domain.
Dalam tugas-tugas di luar domain, TW-BERT lebih baik daripada strategi pembobotan dasar serta pembuat peringkat neural padat.
Kami juga menunjukkan kegunaan model kami dengan mengintegrasikannya dengan model ekspansi kueri yang sudah ada, yang meningkatkan kinerja dibandingkan dengan pencarian standar dan pengambilan padat dalam kasus zero-shot.
Ini memotivasi bahwa TW-BERT dapat memberikan perbaikan pada sistem pengambilan yang sudah ada dengan friksi onboarding minimal."
Jadi, ini adalah dua alasan bagus mengapa TW-BERT mungkin sudah menjadi bagian dari algoritma peringkat Google.
Jika Google telah menerapkan TW-BERT, maka bisa menjelaskan fluktuasi ranking yang dilaporkan oleh tools SEO dan komunitas SEO selama sebulan terakhir.
Secara umum, Google hanya mengumumkan beberapa perubahan peringkat, terutama ketika mereka menyebabkan efek yang mencolok, seperti ketika Google mengumumkan algoritma BERT.
Dalam ketiadaan konfirmasi resmi, kita hanya bisa berspekulasi tentang kemungkinan bahwa TW-BERT adalah bagian dari algoritma ranking Google.
Namun demikian, TW-BERT adalah kerangka yang tampaknya meningkatkan akurasi sistem pengambilan informasi dan mungkin sudah digunakan oleh Google.
Baca Research Paper-nya di sini: