Wednesday, July 27, 2022

Dapatan Semula Maklumat Bahasa Melayu Menggunakan Pengindeksan Semantik Terpendam

.

Jurnal Antarabangsa (Teknologi Maklutnat) 3(2002): 1-10

Dapatan Semula Maklumat Bahasa Melayu Menggunakan

Pengindeksan Semantik Terpendam

MUHAMAD TAUFIK ABDULLAH. FATIMAH AHMAD,

RAMLAN MAHMOD & TENGKU MOHAMMED TENGKU SEMBOK

ABSTRAK

Pengindeksan semantik terpendam ialah satu varian daripada kaedah ruang

vektor iaitu satu anggaran pangkat-rendah kepada perwakilan ruang vektor

untuk pangkalan data digunakan. Idea utama dalam model pengindeksan

semantik terpendam adalah untuk memetakan setiap vektor dokumen dan

pertanyaan ke dalam satu ruang berdimensi lebih rendah yang berkaitan

dengan konsep-konsep. Ini dilaksanakan dengan memetakan vektor-vektor

istilah indeks ke dalam ruang berdimensi lebih rendah tersebut. Dakwaannya,

capaian di dalam ruang yang dikecilkan mungkin lebih baik daripada

capaian di dalam ruang istilah-istilah indeks. Dalam makalah ini, sebagai

tambahan kepada kaedah ruang vektor, kaedah pengindeksan semantik

terpendam digunakan untuk membina sistem dapatan semula maklumat

bahasa Melayu.

Kata Kunci: dapatan semula maklumat bahasa Melayu, pengindeksan semantik

terpendam, dapatan semula maklumat, kaedah ruang vektor.

ABSTRACT

Latent semantic indexing is a variant of the vector space method in which a

low-rank approximation to the vector space representation of the database is

employed. The main idea in latent semantic indexing model is to map each

document and query vector into a lower dimensional space which is associated

with concepts. This is accomplished by mapping the index term vectors into

this lower dimensional space. The claim is that retrieval in the reduced space

may be superior to retrieval in the space of index terms. In this paper, in

addition to vector space method, latent semantic indexing method is applied

to develop Malay language information retrieval system.

Keywords: Malay language information retrieval, latent semantic indexing,

information retrieval, vector space method.

PENGENALAN

Dapatan semuia maklumat (IR) melibatkan perwakilan, simpanan, organisasi

dan capaian item maklumat. IR mempunyai paradigma seperti berikut:

pengguna ingin mendapatkan dokumen tentang tajuk tertentu; pengguna

memberikan penerangan teks dalam bentuk bebas tentang tajuk untuk menjadi

pertanyaan; daripada pertanyaan tersebut enjin IR mendapatkan istilah-istilah

indeks; semua istilah indeks dipadankan dengan istilah indeks yang diperolehi

dari dokumen yang telah diproses terdahulu; dokumen yang mempunyai

padanan terbaik diberikan kepada pengguna dalam susunan berpangkat [BaezaYates 1999; Grefenstette 1998].

Penilaian IR ke atas kejayaan ialah kepersisan dan panggilan semuia.

Kepersisan ialah berapa banyak dokumen dalam senarai berpangkat yang

berkaitan dengan pertanyaan. Manakala panggilan semuia ialah berapa banyak

dokumen yang berkaitan yang mungkin boleh dijumpai dalam koleksi dokumen

yang berada dalam senarai capaian.

Antara kaedah popular dapatan semuia maklumat yang dibangunkan

ialah kaedah yang berasaskan ruang vektor. Data dimodelkan sebagai satu

matriks dan pertanyaan pengguna terhadap pangkalan data diwakilkan sebagai

satu vektor. Dokumen-dokumen yang berkenaan dalam pangkalan data

ditentukan melalui operasi vektor. Setiap dokumen diwakilkan dengan satu

vektor, dengan setiap komponen menunjukkan kepentingan untuk suatu

istilah dalam mewakili semantik atau makna bagi dokumen. Vektor untuk

semua dokumen dalam pangkalan data disimpan sebagai lajur bagi satu

matriks.

Kaedah pengindeksan semantik terpendam (LSI) ialah satu variasi daripada

model ruang vektor dengan anggaran pangkat rendah kepada perwakilan

ruang vektor untuk pangkalan data digunakan. Matriks asal digantikan

dengan matriks lain yang hampir sama dengan matriks asal tetapi ruang

lajumya hanya subruang daripada ruang lajur matriks asal.

PERWAKILAN ISTILAH DAN DOKUMEN

Dalam model ruang vektor dan LSI, istilah dan dokumen diwakilkan oleh

satu matriks m x n, A. Setiap istilah unik m dalam koleksi dokumen diberikan

satu bans dalam matriks, manakala setiap dokumen n dalam koleksi diberikan

satu lajur dalam matriks. Elemen bukan sifar aij, iaitu A = [aij] menunjukkan

istilah / wujud dalam dokumen; dan memberikan bilangan kewujudan istilah

dalam dokumen tersebut. Memandangkan bilangan istilah dalam sesuatu

dokumen biasanya begitu sedikit berbanding dengan bilangan istilah dalam

seluruh koleksi dokumen, matriks A adalah sangat jarang.

2


Gambaran SVD ditunjukkan dalam Rajah 1. Kawasan gelap U, V dan garisan

dalam X mewakili Ak

.

KAEDAH RUANG VEKTOR

Kaedah ruang vektor digunakan dalam penyeiidikan dapatan semula makiumat lebih

30 tahun lalu [Salton dan McGill 1983]. Selepas matriks istilah-dokumen dibina,

pengiraan persamaan boleh dilakukan antara dua objek teks. Satu objek teks q

diwakilkan dengan satu vektor n x 7, seperti satu lajur daripada matriks A dan

dengan jenis pemberat istilah yang sama digunakan. Seterusnya persamaan antara

objek teks qt dan q2 dapat dikira dengan nilai kosinus, iaitu:

PENGINDEKSAN SEMANTIK TERPENDAM

Pengindeksan semantik terpendam direka bentuk untuk mengatasi masalah

dalam kaedah vektor [Deerwester et al. 1990; Berry, Dumais dan O'Brien

1995]. Idea utama LSI ialah pemetaan setiap dokumen dan pertanyaan ke

dalam ruang dimensi yang lebih rendah yang berkaitan dengan konsep. LSI

4

juga bermula dengan pembentukan matriks istilah-dokumen. Kemudian matriks

ini dianalisis menggunakan penghuraian nilai singular untuk mengekstrak

struktur berkenaan hubung kait antara dokumen-dokumen dan istilah-istilah.

Proses ini boleh mengenalpasti, misalnya "car" dan "automobile" bila

digunakan dalam konteks yang sama dalam seluruh koleksi, dan maklumat

ini boleh diguna untuk meningkatkan dapatan semula.

Pertanyaan dibentuk menjadi dokumen-pseudo yang memberikan lokasi

pertanyaan dalam ruang istilah-dokumen yang dikecilkan. Dengan q, satu

vektor elemen bukan sifar mengandungi pemberat (menggunakan skema

pemberat tempatan dan global yang sama dengan koleksi dokumen) frekuensi

istilah dalam pertanyaan, dokumen-pseudo, q diwakilkan sebagai:

Persamaan di antara dua dokumen di dalam koleksi dokumen adalah

menggunakan vektor dokumen, Vk

iaitu:

EKSPERIMEN MENGGUNAKAN KAEDAH VEKTOR DAN LSI

Eksperimen dijalankan terhadap satu koleksi dokumen bahasa Inggeris dan

dokumen bahasa Melayu. Capaian kepada koleksi dokumen ini dibuat melalui

pertanyaan daripada bahasa Melayu dan Inggeris dengan menggunakan

kaedah vektor dan LSI.

5

Koleksi dokumen bahasa Melayu terdiri dari teks terjemahan Al-Quran

bahasa Melayu yang mempunyai 6,236 dokumen. Koleksi dokumen ini

mengandungi 196,071 patah perkataan dengan 7,526 perkataan yang unik.

Manakala koleksi dokumen bahasa Inggeris terdiri daripada teks terjemahan

Al-Quran bahasa Inggeris yang terdiri mempunyai 6,236 dokumen yang

setara dengan dokumen-dokumen bahasa Melayu. Koleksi dokumen ini

mengandungi 167,477 patah perkataan dengan 6,383 perkataan yang unik.

Set pertanyaan bahasa Melayu mengandungi 36 pertanyaan dalam bentuk

bahasa tabii. Manakala pertanyaan bahasa Inggeris adalah 36 pertanyaan

dalam bentuk bahasa tabii yang merupakan terjemahan daripada pertanyaan

bahasa Melayu.

Empat eksperimen dijalankan terhadap setiap koleksi dokumen iaitu:

a) eksperimen menggunakan kaedah vektor tanpa penggunaan pengakar

bahasa

b) eksperimen menggunakan kaedah LSI tanpa penggunaan pengakar bahasa

c) eksperimen menggunakan kaedah vektor dengan penggunaan pengakar

bahasa

d) eksperimen menggunakan kaedah LSI dengan penggunaan pengakar

bahasa

Eksperimen dijalankan bermula dengan pembentukan matriks istilahdokumen dan matriks istilah-pertanyaan. Elemen bagi matriks ini ialah

frekuensi istilah dalam dokumen atau pertanyaan yang berkenaan. Seterusnya

diumpukkan nilai pemberat log-entropi kepada setiap elemen bukan sifar

matriks tersebut.

Capaian menggunakan kaedah vektor melibatkan langkah seperti berikut:

a) kira persamaan setiap pertanyaan dengan setiap dokumen menggunakan

nilai kosinus

b) susun senarai dokumen berkenaan mengikut nilai kosinus dalam tertib

menurun untuk setiap pertanyaan

Manakala capaian menggunakan kaedah LSI pula melibatkan langkah

seperti berikut:

a) kira SVD untuk matriks istilah-dokumen pada nilai k sebanyak 200

b) bina dokumen-pseudo untuk matriks istilah-pertanyaan

c) gabung dokumen-pseudo dengan vektor dokumen

d) kira persamaan dokumen-pseudo dengan setiap dokumen

e) susun senarai dokumen berkenaan mengikut nilai persamaan dalam tertib

menurun untuk setiap pertanyaan

Seterusnya eksperimen diulang dengan menggunakan pengakar bahasa

yang berkenaan atas indeks koleksi dokumen dan set pertanyaan. Pengakar

Ahmad (1995) digunakan untuk koleksi bahasa Melayu dan pengakar Porter

(1980) digunakan untuk koleksi bahasa Inggeris.

6

KEPUTUSAN DAN PERBINCANGAN

Keputusan yang diperolehi daripada empat eksperimen untuk dua koleksi

dokumen ditunjukkan dalam bahagian berikut. Keputusan untuk dapatan

semula maklumat bahasa Melayu ditunjukkan pada Jadual 1. Jadual ini

menunjukkan kepersisan untuk capaian dokumen bahasa Melayu menggunakan

kaedah ruang vektor (VBM); capaian dokumen bahasa Melayu menggunakan

kaedah pengindeksan semantik terpendam (LSIBM); capaian dokumen bahasa

Melayu menggunakan kaedah ruang vektor dan pengakar (VBM-P); dan

capaian dokumen bahasa Melayu menggunakan kaedah pengindeksan semantik

terpendam dan pengakar (LSIBM-P).

Graf kepersisan lawan panggilan semula untuk capaian dokumen bahasa

Melayu diplotkan pada Rajah 2. Secara purata didapati tanpa menggunakan

pengakar, capaian menggunakan kaedah LSI ialah 8.5% lebih tinggi

kepersisannya berbanding kaedah vektor. Manakala capaian menggunakan

kaedah LSI ialah 7.5% lebih tinggi kepersisannya berbanding kaedah vektor

dengan menggunakan pengakar. Didapati penggunaan pengakar telah dapat

meningkatkan kepersisan sebanyak 15.4% untuk kaedah vektor dan kepersisan

meningkat sebanyak 14.3% bagi kaedah LSI.

Keputusan untuk dapatan semula maklumat bahasa Inggeris ditunjukkan

pada Jadual 2. Jadual ini menunjukkan kepersisan untuk capaian dokumen

bahasa Inggeris menggunakan kaedah ruang vektor (VBI); capaian dokumen

bahasa Inggeris menggunakan kaedah pengindeksan semantik terpendam

(LSIBI); capaian dokumen bahasa Inggeris menggunakan kaedah ruang vektor

7

dan pengakar (VBI-P); dan capaian dokumen bahasa Inggeris menggunakan

kaedah pengindeksan semantik terpendam dan pengakar (LSIBI-P).

Seterusnya graf kepersisan lawan panggilan semula untuk capaian

dokumen bahasa Inggeris diplotkan pada Rajah 3. Daripada niiai purata

didapati tanpa menggunakan pengakar, capaian menggunakan kaedah LSI

ialah 25.8% lebih tinggi kepersisannya berbanding kaedah vektor. Manakala

capaian menggunakan kaedah LSI ialah 11.7% lebih tinggi kepersisannya

8

berbanding kaedah vektor dengan menggunakan pengakar. Di samping itu,

didapati penggunaan pengakar dapat meningkatkan kepersisan sebanyak

47.1% untuk kaedah vektor dan kepersisan meningkat sebanyak 30.6% bagi

kaedah LSI.

Perbandingan hasil eksperimen untuk koleksi dokumen bahasa Melayu

dan Inggeris ditunjukkan pada Rajah 4.

Daripada perbandingan ini didapati capaian menggunakan kaedah LSI

menghasilkan kepersisan lebih tinggi berbanding kaedah vektor sama ada

9

tanpa menggunakan pengakar atau dengan menggunakan pengakar. Keputusan

ini adalah selaras untuk koleksi dokumen kedua-dua bahasa.

KESIMPULAN

Hasil kajian ini menunjukkan bahawa penggunaan kaedah LSI dalam sistem

dapatan semula maklumat dapat meningkatkan lagi kepersisan berbanding

kaedah vektor. Dengan ini pendekatan baru dalam membangunkan sistem

dapatan semula maklumat bahasa Melayu harus memanfaatkannya.

Penggunaan kaedah LSI juga perlu menggabungkan penggunaan pengakar

bahasa kerana penggunaannya terbukti dapat meningkatkan purata kepersisan

yang ketara.

RUJUKAN

Ahmad, F. 1995. A Malay language document retrieval system: an

experimental approach and analysis. Tesis Ijazah Doktor Falsafah.

Universiti Kebangsaan Malaysia.

Baeza-Yates, R. and Ribeiro-Neto, B. 1999. Modern Information

Retrieval. New York: Addison-Wesley.

Berry, M.W.; Dumais, S.T.; and O'Brien, G.W. 1995. Using linear

algebra for intelligent information retrieval. S1AM Review 37(4):573-

595.

Deerwester, S., Dumais, S.T., Furnas, G.W., Landauer, T.K. and

Harshman, R.A. 1990. Indexing by latent semantic analysis. Journal

of the American Society for Information Science 41(6):391-407.

Dumais, S. 1991. Using the retrieval of information from external sources.

Behavior Research Methods, Instruments, & Computers, 23(2):229-

236.

Grefenstette, G. 1998. The Problem of Cross-Language Information

Retrieval. Dalam Cross-Language Information Retrival, ed. G.

Grefenstette, ms 1-9. Boston: Kluwer Academic Publishers.

Porter, M.F. 1980. An Algorithm for Suffix Stripping. Program 14(3):130-

137. Salton, G. dan McGill, M.J. 1983. Introduction to Modem

Information Retrieval. McGraw-Hill.

MAKLUMAT PENGARANG

Muhammad Taufik Abdullah,

Fatimah Ahmad, Ramlan Mahmod

Fakulti Sains Komputer dan Teknologi Maklumat

Universiti Putra Malaysia

43400 UPM Serdang, Selangor

Emel: {taufik,fatimah.ramlan} @fsktm.upm.edu.rny

Tengku Mohammed Tengku Sembok Fakulti Teknologi dan Sains

Maklumat Universiti Kebangsaan Malaysia 43600 Bangi, Selangor Emel:

tmts@ftsm.ukm.my

10

.

No comments:

Post a Comment