Paper Tugas Besar Information Retrieval IT Telkom 2011

ANALISIS PERBANDINGAN METODE COLLABORATIVE FILTERING, TRUST BASED DAN SOCIAL BASED DALAM MEMBANGUN RECOMMENDER SYSTEM

 

ABSTRAKSI

Saat ini keberadaan suatu sistem yang dapat memberikan rekomendasi kepada user atau lebih dikenal dengan istilah recommender system mulai diperhitungkan. Hal ini dibuktikan dengan banyaknya penelitian yang mulai dilakukan dan banyaknya pihak yang mulai menggunakan sistem ini. Penggunaan sistem rekomendasi ini secara jelas dapat kita lihat pada sektor industri yang berusaha menawarkan banyak pilihan produk ke pelanggan. Yang menjadi tantangan adalah apakah produk sudah ditawarkan ke pada calon pembeli yang sesuai atau jika kita mengambil sudut pandang dari sisi pembeli, apakah saya sudah menemukan produk yang memang saya sedang cari dan butuhkan saat ini? Paper ini berisikan uraian mengenai perbandingan metode collaboratve filtering, trust-based dan social-based recommender system yang saat ini dipakai untuk membangun suatu sistem rekomendasi. Perbandingan yang dilakukan berdasarkan pada kelebihan dan kelemahan yang dimiliki oleh masing-masing metode dan disimpulkan bahwa social-based recommender system adalah metode yang memberikan akurasi rekomendasi yang lebih tinggi daripada 2 metode lainnya

 

Keywords: recommender system, social-based, trust-based, collaborative filtering.


  1. 1.      LATAR BELAKANG

Seiring dengan perkembangan teknologi internet yang semakin berkembang pesat, semakin berkembang pula bidang yang mendukungnya yaitu information retrieval. Perkembangan bidang ini tentu juga disebabkan oleh tingginya minat user untuk mendapatkan informasi secara tepat, relevan, dan sesuai kebutuhan yang diinginkan. Dalam information retrieval dari suatu sistem terkandung informasi-informasi penting yang dapat diolah ataupun dapat difilter agar sesuai dengan kebutuhan user. Berdasarkan kenyataan tersebut muncul recommender system atau sistem penyedia rekomendasi.

Recommender system bertujuan untuk menyediakan rekomendasi informasi kepada user berdasarkan informasi yang ditangkap melalui user. Recommender system dinilai memiliki nilai komersil yang tinggi [RSWSR], sehingga banyak dilakukan penelitian dalam bidang ini [RSWSR, UNIFY, TRUST, SOCIAL] untuk mendapatkan metode yang relevan dalam mengembalikan informasi sesuai kebutuhan user. Ada banyak metode yang dikembangkan dalam recommender system. Setiap metode yang dikembangkan memiliki keunggulan dan kekurangan masing-masing. Umumnya metode yang ada merupakan perbaikan atau modifikasi dari metode-metode yang ada sebelumnya. Beberapa metode dalam recommender system antara lain collaborative filtering, trust based, dan social based.

  1. 2.      DASAR TEORI

2.1.         Model Collaborative Filtering (CF)

Model collaborative filtering bertujuan untuk memprediksi user interest berdasarkan suatu item dalam sekumpulan user profile. CF dibagi menjadi dua bagian yaitu model based dan memory based [UNIFY]. Pada model based diperlukan contoh training untuk mengeksekusi sebuah model yang mampu memprediksi rating untuk item yang tidak pernah di rating oleh test user. Memory based dibagi menjadi dua yaitu user-based dan item-based.

Berbeda dengan model based, memory based dapat memprediksi dengan mengukur kesamaan antara user yang ditest dengan user lain (user based) atau item yang ditest dengan item lainnya (item based). Kemudian untuk memprediksi unknown rating dengan merata-ratakan rating yang diketahui pada test item melalui user yang sama (user based) atau merata-ratakan rating item yang sama melalui test user (item based).

User-based memprediksi test user interest pada test item berdasarkan informasi rating dari user profile yang mirip seperti pada gambar 1.a. Item-based memprediksi test user interest berdasarkan item yang mirip yang dimasukkan oleh test user.

2.2.         Model Trust-Aware-Based

Trust adalah suatu parameter baru yang ditambahkan dalam metode collaborative filtering untuk melakukan perhitungan rekomendasi suatu barang terhadap suatu pengguna berdasarkan pada nilai rating yang didapat dari pengguna lainnya. Pada metode ini, pengguna diizinkan untuk menyatakan seberapa percaya mereka kepada rekomendasi barang yang diberikan oleh pengguna lain yang sebelumnya telah memberikan rating terhadap barang tersebut.

2.3.         Model Social-Based

Konsep yang digunakan pada “Social Recommender System adalah dengan memperhitungkan relasi hubungan antara pengguna dengan pengguna lainnya dalam suatu layanan aplikasi jejaring sosial.

  1. 3.      ANALISIS KELEBIHAN DAN KEKURANGAN   

Model CF memiliki kelebihan yaitu dapat memprediksi data yang belum pernah muncul berdasarkan informasi yang ada. Selain itu model CF juga merupakan model yang sederhana karena merupakan model awal. Model ini mudah dipahami dan setting parameter yang dibutuhkan sangat sedikit.

Sedangkan kelemahan model CF adalah adanya data sparsity problem. Data sparsity problem ini dapat menyebabkan hilangnya informasi dari rating yang mirip, hal ini akan membuat rekomendasi yang dihasilkan menjadi buruk. Data sparsity problem disebabkan oleh hanya sebagian informasi dari user-item matriks yang digunakan memprediksi unknown rating.

Metode Trust-based recommender system mengatasi kelemahan yang ada pada traditional recommender system yang menggunakan metode collaborative filtering yaitu dengan menggabungkan hasil rating suatu item dari sejumlah pengguna dan membandingkan karakteristik pengguna-pengguna tersebut dengan karakteristik pengguna yang akan ditawarkan item yang sama. Namun ternyata, dari hasil penelitian yang telah dilakukan, ternyata metode ini tidak memberikan nilai akurasi yang cukup baik.

Kelebihan yang dimiliki oleh social-based recommender system adalah bahwa dengan memperhitungkan status hubungan ataupun relasi yang dimiliki oleh seorang pengguna dengan pengguna yang lain, maka hal ini berpengaruh pada besarnya pengaruh nilai rating yang diberikan seorang pengguna terhadap suatu barang untuk juga direkomendasikan ke pengguna yang lain yang memiliki hubungan sosial dengan pengguna yang telah memberikan rating tersebut pada suatu aplikasi jejaring sosial.

  1. 4.      KESIMPULAN

Berdasarkan hasil analisis yang telah dilakukan terhadap kelebihan dan kekurangan masing-masing metode, maka dapat disimpulkan bahwa metode terbaik yang dapat digunakan untuk membangun suatu recommender system adalah menggunakan metode social-based recommender system yang menghasilkan tingkat akurasi rekomendasi yang lebih tinggi. Dimana parameter akurasi diukur berdasarkan rekomendasi yang diberikan oleh sistem adalah tepat dan sesuai dengan karakteristik user.

  1. 5.      DAFTAR PUSTAKA

He, Jianming dan W.Chu, Wesley. A Social Network-Based Recommender System (SNRS).

Ma, Hao, dkk. Recommender Systems with Social Regularization. Microsoft Research.

Massa, Paolo dan Avesani, Paolo.Trust-aware Collaborative Filtering for Recommender Systems. ITC-iRST. Italy

Melville, Prem dan Sindhwani. Recommender Systems. IBM T.J. Watson Research Center, Yorktown Heights, New York.

Information Retrieval IT Telkom 2011

Recommender system membantu kita dalam mengatasi masalah information overload dengan menyediakan saran-saran bersifat personal berdasarkan pada history perilaku pengguna sebelumnya.  Ada dua pendekatan dalam membangun recommender system, yaitu Collaborative Filtering (CF) dan Content-Based (CB).

CF akan bekerja dengan cara menghimpun feedback pengguna dalam bentuk rating bagi item-item dalam suatu domain yang diberikan dan memanfaatkan kemiripan dan perbedaan antar profil dari beberapa pengguna dalam menentukan bagaimana merekomendasi suatu item.

CB akan menyediakan rekomendasi dengan cara membandingkan representasi content (isi) yang dikandung oleh suatu item terhadap representasi isi dari item menarik pengguna.

sumber: http://wir.staff.uns.ac.id/2010/02/07/mengenal-recommender-system/

Information Retrieval IT Telkom : 4 Tipe kriteria pada Multicriteria Recommender System

Karena topik paper tugas besar matakuliah Information Retrieval yang kami pilih untuk blog ini adalah recommender system, maka kali ini akan dibahas lagi mengenai recommender system itu sendiri.. Pada post-post sebelumnya pernah dijelaskan mengenai multikriteria recommender system.. Masih ingat kan, apa itu multicriteria recommender system??

Multicriteria recommender system sendiri adalah recommender system yang mempunyai nilai rating lebih dari satu kriteria.. Biasanya recommender system yang ada pada saat ini masih menggunakan single kriteria.. Tapi terkadang single kriteria ini sendiri belum dapat mewakili selera dan preferensi user secara keseluruhan terhadap satu atau lebih item yang telah di rating oleh user.. Nah, karena masalah tersebutlah maka muncul ide untuk membuat recommender system yang dinilai berdasarkan beberapa kriteria tertentu.. Misalnya untuk movie recommender system dinilai berdasarkan kriteria alur cerita, aktor/aktris yang berperan, ataupun berdasarkan sutradara atau produser yang membuat movie tersebut.. Contoh yang lain yaitu untuk music recommender system kriteria yang dipertimbangkan yaitu lirik lagu, penyanyi ataupun genre musik dari lagu tersebut..

Kriteria yang dipilih untuk mewakili suatu item sebaiknya memang mewakili preferensi user secara keseluruhan, sehingga selera user benar-benar dapat diwakili dengan pemberian rating yang diberikan oleh user itu sendiri..

Nah, disini akan diberikan salah satu tugas akhir / penelitian yang dilakukan oleh mahasiswa salah satu universitas ternama di Indonesia.. :D

Judulnya yaitu “Metode rekomendasi fuzzy multikriteria pada sistem birojodoh online”.. Penelitiannya menarik untuk disimak.. Bisa dipakai dalam kehidupan nyata sepertinya untuk yang lagi mencari jodoh.. :D Intisari dari tugas akhir yang dikerjakan yaitu :

Sistem rekomendasi diperlukan untuk membantu pengguna dalam menemukan informasi yang relevan karena jumlah informasi yang tersedia di Internet sangat banyak. Pada beberapa kasus, lebih diinginkan sistem rekomendasi multikriteria untuk dapat menilai suatu alternatif yang melibatkan beberapa kriteria yang saling berkaitan, seperti dalam bidang e-commerce, job recruitment, atau di suatu sistem biro jodoh online. Sistem biro jodoh online perlu mempertimbangkan beberapa kriteria penting untuk memberi rekomendasi kepada penggunanya, yaitu jenis kelamin, agama, status pernikahan, usia, nilai penampilan fisik, bentuk fisik, keinginan jumlah anak, dan kebiasaan merokok calon pasangan. Kriteria-kriteria tersebut biasanya memiliki nilai toleransi dan bobot nilai yang seharusnya diperhatikan dalam proses pemberian rekomendasi. Penelitian ini mempelajari suatu sistem rekomendasi multikriteria fuzzy untuk mengatasi kekurangan pada metode rekomendasi yang banyak digunakan pada sistem biro jodoh online saat ini. Metode rekomendasi yang dikembangkan dibuat dengan memakai agregasi dan pembobotan atas beberapa kriteria penting dibandingkan dengan rekomendasi yang dilakukan melalui proses query basis data sederhana yang digunakan saat ini. Metode rekomendasi yang dikembangkan juga mempunyai fleksibilitas dan nilai toleransi terhadap kriteria yang ditentukan sehingga lebih menyerupai cara pengambilan keputusan manusia. Hasil penelitian ini adalah sebuah prototipe sistem rekomendasi fuzzy multikriteria yang dapat diterapkan dalam sistem biro jodoh online. Evaluasi awal menunjukkan bahwa metode ini memberikan rekomendasi yang lebih baik daripada metode query langsung ke basis data yang saat ini umum digunakan.

Pada dasarnya multikriteria recommender system itu sendiri mempunyai empat tipe kriteria, yaitu :

1.  Terukur, yaitu sebuah kriteria yang memungkinkan pengukuran diukur pada beberapa skala evaluasi.
2.  Ordinal, yaitu sebuah kriteria yang menentukan seperangkat nilai yang dapat diterima dan memungkinkan evaluasi menggunakan skala kualitatif atau deskriptif
3.  Probabilistik, yaitu sebuah kriteria yang menggunakan distribusi probabilitas untuk mewakili ketidakpastian dalam evaluasi
4.  Fuzzy, yaitu sebuah kriteria evaluasi yang diwakili dalam kaitannya dengan kemungkinan untuk termasuk dalam salah satu interval dari skala penilaian kualitatif atau deskriptif.

Precission dan Recall

Dari post sebelumnya mengenai Information Retrieval (Information Retrieval (IR)), telah disebutkan bahwa parameter pengukuran suatu sistem IR yaitu dengan precission, recall, dan F-Measure..

Nah, pada post kali ini akan dibahas apa itu precision dan recall..

Yang pertama, Precission adalah rasio jumlah dokumen relevan yang ditemukan dengan total jumlah dokumen yang ditemukan oleh search-engine. Precision mengindikasikan kualitas himpunan jawaban, tetapi tidak memandang total jumlah dokumen yang relevan dalam kumpulan dokumen.

Recall adalah rasio jumlah dokumen relevan yang ditemukan kembali dengan total jumlah dokumen dalam kumpulan dokumen yang dianggap relevan.

Kedua ukuran di atas biasanya diberi nilai dalam bentuk persentase, 1 sampai 100%. Sebuah sistem informasi akan dianggap baik jika tingkat recall maupun precision-nya tinggi. Jika ada seseorang mencari dokumen tentang “Pangeran Diponegoro” pada sebuah sistem, dan jika sistem tersebut memiliki 100 buku tentang Pangeran Diponegoro, maka kinerja terbaik adalah jika sistem tersebut berhasil menemukan 100 dokumen tentang Pangeran Diponegoro.

Kalau sistem tersebut memberikan 100 temuan, dan di temuan tersebut ada 50 dokumen tentang “Pangeran Diponegoro”, maka nilai recall-nya adalah 0,5 (atau 50%) dan nilai precision-nya juga 0,5. Kalau sistem tersebut memberikan 1 dokumen saja, dan dokumen tersebut adalah tentang “Pangeran Diponegoro”, maka recall-nya bernilai 0,01 dan precision-nya bernilai 1. Perhatikan bahwa nilai precision yang tinggi ini sebenarnya terjadi karena sistem memberikan hanya 1 jawaban kepada si pencari informasi. Kalau sistem memberikan 100 dokumen, dan hanya 1 yang relevan, maka nilai recall-nya tetap 0,01 dan precision-nya pun ikut merosot ke 0,01.

Rumus untuk mencari nilai Precission adalah :

\mbox{Precision}=\frac{|\{\mbox{relevant documents}\}\cap\{\mbox{documents retrieved}\}|}{|\{\mbox{documents retrieved}\}|}

Dan rumus untuk menghitung nilai Recall adalah :

\mbox{Recall}=\frac{|\{\mbox{relevant documents}\}\cap\{\mbox{documents retrieved}\}|}{|\{\mbox{relevant documents}\}|}

sumber: wikipedia

ilmu perpustakaan dan informasi

Information Retrieval IT Telkom 2011: Implementasi IR Sistem

Information Retrieval adalah salah satu mata kuliah yang ada di program studi teknik informatika IT Telkom. mata kuliah ini terdapat tugas besarnya juga, hahaha… Sebelumnya telah dibahas mengenai pengantar information retrieval. Nah sekarang kita membahas tentang implementasi IR sistem. Berikut adalah abstrak dari tugas akhir mahasiswa IT Telkom.

judul :

Analisis dan Implementasi Short Time Fourier Transform (STFT) dan Approximate String Matching pada Query-by-Humming

Music Information Retrieval (MIR) merupakan sebuah bidang ilmu untuk mengambil dan mengolah informasi dari file musik, dapat berupa metadata, ataupun konten, seperti nada, melodi dan tempo. Query by Humming merupakan bidang turunan dari MIR yang mencari suatu lagu di dalam database berdasarkan konten dari musik yang berupa melodi.
Query by Humming terdiri dari dua tahap utama yaitu mengubah hasil humming dan file musik pada database menjadi representasi yang sesuai (menggunakan teknik Short Time Fourier Transform (STFT)) serta membandingkan hasil humming dan file musik pada database (menggunakan teknik Approximate String Matching (ASM)). STFT mengubah hasil humming dari domain waktu-amplitudo ke dalam domain waktu-frekuensi untuk memperoleh melodi yang dinyanyikan. Sedangkan ASM membandingkan dua buah string dan menghitung banyak operasi dasar yang harus dilakukan untuk mengubah string pertama menjadi string kedua. Semakin kecil hasil dari metode ini, maka semakin mirip kedua string tersebut.
Pada tugas akhir ini dilakukan penelitian untuk mengetahui ukuran jendela yang sesuai pada STFT dan pembobotan operasi dasar dari ASM terhadap Query by Humming. Akurasi ditentukan oleh keberhasilan sistem untuk menebak lagu yang dinyanyikan. Untuk menghasilkan banyak kemungkinan akurasi, jendela dirancang dalam beberapa lebar segmentasi yang berbeda dan pembobotan operasi dasar juga akan dilakukan untuk beberapa nilai yang berbeda. Dari rancangan tersebut, hasil akurasi sistem mencapai 34.62%-61.54% untuk koleksi data penyanyi berpengalaman dan 9.38%-28.13% untuk koleksi data penyanyi dengan latar belakang paduan suara saja.

Information Retrieval IT Telkom (IR)

Salah satu mata kuliah pilihan yang ada di Teknik Informatika ittelkom adalah Information Retrieval. Dari namanya, dapat diartikan sebagai penemuan kembali informasi, biasanya diaplikasikan pada search engine. Tujuan penggunaan sistem IR adalah untuk mendapatkan hasil pencarian yang efektif, yaitu tepat dan cepat.

Sebuah proses pengambilan informasi dimulai ketika pengguna memasukkan query ke dalam sistem pencari.  Query adalah kumpulan term yang ingin dicari,  contoh pencarian string dalam mesin pencarian web. Dari query yang dimasukkan, sistem IR akan mencari pada document collection. Document collection adalah seluruh halaman yang ada (di internet) beserta seluruh dokumen digital. Kemudian akan mengeluarkan hasil dokumen retrieved yang relevan dengan query yang dimasukkan. Contoh query yang dapat dimasukkan oleh user dapat berupa string seperti : information retrieval, IT Telkom, recommender system, dll..

Tingkat retrieved ducument(s) yang relevan tergantung dari query yang dimasukkan. Parameter untuk mengukur efektif tidaknya suatu sistem IR adalah Precision, Recall, dan F-Measure.

Information Retrieval IT Telkom 2011 : Pearson Correlation Coefficient

Pearson Correlation Coefficient(PCC) adalah metode pengukuran korelasi. Hal ini dikenal sebagai metode terbaik untuk mengukur korelasi, karena didasarkan pada metode kovarians. Ini memberikan informasi tentang besarnya korelasi serta arah hubungan.

Pearson Correlation Similarity digunakan untuk mencari kedekatan antara pengguna dengan memanfaatkan metric Pearson Correlation. Penting untuk dicatat bahwa penjumlahan atas j dihitung atas item l dimana kedua telah menyatakan pendapat mereka.