6. Skor istilah bobot dan model ruang vector
Sejauh ini kita telah berurusan dengan indeks yang mendukung Boolean queries: sebuah dokumen eithermatches atau apakah notmatch permintaan. Dalam kasus dokumen besar koleksi, jumlah hasil dokumen yang sesuai dapat jauh melebihi jumlah pengguna manusia yang bisa menyaring. Oleh karena itu, penting untuk sebuah mesin pencari untuk menentukan peringkat-memesan pencocokan dokumen permintaan. Melakukan ini, mesin pencari menghitung, untuk setiap pencocokan dokumen, skor dengan
terhadap permintaan di tangan. Dalam memulai studi chapterwe penugasan skor ke (query, dokumen) pasangan.
Kami memperkenalkan parametrik dan zona indeks dalam Bagian 6.1, yang berfungsi
dua tujuan. Pertama, mereka memungkinkan kita untuk mengindeks dan mengambil dokumen oleh metadata seperti bahasa di mana sebuah dokumen yang tertulis. Kedua,mereka memberi kita sarana untuk penilaian sederhana (dan dengan demikian peringkat) dokumen sebagai tanggapan atas permintaan. Selanjutnya, dalam Bagian 6,2 kita mengembangkan gagasan bobot pentingnya istilah dalam dokumen, berdasarkan statistik terjadinya istilah.
Pada Subbab 6,3 kami menunjukkan bahwa dengan melihat setiap dokumen sebagai vector seperti berat, kita dapat menghitung skor antara permintaan dan setiap dokumen. Pandangan ini dikenal sebagai ruang vektor mencetak gol.
Parametric dan zona indeks
Kami telah sejauh ini dipandang sebagai suatu dokumen urutan istilah. Bahkan, sebagian besar
dokumen memiliki struktur tambahan. Umumnya dokumen digital menyandi,
mesin-dikenali dalam bentuk, metadata tertentu yang terkait MET dengan setiap dokumen.
Dengan metadata, kita berarti bentuk-bentuk khusus data tentang dokumen, seperti
sebagai penulis (s), judul dan tanggal publikasi. Metadata ini akan umumnya
BIDANG meliputi bidang-bidang seperti tanggal penciptaan dan format dokumen, seperti
baik penulis dan mungkin judul dokumen.
Berat zona scoring
Sejauh dalam kita telah berfokus pada pengambilan dokumen berdasarkan Boolean query di ladang dan zona. Kita sekarang beralih ke aplikasi kedua zona dan ladang.
Boolean query diberi q dan sebuah dokumen d zona tertimbang menetapkan skor
ke pasangan (q, d) suatu nilai dalam interval [0, 1], dengan menghitung kombinasi linear
zona nilai, di mana setiap zona dokumen menyumbangkan Boolean
nilai. Lebih khusus lagi, pertimbangkan satu set dokumen masing-masing memiliki ℓ
zona. Biarkan g1,. . . , G ℓ ∈ [0, 1] sehingga ℓ å
i = 1 gi = 1. Untuk 1 ≤ i ≤ ℓ, biarkan si menjadi
Nilai boolean yang menunjukkan pertandingan (atau ketiadaan daripadanya) antara q dan engan
zona. Misalnya, nilai Boolean dari zona bisa 1 jika semua permintaan
istilah (s) yang terjadi di zona itu, dan nol sebaliknya; memang, itu bisa setiap Boolean
fungsi yang memetakan kehadiran istilah permintaan dalam zona ke 0, 1. Kemudian,
zona skor tertimbang didefinisikan sebagai Tertimbang zona scoring kadang-kadang disebut juga sebagai peringkat pencarian Boolean.
Belajar beban
Bagaimana kita menentukan bobot tertimbang gi untuk zona scoring? Ini
bobot dapat ditentukan oleh seorang ahli (atau, pada prinsipnya, user); namun semakin,
bobot ini adalah "belajar" dengan menggunakan contoh-contoh pelatihan yang telah
dinilai editorial.
Inverse Frekuensi Dokumen
Istilah mentah frekuensi seperti di atas menderita masalah yang kritis: semua persyaratan yang dianggap sama pentingnya ketika datang untuk menilai relevansi pada permintaan. Bahkan istilah tertentu memiliki sedikit atau tidak ada diskriminasi dalam menentukan kekuatan relevansi. Sebagai contoh, sebuah koleksi dokumen di mobil industri cenderung memiliki istilah otomatis di hampir setiap
dokumen.
IDF istilah yang langka tinggi, sedangkan IDF istilah yang sering adalah cenderung rendah
Model ruang vektor untuk penilaian
Representasi dari serangkaian dokumen sebagai vektor dalam ruang vektor yang umum dikenal sebagai spacemodel vektor dan merupakan dasar informasi host operasi pengambilan fromscoring berkisar pada permintaan dokumen, dokumen klasifikasi dan dokumen clustering.
Dot Pruducts
Kita menyatakan oleh ~ V (d) vektor berasal dari dokumen d, dengan satu komponen dalam vektor untuk masing-masing kamus istilah. Kecuali dinyatakan sebaliknya, pembaca boleh berasumsi bahwa komponen dihitung dengan menggunakan tf-IDF skema pembobotan, meskipun skema pembobotan tertentu immaterial dengan diskusi yang berikut. Himpunan dokumen dalam koleksi kemudian dapat dipandang sebagai satu set vektor dalam sebuah ruang vektor, di mana terdapat satu sumbu untuk setiap istilah.
Queri sebagai vector
Ada yang jauh lebih banyak alasan kuat untuk mewakili dokumen sebagai vektor: kita juga dapat melihat sebuah query sebagai sebuah vektor. Mempertimbangkan permintaan q = jealous gossip. Query ini berubah menjadi unit vektor ~ v (q) = (0, 0,707, 0,707) pada tiga Gambar koordinat 6,12 dan 6,13. Ide kunci sekarang: yang akan diberikan ke masing-masing dokumen d skor sama dengan perkalian titik
~ v (q) · ~ v (d)
Contoh 6.4: Kita sekarang mempertimbangkan permintaan asuransi mobil terbaik di koleksi fiktif dengan N = 1.000.000 dokumen di mana dokumen frekuensi otomatis, terbaik, mobil dan yang masing-masing asuransi 5000, 50.000, 10000 dan 1000.
Dalam contoh ini berat istilah dalam query hanya IDF (dan nol untuk termnot dalam pencarian, seperti auto); ini tercermin dalam kolom header wt, q (entri untuk auto adalah nol karena query tidak berisi termauto). Dokumen, kita menggunakan pembobotan tf tanpa penggunaan Euklidean IDF tapi dengan normalisasi. Mantan ditampilkan di bawah kolom wf, sedangkan yang terakhir ditampilkan di bawah kolom menuju wt, d. Meminjam (6,9) kini memberikan nilai bersih 0 + 0 + 0,82 + 2,46 = 3,28.
Komputasi nilai vector
Dalam pengaturan khas kami memiliki koleksi dokumen masing-masing diwakili oleh seorang vektor, teks bebas query diwakili oleh vektor, dan bilangan bulat positif K.
Fungsi Varian IDF tf
Untuk menentukan berat untuk setiap kata dalam setiap dokumen, sejumlah alternatif untuk tf tf-IDF dan telah dipertimbangkan.
tf Sublinear skala
Tampaknya tidak mungkin bahwa dua puluh kejadian termin dokumen yang benar-benar membawa dua puluh kali makna dari suatu kejadian tunggal. Oleh karena itu, ada penelitian telah banyak varian istilah frekuensi yang melampaui menghitung jumlah kejadian dari sebuah istilah.
tf normalisasi Maksimum
Salah satu teknik belajar dengan baik adalah untuk menormalkan bobot tf semua persyaratan terjadi dalam sebuah dokumen oleh themaximum tf dalam dokumen. Untuk setiap dokumen
d, biarkan tfmax (d) = maxτ ∈ d tfτ, d, di mana τ berkisar atas segala istilah dalam d. Kemudian, kita menghitung jangka normalized frekuensi untuk setiap jangka dalam dokumen d t oleh
di mana a adalah nilai antara 0 dan 1 dan biasanya diatur ke 0.4, meskipun beberapa Smoothing karya awal menggunakan nilai 0,5.
Tf maksimum normalisasi tidak lepas dari isu-isu berikut:
1. Metode ini tidak stabil dalam pengertian berikut: perubahan dalam kata berhenti
Daftar istilah dapat secara dramatis mengubah bobot (dan karena itu peringkat). Jadi,
sulit tune.
2. Sebuah dokumen dapat mengandung sebuah istilah outlier dengan jumlah yang sangat besar dari kemunculan istilah tersebut, tidak mewakili isi yang dokumen.
3. gagha Lebih umum, sebuah dokumen di mana istilah yang paling sering muncul kasar sesering banyak istilah lain harus diperlakukan berbeda dari satu dengan distribusi yang lebih miring.
Tidak ada komentar:
Posting Komentar