Pages

Selasa, 09 Maret 2010

Pengenalan Pengambilan Informasi (BAB 2)

The term vocabulary and postings lists (Istilah kosakata dan daftar posting)

Mengingat langkah-langkah utama dalam indeks terbalik konstruksi:
1. Mengumpulkan dokumen untuk diindeks.

2. Tokenize teks.

3. Apakah token preprocessing linguistik.

4. Mengindeks dokumen yang terjadi setiap istilah masuk

Tokenization adalah proses memotong aliran karakter menjadi bukti, sementara linguistik preprocessing kemudian berkaitan dengan bangunan kelas kesetaraan token yang merupakan kumpulan istilah yang diindeks.

Mendapatkan urutan karakter dalam dokumen

Dokumen digital yang input ke sebuah proses mengindeks biasanya byte di file atau di web server. Langkah pertama pengolahan adalah untuk mengubahnya urutan byte ke urutan linear karakter. Untuk kasus bahasa Inggris teks dalam pengkodean ASCII, hal ini sepele. Urutan karakter dapat dikodekan oleh salah satu dari berbagai single byte atau skema pengkodean multibyte, seperti Unicode UTF-8, atau berbagai nasional atau standar khusus vendor.

Kita perlu menentukan encoding yang benar, ini dapat dianggap sebagai masalah klasifikasi pembelajaran mesin, yang sering ditangani oleh metode heuristik, pengguna seleksi, atau dengan menggunakan metadata dokumen yang disediakan. Setelah enkoding ditentukan, kita decode byte urutan ke urutan karakter. Kita mungkin menyimpan pilihan pengkodean karena memberikan beberapa bukti tentang bahasa apa dokumen ini ditulis masuk. Karakter mungkin harus diterjemahkan dari beberapa representasi biner seperti Microsoft Word atau format terkompresi seperti zip file. Sekali lagi, kita harus menentukan format dokumen, dan kemudian yang sesuai decoder harus digunakan

2.1.2 Memilih unit dokumen

Tahap berikutnya adalah untuk menentukan apa yang unit dokumen untuk mengindeks. Jadi, sejauh ini kita telah mengasumsikan bahwa dokumen unit untuk keperluan indeks.
Sebagai contoh, kita mengambil setiap file dalam folder tersebut sebagai sebuah dokumen.

2.1 Dokumen karakter penggambaran dan decoding urutan

ب?? ك ت ا ب آ

ā b un t i k

/ Kitabun / 'buku'

Banyak pesan email sekarang berisi terlampir dokumen, dan Anda mungkin kemudian ingin menganggap pesan email berisi lampiran sebagai dokumen terpisah. Jika pesan email memiliki terlampir file zip, Anda mungkin ingin men-decode file zip dan menganggap setiap file
berisi sebagai dokumen terpisah. Dalam kasus ini, Anda mungkin ingin untuk menggabungkan beberapa file ke dalam dokumen tunggal. Pengindeksan lebih umum, untuk dokumen-dokumen lama, masalah pengindeksan granularity muncul. Untuk koleksi buku, biasanya akan menjadi ide buruk untuk indeks yangseluruh buku sebagai dokumen.

2.2.1 Tokenization

Diberi urutan karakter dan unit dokumen yang ditetapkan, tokenization adalah
memotong menjadi potongan-potongan, yang disebut token, mungkin pada saat yang sama
membuang karakter tertentu, seperti tanda baca.
Berikut adalah contoh
dari tokenization:

Token ini seringkali disebut sebagai istilah atau kata-kata, tetapi kadang-kadang penting untuk membuat suatu jenis token. Sebuah token adalah sebuah contoh dari urutan karakter dalam dokumen tertentu yang dikelompokkan bersama sebagai unit semantik yang berguna untuk diproses. Suatu jenis kelas dari semua token berisi urutan karakter yang sama. Suatu istilah yang (mungkin dinormalkan) jenis yang disertakan dalam sistem IR kamus.

Boolean atau teks bebas query, Anda selalu ingin melakukan hal yang persis sama dengan tokenization dokumen dan kata-kata kunci, umumnya dengan mengolah query dengan
tokenizer sama. Hal ini menjamin bahwa suatu urutan karakter dalam teks akan selalu sesuai dengan urutan yang sama yang diketik dalam query. Dengan demikian memerlukan bahasa
dokumen untuk diketahui. Teknologi komputer telah memperkenalkan jenis baru dari rangkaian karakter yang sebaiknya tokenizer tokenize sebagai satu tanda, termasuk alamat email (jblack@mail.yahoo.com), webURLs (http://stuff.big.com/new/specials.html), angka alamat IP (142.32.48.231), nomor pelacakan paket (1Z9999W99845399981), dan banyak lagi. Satu kemungkinan solusinya adalah menghilangkan tanda mengindeks seperti jumlah moneter, angka,
dan URL, karena kehadiran mereka sangat memperluas ukuran kosa kata.

Kecenderungan umum dalam sistem IR atas waktu yang telah dari penggunaan standar
daftar berhenti cukup besar (200-300 istilah) untuk menghentikan daftar sangat kecil (7-12 hal)
daftar tanpa berhenti sama sekali.
Mesin pencari web umumnya tidak menggunakan berhenti
daftar. Beberapa desain sistem IR modern telah berfokus dengan tepat pada bagaimana kita dapat memanfaatkan bahasa statistik sehingga dapat mengatasi kata-kata umum dalam cara yang lebih baik. Beberapa teknik kompresi yang baik sangat mengurangi biaya penyimpanan posting
kata-kata umum. Sebuah sistem IR dengan dampak-diurutkan indeks dapat menghentikan pemindaian earlywhen sebuah daftar posting mendapatkan bobot kecil, dan kata-kata umum sehingga tidak menyebabkan tambahan yang besar biaya pemrosesan permintaan rata-rata,

Keuntungan dari pemetaan hanya menggunakan aturan-aturan yang menghapus karakter seperti tanda hubungan adalah bahwa klasifikasi kesetaraan harus dilakukan adalah implisit, alih-alih
sepenuhnya dihitung di muka: istilah yang terjadi untuk menjadi identik sebagai
hasil dari aturan ini adalah kelas kesetaraan.
Hanya mudah untuk menulis aturan semacam ini yang menghapus karakter. Karena kelas-kelas ekivalen implisit, tidak jelas saat Anda mungkin ingin menambahkan karakter. Sebuah alternatif untuk menciptakan kelas kesetaraan adalah untuk memelihara hubungan antara unnormalized tokens.

Untuk alasan tata bahasa, dokumen akan menggunakan bentuk yang berbeda dari sebuah
kata, seperti mengorganisir, mengatur, dan mengorganisir.

Di antara mungkin pertanyaan, kata benda dan frasa nomina memiliki status khusus dalam
menggambarkan konsep-konsep orang yang tertarik dalam mencari. Tapi terkait
benda sering dapat dibagi dari satu sama lain dengan berbagai fungsi kata-kata, di
ungkapan-ungkapan seperti penghapusan perbudakan atau negosiasi ulang konstitusi.
Ini
kebutuhan dapat dimasukkan ke dalam model pengindeksan biword.

Istilah kelompok kemudian dapat menjadi kata benda, termasuk kata benda, (N) dan fungsi
kata-kata, termasuk artikel dan preposisi, (X), di antara kelas-kelas lain. Sekarang
anggap setiap string dari segi bentuk NX * N menjadi biword diperpanjang. Tiap
biword diperpanjang seperti dibuat istilah dalam kosa kata. Contoh : negosiasi ulang konstitusi
N X X N

Untuk memproses permintaan menggunakan diperpanjang biword seperti indeks, kita perlu juga
parsing ke N dan X, dan kemudian segmen query ke biwords diperpanjang, yang dapat melihat ke atas dalam indeks. Algoritma ini tidak selalu bekerja dalam cara yang optimal secara intuitif
ketika parsing lagi query ke Boolean queries.
Menggunakan algoritma di atas,
pertanyaan overruns biaya pada pembangkit listrik di-parsing ke "Overruns biaya" DAN "kekuatan overruns" DAN "pembangkit listrik" sedangkan mungkin kelihatannya pertanyaan yang lebih baik untuk menghilangkan biword tengah. Lebih baik hasil dapat diperoleh dengan menggunakan lebih tepat merupakan bagian dari pola bicara yang define yang diperpanjang biwords harus diindeks. Konsep indeks biword dapat diperluas untuk lagi urutan kata-kata, dan jika indeks variabel termasuk urutan kata panjang, umumnya disebut sebagai indeks frase. Memang, pencarian frase indeks untuk satu istilah yang tidak ditangani secara alami dalam indeks biword (Anda akan perlu untuk memindai kamus untuk semua biwords berisi istilah), jadi kita juga perlu memiliki indeks istilah kata tunggal. Walaupun selalu ada kemungkinan positif palsu pertandingan, peluang positif palsu cocok pada frase diindeks panjang 3 atau lebih menjadi sangat kecil memang. Tapi di sisi lain, menyimpan lagi frasa memiliki potensi untuk memperluas ukuran kosakata.

Tidak ada komentar:

Posting Komentar