Nikmati Sebuah Proses: Pengenalan Pengambilan Informasi (BAB 1)

Boolean Retrieval

Dalam bidang studi akademik, pengambilan informasi dapat didefinisikan sebagai berikut:
Informasi Pengambilan (IR) adalah menemukan bahan (biasanya dokumen) dari
alam yang tidak terstruktur (biasanya teks) yang memenuhi kebutuhan informasi
dari dalam koleksi besar (biasanya disimpan di komputer).

IR juga dapat mencakup masalah-masalah jenis data dan informasi di luar yang ditentukan dalam inti definisi di atas. Istilah "data tidak terstruktur" mengacu pada data yang tidak jelas, secara semantik terbuka, mudah untuk struktur computer. Ini adalah kebalikan dari data terstruktur, contoh kanonik yang merupakan database relasional, dari perusahaan seperti biasanya digunakan untuk menjaga produk persediaan dan catatan pribadi. IR juga digunakan untuk memfasilitasi "semistructured" pencarian seperti mencari judul dokumen di mana mengandung Jawa dan tubuh berisi threading. Bidang pencarian informasi juga mencakup pengguna dalam browsing atau koleksi dokumen penyaringan atau pengolahan lebih lanjut diambil satu set dokumen. Sistem pencarian informasi juga dapat dibedakan oleh skala pada dimana mereka beroperasi, dan itu berguna untuk membedakan tiga skala yang menonjol. Dalam pencarian web, system harus menyediakan pencarian lebih dari milyaran dokumen tersimpan pada jutaan computer.

Contoh masalah pengambilan informasi :

Dalam bab ini kita mulai dengan contoh yang sangat sederhana dari sebuah informasi
masalah pengambilan, dan memperkenalkan gagasan tentang istilah dokumen . Kami akan
memeriksa pengambilan Boolean model dan bagaimana Boolean query diproses.

Sebuah contoh masalah pengambilan informasi : Suatu buku yang banyak dimiliki orang-orang adalah Shakespeare’s Collected Works.

Bentuk yang paling sederhana adalah pengambilan dokumen untuk komputer untuk melakukan semacam ini linear scan melalui dokumen. Proses ini biasanya disebut sebagai grepping melalui teks, setelah perintah grep Unix, yang melakukan proses ini. Grepping melalui teks yang dapat menjadi proses yang sangat efektif, terutama mengingat kecepatan komputer modern, dan seringkali berbagai kemungkinan untuk pola wildcard yang mempertemukan melalui penggunaan ungkapan regular

Dengan komputer modern, untuk query sederhana koleksi sederhana (ukuran Shakespeare's Collected Works adalah sedikit di bawah satu juta kata teks total), Anda benar-benar membutuhkan apa-apa lagi. Tapi untuk berbagai tujuan, Anda perlu lebih banyak :

1. Untuk memproses koleksi dokumen yang besar dengan cepat. Jumlah data online telah tumbuh setidaknya secepat kecepatan komputer, dan kami akan sekarang ingin dapat mencari koleksi yang total dalam urutan miliar untuk triliunan kata-kata.

2. Untuk memungkinkan operasi pencocokan lebih fleksibel. Sebagai contoh, adalah tidak praktis melakukan query Roma DEKAT senegara dengan grep, di mana DEKAT dapat didefinisikan sebagai "dalam 5 kata" atau "dalam kalimat yang sama".

3. Untuk memungkinkan pengambilan peringkat : dalam banyak kasus Anda ingin jawaban terbaik untuk sebuah kebutuhan informasi di antara banyak dokumen yang mengandung kata-kata tertentu.

Cara untuk menghindari linear memindai teks-teks untuk setiap query adalah untuk mengindeks
dokumen di muka. Mari kita tetap dengan Shakespeare's Collected Works, dan menggunakannya untuk memperkenalkan dasar-dasar pengambilan Boolean model. Misalkan kami mencatat untuk setiap dokumen - di sini sandiwara Shakespeare's - apakah itu berisi kata lain keluar dari semua kata-kata Shakespeare digunakan (Shakespeare digunakan sekitar 32.000 kata yang berbeda). Hasilnya adalah istilah-dokumen biner insiden matriks, seperti dalam Gambar 1.1. Persyaratan adalah unit diindeks, mereka biasanya kata-kata, dan untuk saat ini Anda dapat memikirkan

mereka sebagai kata-kata, tetapi biasanya pengambilan informasi sastra berbicara tentang
istilah karena beberapa dari mereka, seperti mungkin aku-9 atau Hong Kong biasanya tidak
memikirkan aswords. Sekarang, tergantung kita melihat baris atau kolom dari matriks, kita dapat memiliki istilah vektor untuk masing-masing, yang menunjukkan dokumen-dokumen yang
muncul, atau sebuah vektor untuk setiap dokumen, menunjukkan istilah yang terjadi di dalam.

Untuk menjawab pertanyaan Brutus AND Caesar AND NOT Calpurnia, kita mengambil
vektor untuk Brutus, Caesar dan Calpurnia, melengkapi yang terakhir, dan kemudian melakukan
bitwise AND:

110.100 AND 110.111 AND 101111 = 100100

Jawaban untuk query ini demikian Antonius dan Cleopatra dan Hamlet (Gambar 1.2).
Pengambilan yang Boolean model adalah model untuk pengambilan informasi Boolean Retrieval dimana kita dapat mengajukan permintaan apapun yang dalam bentuk ekspresi Boolean,
yaitu, di mana istilah yang dikombinasikan dengan operator AND, OR, dan NOT. Model dilihat setiap dokumen sebagai hanya satu set kata-kata. Mari kita mempertimbangkan skenario yang lebih realistis, sekaligus menggunakan kesempatan untuk memperkenalkan beberapa terminologi dan notasi. Misalkan kita N = 1 juta dokumen. Dengan dokumen apa pun yang kita maksudkan unit kita memutuskan untuk membangun sistem pencarian di atas. Kami
akan merujuk kepada kelompok dokumen di mana kita melakukan pengambilan sebagai
(dokumen) koleksi. Hal ini kadang-kadang juga disebut sebagai korpus (tubuh dari
Corpus teks). Misalkan setiap dokumen adalah sekitar 1000 kata-kata yang panjang (2-3 halaman buku).

Nikmati Sebuah Proses

Pages

Selasa, 09 Maret 2010

Pengenalan Pengambilan Informasi (BAB 1)

Tidak ada komentar:

Posting Komentar

About Me

Labels