Pages

Selasa, 30 Maret 2010

Rangkuman Buku Text Bab 4 Dan 6

4 Indeks konstruksi

Dalam bab ini, kita melihat bagaimana membangun sebuah indeks terbalik. Kami akan memanggil proses ini indeks pembangunan atau pengindeksan dan proses pengindeksan atau mesin yang Indexer melakukan hal yang pengindeks. Rancangan algoritma pengindeksan diatur oleh hardware kendala. Oleh karena itu kita akan memulai bab ini dengan tinjauan
dasar-dasar perangkat keras komputer yang relevan untuk pengindeksan.
Kami kemudian memperkenalkan.diblokir sangat besar seperti web, pengindeksan harus didistribusikan melalui kelompok komputer dengan ratusan atau ribuan ofmachines. Kita membahas hal ini dalam semacam berbasis pengindeksan, yang efisien mesin tunggal algoritma yang dirancang untuk statis koleksi yang dapat dilihat sebagai yang lebih scalable versi semacam dasar pengindeksan berbasis algoritma kita diperkenalkan. Bagian menjelaskan single-pass di memori pengindeksan, sebuah algoritma yang memiliki sifat scaling bahkan lebih baik karena tidak memegang kosa kata \di memori. Indeks konstruksi berinteraksi dengan beberapa topik yang dicakup dalam bab-bab lain buku ini. Kebutuhan yang pengindeks teks mentah, tapi dikodekan dalam dokumen banyak cara (lihat. Kompresi dan dekompresi Indexers intermediate file dan indeks akhir .Dalam pencarian web, dokumen tidak pada sistem file lokal, tapi harus spider atau merangkak. Di perusahaan pencarian, sebagian besar dokumen yang terangkum dalam manajemen konten bervariasi sistem, aplikasi email dan database. Sementara sebagian besar aplikasi ini dapat diakses melalui http, asli API biasanya lebih efisien.

Hardware
Banyak keputusan ketika membangun sebuah sistem pencarian informasi didasarkan pada
karakteristik dari sistem perangkat keras komputer terus berlari.
Karena itu kita memulai bab ini dengan tinjauan singkat perangkat keras komputer. dasar daftar hardware yang akan kita butuhkan dalam buku ini untuk memotivasi sistem IR desain berikut.:

Akses ke data dalam memori jauh lebih cepat daripada akses data pada disk. Ini mengambil beberapa clock cycle (mungkin 5 × 10-9 detik) untuk mengakses byte memori, tetapi lebih lama untuk transfer dari disk (sekitar 2 × 10-8 detik). Ketika melakukan sebuah disk membaca atau menulis, butuh beberapa saat untuk kepala disk untuk pindah ke bagian disk tempat data berada. Sistem operasi umumnya membaca dan menulis seluruh blok. Dengan demikian, membaca satu byte dari disk dapat mengambil waktu sebanyak membaca seluruh blok. Ukuran blok dari 8 KB, 16 KB, 32 KB dan 64 KB yang umum. Kita sebut bagian BUFFER dari memori utama di mana sebuah blok sedang dibaca atau ditulis disimpan buffer. Data transfer fromdisk tomemory akan ditangani oleh systembus, bukan oleh prosesor. Ini berarti bahwa prosesor yang tersedia untuk memproses data saat disk I / O. Kita dapat memanfaatkan fakta ini untuk mempercepat transfer data dengan dikompresi menyimpan data pada disk. Server yang digunakan dalam sistem IR biasanya memiliki beberapa GB memori utama, kadang-kadang puluhan GB. Ruang disk yang tersedia adalah beberapa kali lipat lebih besar.

Kosa kata dalam pertama berlalu dan membangun indeks terbalik di detik berlalu. Konstruksi indeks algoritma yang dijelaskan dalam bab ini semua melakukan melewati satu data. memberikan referensi untuk multi-pass algoritma yang lebih baik dalam aplikasi tertentu, misalnya, ketika disk ruang langka.

Reuters-RCV1 koleksi model kami koleksi sebuah koleksi dengan kira-kira 1 GB teks. Terdiri dari sekitar 800.000 dokumen yang dikirim melalui Reuters PR Wire selama satu Reuters-RCV1 memiliki 100million bukti. Mengumpulkan koleksi menggunakan 4 byte masing masing untuk termID dan karena itu akan memerlukan Penyimpanan 0,8 GB. Khaskoleksi saat ini sering satu atau dua perintah besarnya lebih besar daripada Reuters-RCV1. salah satu yang menggunakan disk. Untuk dapat diterima kecepatan, persyaratan pusat
algoritma semacam itu adalah bahwa hal itu meminimalkan jumlah random disk mencari
selama pemilahan - sequential disk dibaca jauh lebih cepat daripada mencari seperti yang kita
SORT plained .Salah satu solusinya adalah blocked sort-berbasis algoritma pengindeksan
Indexing algoritma atau BSBI segmen koleksi menjadi beberapa bagian dengan ukuran yang sama,

Diblokir berbasis pengindeksan semacam

Langkah-langkah dasar dalam membangun non-posisi indeks. Kami pertama-tama membuat melewati perakitan koleksi semua docID istilah-pasangan. Kami kemudian menyortir berpasangan dengan istilah sebagai kunci dominan dan docID sebagai kunci sekunder. Akhirnya, kami mengatur untuk setiap docIDs istilah ke daftar posting dan menghitung statistik seperti frekuensi term dan dokumen. Untuk koleksi yang kecil, semua ini dapat dilakukan di memori. Dalam bab ini, kami akan menjelaskan metode untuk koleksi besar yang memerlukan penggunaan sekunder penyimpanan. Referensi untuk multi-pass algoritma yang lebih baik dalam aplikasi tertentu, misalnya, ketika disk ruang langka. Kami akan bekerja sama dengan Reuters-RCV1 koleksi model kami koleksi dalam bab ini, sebuah koleksi dengan kira-kira 1 GB teks. Terdiri dari sekitar 800.000 dokumen yang dikirim melalui Reuters PR Wire selama satu tahun antara 20 Agustus 1996, dan 19 Agustus 1997. Dokumen tipikal
ditunjukkan, tetapi perhatikan bahwa kita akan mengabaikan informasi multimedia
seperti gambar dalam buku ini dan hanya dapat prihatin dengan teks. Reuters - RCV1 mencakup berbagai topik internasional, termasuk politik, bisnis, olahraga dan (seperti pada contoh) ilmu pengetahuan. Beberapa statistik kunci koleksi diperlihatkan pada Tabel 4.2. Reuters-RCV1 memiliki 100million bukti. Mengumpulkan semua termID-pasang docID koleksi menggunakan 4 byte masing-masing untuk termID dan karena itu akan memerlukan docID Penyimpanan 0,8 GB. Khas koleksi saat ini sering satu atau dua perintah besarnya lebih besar daripada Reuters-RCV1. Anda dapat dengan mudah melihat bagaimana seperti koleksi akan membanjiri bahkan komputer besar jika kita mencoba untuk menyortir mereka termIDdocID pasang di memori. Jika ukuran file antara selama indeks konstruksi dalam faktor kecil memori yang tersedia, maka kompresi teknik yang diperkenalkan dalam Bab 5 dapat membantu; tetapi file posting banyak koleksi yang besar tidak bisa masuk ke dalam memori bahkan setelah kompresi.

algoritma semacam itu adalah bahwa hal itu meminimalkan jumlah random disk mencari
selama pemilahan - sequential disk dibaca jauh lebih cepat daripada mencari seperti yang kita
SORT plained dalam Bagian 4.1. Salah satu solusinya adalah blocked sort-berbasis algoritma pengindeksan Indexing algoritma atau BSBI. BSBI (i) segmen koleksi menjadi beberapa bagian dengan ukuran yang sama,

Single-pass di memori pengindeksan

Blocked sort berbasis skala pengindeksan memiliki sifat yang sangat baik, tetapi kebutuhan
struktur data untuk pemetaan istilah untuk termIDs.
Untuk koleksi yang sangat besar,
struktur data ini tidak muat ke dalam memori. Alternatif yang lebih scalable adalah
single-pass di memori atau SPIMI pengindeksan. SPIMI menggunakan istilah bukannya termIDs,
pengindeksan menulis setiap blok kamus ke disk dan kemudian mulai kamus baru untuk
blok berikutnya. SPIMI dapat mengindeks koleksi dari berbagai ukuran asalkan ada cukup
ruang disk yang tersedia. Perbedaan antara BSBI dan SPIMI adalah bahwa SPIMI menambahkan posting langsung ke daftar posting (baris 10). Daripada pertama mengumpulkan semua pasangan termID-docID. kemudian menyortir mereka (seperti yang kita lakukan di BSBI), masing-masing daftar posting adalah dinamis (yang adalah, ukuran disesuaikan seperti tumbuh) dan akan segera tersedia untuk mengumpulkan posting. Ini memiliki dua keuntungan. Hal ini lebih cepat karena tidak ada menyortir diperlukan. Dan ini akan menghemat memori karena kita melacak istilah milik sebuah daftar posting ke, sehingga termIDs dari posting tidak perlu disimpan. Sebagai hasilnya, blok bahwa setiap panggilan dari Invert SPIMI-proses dapat lebih besar dan indeks proses pembangunan secara keseluruhan lebih efisien. Karena kita tidak tahu betapa besar daftar posting sebuah istilah akan terjadi ketika Pertemuan pertama kita, kita mengalokasikan ruang untuk daftar posting singkat pada awalnya dan dua kali lipat setiap kali ruang penuh (baris 8-9). Ini berarti bahwa beberapa memori akan sia-sia dan melawan tabungan memori dari kelalaian dari termIDs dalam struktur data menengah. Namun, memori secara keseluruhan persyaratan untuk dibangun secara dinamis indeks blok di SPIMI adalah masih lebih rendah dari pada di BSBI.



Rangkuman Buku Text Bab 4 Dan 6

6. Skor istilah bobot dan model ruang vector

Sejauh ini kita telah berurusan dengan indeks yang mendukung Boolean queries: sebuah dokumen eithermatches atau apakah notmatch permintaan. Dalam kasus dokumen besar koleksi, jumlah hasil dokumen yang sesuai dapat jauh melebihi jumlah pengguna manusia yang bisa menyaring. Oleh karena itu, penting untuk sebuah mesin pencari untuk menentukan peringkat-memesan pencocokan dokumen permintaan. Melakukan ini, mesin pencari menghitung, untuk setiap pencocokan dokumen, skor dengan
terhadap permintaan di tangan. Dalam memulai studi chapterwe penugasan skor ke (query, dokumen) pasangan.

Kami memperkenalkan parametrik dan zona indeks dalam Bagian 6.1, yang berfungsi
dua tujuan. Pertama, mereka memungkinkan kita untuk mengindeks dan mengambil dokumen oleh metadata seperti bahasa di mana sebuah dokumen yang tertulis. Kedua,mereka memberi kita sarana untuk penilaian sederhana (dan dengan demikian peringkat) dokumen sebagai tanggapan atas permintaan. Selanjutnya, dalam Bagian 6,2 kita mengembangkan gagasan bobot pentingnya istilah dalam dokumen, berdasarkan statistik terjadinya istilah.
Pada Subbab 6,3 kami menunjukkan bahwa dengan melihat setiap dokumen sebagai vector seperti berat, kita dapat menghitung skor antara permintaan dan setiap dokumen. Pandangan ini dikenal sebagai ruang vektor mencetak gol.

Parametric dan zona indeks

Kami telah sejauh ini dipandang sebagai suatu dokumen urutan istilah. Bahkan, sebagian besar
dokumen memiliki struktur tambahan. Umumnya dokumen digital menyandi,
mesin-dikenali dalam bentuk, metadata tertentu yang terkait MET dengan setiap dokumen.
Dengan metadata, kita berarti bentuk-bentuk khusus data tentang dokumen, seperti
sebagai penulis (s), judul dan tanggal publikasi. Metadata ini akan umumnya
BIDANG meliputi bidang-bidang seperti tanggal penciptaan dan format dokumen, seperti
baik penulis dan mungkin judul dokumen.

Berat zona scoring

Sejauh dalam kita telah berfokus pada pengambilan dokumen berdasarkan Boolean query di ladang dan zona. Kita sekarang beralih ke aplikasi kedua zona dan ladang.
Boolean query diberi q dan sebuah dokumen d zona tertimbang menetapkan skor
ke pasangan (q, d) suatu nilai dalam interval [0, 1], dengan menghitung kombinasi linear
zona nilai, di mana setiap zona dokumen menyumbangkan Boolean

nilai. Lebih khusus lagi, pertimbangkan satu set dokumen masing-masing memiliki â„“
zona. Biarkan g1,. . . , G â„“
[0, 1] sehingga ℓ å
i = 1 gi = 1. Untuk 1 ≤ i ≤ â„“, biarkan si menjadi
Nilai boolean yang menunjukkan pertandingan (atau ketiadaan daripadanya) antara q dan engan
zona. Misalnya, nilai Boolean dari zona bisa 1 jika semua permintaan
istilah (s) yang terjadi di zona itu, dan nol sebaliknya; memang, itu bisa setiap Boolean
fungsi yang memetakan kehadiran istilah permintaan dalam zona ke 0, 1. Kemudian,
zona skor tertimbang didefinisikan sebagai Tertimbang zona scoring kadang-kadang disebut juga sebagai peringkat pencarian Boolean.

Belajar beban

Bagaimana kita menentukan bobot tertimbang gi untuk zona scoring? Ini
bobot dapat ditentukan oleh seorang ahli (atau, pada prinsipnya, user); namun semakin,
bobot ini adalah "belajar" dengan menggunakan contoh-contoh pelatihan yang telah
dinilai editorial.

Inverse Frekuensi Dokumen

Istilah mentah frekuensi seperti di atas menderita masalah yang kritis: semua persyaratan yang dianggap sama pentingnya ketika datang untuk menilai relevansi pada permintaan. Bahkan istilah tertentu memiliki sedikit atau tidak ada diskriminasi dalam menentukan kekuatan relevansi. Sebagai contoh, sebuah koleksi dokumen di mobil industri cenderung memiliki istilah otomatis di hampir setiap

dokumen.

IDF istilah yang langka tinggi, sedangkan IDF istilah yang sering adalah cenderung rendah

Model ruang vektor untuk penilaian

Representasi dari serangkaian dokumen sebagai vektor dalam ruang vektor yang umum dikenal sebagai spacemodel vektor dan merupakan dasar informasi host operasi pengambilan fromscoring berkisar pada permintaan dokumen, dokumen klasifikasi dan dokumen clustering.

Dot Pruducts

Kita menyatakan oleh ~ V (d) vektor berasal dari dokumen d, dengan satu komponen dalam vektor untuk masing-masing kamus istilah. Kecuali dinyatakan sebaliknya, pembaca boleh berasumsi bahwa komponen dihitung dengan menggunakan tf-IDF skema pembobotan, meskipun skema pembobotan tertentu immaterial dengan diskusi yang berikut. Himpunan dokumen dalam koleksi kemudian dapat dipandang sebagai satu set vektor dalam sebuah ruang vektor, di mana terdapat satu sumbu untuk setiap istilah.

Queri sebagai vector

Ada yang jauh lebih banyak alasan kuat untuk mewakili dokumen sebagai vektor: kita juga dapat melihat sebuah query sebagai sebuah vektor. Mempertimbangkan permintaan q = jealous gossip. Query ini berubah menjadi unit vektor ~ v (q) = (0, 0,707, 0,707) pada tiga Gambar koordinat 6,12 dan 6,13. Ide kunci sekarang: yang akan diberikan ke masing-masing dokumen d skor sama dengan perkalian titik

~ v (q) · ~ v (d)

Contoh 6.4: Kita sekarang mempertimbangkan permintaan asuransi mobil terbaik di koleksi fiktif dengan N = 1.000.000 dokumen di mana dokumen frekuensi otomatis, terbaik, mobil dan yang masing-masing asuransi 5000, 50.000, 10000 dan 1000.

Dalam contoh ini berat istilah dalam query hanya IDF (dan nol untuk termnot dalam pencarian, seperti auto); ini tercermin dalam kolom header wt, q (entri untuk auto adalah nol karena query tidak berisi termauto). Dokumen, kita menggunakan pembobotan tf tanpa penggunaan Euklidean IDF tapi dengan normalisasi. Mantan ditampilkan di bawah kolom wf, sedangkan yang terakhir ditampilkan di bawah kolom menuju wt, d. Meminjam (6,9) kini memberikan nilai bersih 0 + 0 + 0,82 + 2,46 = 3,28.

Komputasi nilai vector

Dalam pengaturan khas kami memiliki koleksi dokumen masing-masing diwakili oleh seorang vektor, teks bebas query diwakili oleh vektor, dan bilangan bulat positif K.







Fungsi Varian IDF tf

Untuk menentukan berat untuk setiap kata dalam setiap dokumen, sejumlah alternatif untuk tf tf-IDF dan telah dipertimbangkan.

tf Sublinear skala

Tampaknya tidak mungkin bahwa dua puluh kejadian termin dokumen yang benar-benar membawa dua puluh kali makna dari suatu kejadian tunggal. Oleh karena itu, ada penelitian telah banyak varian istilah frekuensi yang melampaui menghitung jumlah kejadian dari sebuah istilah.

tf normalisasi Maksimum

Salah satu teknik belajar dengan baik adalah untuk menormalkan bobot tf semua persyaratan terjadi dalam sebuah dokumen oleh themaximum tf dalam dokumen. Untuk setiap dokumen
d, biarkan tfmax (d) = maxτ
d tfτ, d, di mana τ berkisar atas segala istilah dalam d. Kemudian, kita menghitung jangka normalized frekuensi untuk setiap jangka dalam dokumen d t oleh

di mana a adalah nilai antara 0 dan 1 dan biasanya diatur ke 0.4, meskipun beberapa Smoothing karya awal menggunakan nilai 0,5.

Tf maksimum normalisasi tidak lepas dari isu-isu berikut:

1. Metode ini tidak stabil dalam pengertian berikut: perubahan dalam kata berhenti
Daftar istilah dapat secara dramatis mengubah bobot (dan karena itu peringkat). Jadi,
sulit tune.

2. Sebuah dokumen dapat mengandung sebuah istilah outlier dengan jumlah yang sangat besar dari kemunculan istilah tersebut, tidak mewakili isi yang dokumen.

3. gagha Lebih umum, sebuah dokumen di mana istilah yang paling sering muncul kasar sesering banyak istilah lain harus diperlakukan berbeda dari satu dengan distribusi yang lebih miring.

Minggu, 14 Maret 2010

1. Rekayasa Sosial (mencari gaji pejabat dan nomor HP artis)

No.hp luna maya 0817-6080458 saya dapatkan dari situs kapanlagi.com

Gaji Dirut PLN kira-kira 52 juta.(gaji pokok)

program kecil untuk mendapatkan daftar huruf yang paling sering muncul (secara urut) dalam:

(pascal)
procedure doParse (inputStr: string);
var
i, j, Imax, iChar, nChar: Integer;
myArray : array [1..26] of Char;
found : boolean;
begin
nChar := Length (inputStr) ;
iChar :=1;
for j:=1 to 26 do myArray[j].Freq :=0;
while (iChar <= nChar) do
begin
while (inputStr[iChar] in ['a'..'z']) do
begin
i :=1; found := false;
while ((i<=26) and (not found) do
begin
if (myArray[i].ch = inputStr[iChar]) then
begin
myArray[i].Freq:=myArray[i].Freq+1;
found :=true;
end
else
if (myArray[i].Freq = 0) then
begin
myArray[i].ch := inputStr[iChar];
myArray[i].Freq:=myArray[i].Freq+1;
found :=true;
end
else
i :=i+1;
end;
iChar :=iChar + 1;
end;
iChar := iChar + 1;
end;
writeln ('Hasil perhitungan frekuensi huruf :');
for i:=1 to 26 do
begin
if (myArray[i].Freq >0) then
writeln (myArray[i].ch, '',myArray[i].Freq);
end;
// mencari huruf yang paling sering muncul
Imax :=1;
for i := 2 to 26 do
if myArray[i].Freq > myArray[Imax].Freq then Imax :=1;

writeln ('Huruf yang paling sering muncul adalah huruf "', myArray[Imax].ch, '"yait
end;

website yang error untuk menangani login atau pemrosesan data input.

www.smpn6pamekasan.co.id

Sabtu, 13 Maret 2010

Istilah-Istilah Dalam Keamanan Komputer

Attachment adalah sebuah file yang dikirim bersama dengan message tapi bukan bagian dari Main Message. Biasanya berupa gambar, program, word processor file, dsb. Hal ini disebabkan, Sebagian besar dari Program E-mail hanya mensupport Plain Text pada bagian Body Text

Plaintext adalah data atau informasi yang dibaca dan dimengerti maknanya.

Ciphertext adalah pesan yang tidak dapat dimengerti maknanya oleh pihak lain, maka pesan harus disandikan ke bentuk lain yang tidak dapat dipahami.

Cryptograpgy adalah ilmu untuk menjaga kerahasiaan pesan dengan cara menyandikan ke bentuk yang tidak mengerti.

Cryptanalysis adalah seni dan ilmu untuk memecahkan ciphertext tanpa bantuan kunci. Cryptanalyst pelaku atau praktisi yang menjalankan cryptanalysis.

Spoofing adalah pencurian passward melalui pemalsuan halaman login

Cryptology adalah Seni membuat atau memechakan sandi secara kolektif

Hacker adalah sebutan untuk orang atau sekelompok orang yang memberikan sumbangan bermanfaat untuk dunia jaringan dan sistem operasi, membuat program bantuan untuk dunia jaringan dan komputer.Hacker juga bisa di kategorikan perkerjaan yang dilakukan untuk mencari kelemahan suatu system dan memberikan ide atau pendapat yang bisa memperbaiki kelemahan system yang di temukannya.

Cracker adalah sebutan untuk orang yang mencari kelemahan system dan memasukinya untuk kepentingan pribadi dan mencari keuntungan dari system yang di masuki seperti: pencurian data, penghapusan, dan banyak yang lainnya.

Encryption adalah cara yang paling efektif untuk memperoleh pengamanan data. Untuk membaca file yang di-enkrip, kita harus mempunyai akses terhadap kata sandi yang memungkinkan kita men-dekrip pesan tersebut. Data yang tidak di-enkrip disebut plaintext, sedangkan yang di-enkrip disebut ciphertext.

Decryption adalah mengubah kembali hasil enkripsi ke bentuk aslinya sehingga informasi tersebut dapat dibaca.

Protection adalah fasilitas dalam domain manager yang berfungsi untuk menyembunyikan informasi kepemilikan domain.

Security adalah Faktor keamanan informasi dengan menggunakan teknologi. Hal tersebut disebabkan karena adanya kelemahan-kelemahan di dalam jaringan suatu, system, dan teknologi yang digunakan. Kelemahan-kelemahan itu biasanya dimanfaatkan untuk menyusup ke dalam suatu jaringan komputer tanpa diketahui pengelolanya.

Masquerading adalah salah satu fasilitas di Linux yang memungkinkan komputer yang tidak memiliki nomor IP resmi dapat tersambung ke internet melewati komputer Linux.

Intruder adalah Penyusup. orang yang menyusup, orang yang ikut campur. Istilah ini digunakan untuk orang yang menyusup pada suatu sistem.

Threat adalah ancaman terhadap system atau suatu data. Ancaman tersebut berupa kerahasiaan, integritas dan ketersediaan.

Poisoning adalah meracuni. Contoh dari poisoning ini adalah serangan server DNS (DNS poisoning) yaitu merupakan teknik untuk meracuni cache pada suatu server DNS dengan data atau informasi yang salah.