Web crawler adalah suatu program atau script otomatis yang relatif simple, yang dengan metode tertentu melakukan scan atau “crawl” ke semua halaman-halaman Internet untuk membuat index dari data yang dicarinya. Nama lain untuk web crawl adalah web spider, web robot, bot, crawl dan automatic indexer.
Web crawl dapat digunakan untuk beragam tujuan. Penggunaan yang paling umum adalah yang terkait dengan search engine. Search engine menggunakan web crawl untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web publik. Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna Internet mengetikkan kata pencarian di komputernya, search engine dapat dengan segera menampilkan web site yang relevan.
Ketika web crawl suatu search engine mengunjungi halaman web, ia “membaca” teks yang terlihat, hyperlink, dan konten berbagai tag yang digunakan dalam situs seperti meta tag yang banyak berisi keyword. Berdasar informasi yang dikumpulkan web crawl, search engine akan menentukan mengenai apakah suatu situs dan mengindex informasinya. Website itu kemudian dimasukkan ke dalam database search engine dan dilakukan proses penentuan ranking halaman-halamannya.
Namun search engine bukanlah satu-satunya pengguna web crawl. Linguist bisa menggunakan web crawl untuk melakukan analisis tekstual; yakni, mereka bisa menyisir Internet untuk menentukan kata apa yang paling umum digunakan hari ini. Peneliti pasar dapat menggunakan web crawl untuk menentukan dan memanipulasi trend pada suatu pasar tertentu. Ini semua merupakan contoh beragam penggunaan web crawl. Web crawl dapat digunakan oleh siapapun yang melakukan pencarian informasi di Internet.
Web crawl bisa beroperasi hanya sekali, misalnya untuk suatu projek yang hanya sekali jalan, atau jika tujuannya untuk jangka panjang seperti pada kasus search engine, mereka bisa diprogram untuk menyisir Internet secara periodik untuk menentukan apakah sudah berlangsung perubahan signifikan. Jika suatu situs mengalami trafik sangat padat atau kesulitan teknis, spider atau crawl dapat diprogram untuk mencatat hal ini dan mengunjunginya kembali setelah kesulitan teknis itu terselesaikan.
From : Ilmukomputer.
pass : sembodoo
http://sembodoo.blogspot.com/
Tuesday, April 23, 2013
Sedikit Tentang Web Crawler, Web Spider, Web Robot, WebBot
About Unknown
Soratemplates is a blogger resources site is a provider of high quality blogger template with premium looking layout and robust design. The main mission of templatesyard is to provide the best quality blogger templates.
Tutorial Joomla
Label:
Tutorial blog,
Tutorial Joomla
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment