Sunday, July 17, 2011

Data Mining, Web Fetching Atau Mencuri Isi Web
 
Pernahkah Anda menemukan situs yang isinya adalah kumpulan penggalan artikel dari situs-situs lain?
Pernahkah Anda punya bayangan untuk mencuri download link dari gudanglagu.com?
Pernahkah Anda punya rencana untuk mengumpulkan sebanyak mungkin alamat email?
Pernahkah Anda ingin membuat situs pencari artikel pdf?
ingin membuat auto content web? auto blog?
Mungkin sebelum harapan Anda terwujud ada baiknya kita belajar bareng gimana melakukan data mining / lebih fokus ke web fetching dengan PHP. Untuk memperdalam teknik-teknik data mining atau penggalian data bisa merujuk ke wikipedia tentang penggalian data
Untuk studi kasus mari kita curi data-data dari gudanglagu.com . Saya pernah melakukannya dan mendapatkan lebih kurang 7000 link download dalam waktu yang tidak terlalu lama. Yah, paling tidak sudah cukup untuk memulai sebuah situs download mp3 atau menjual script download mp3 plus databasenya.
Mari kita lakukan, tapi terlebih dahulu siapkan webserver di komputer lokal Anda. Saya tidak menganjurkan melakukan di tempat hostingan asli, memang apabila dihost di sana penggalian data akan berpuluh-puluh kali lebih cepat. Tapi penggunaan resource yang besar akan sangat mungkin account Anda disuspend. Saya sudah mengalaminya 2 kali dan kapok. Optimasi script saya untuk webhosting beneran tidak pernah berhasil. Paling tidak untuk saat ini hehehe.
get website content atau mengambil isi web bisa kita lakukan dengan banyak cara.
Dengan PHP diantaranya adalah dengan:
Mungkin masih ada teknik lainnya, dan kita tidak akan membahas semuanya. Saya akan menampilkan satu contoh dengan file_get_contents

  1.    
  2. $homepage = file_get_contents('http://gudanglagu.com/');  
  3. echo $homepage;  
  4. ?>  
dengan script di atas kita bisa mendapatkan seluruh kode HTML dari http://gudanglagu.com bahkan tampilannya sama persis dengan halaman depan gudanglagu.com. Ya memang semua kodenya kita ambil dan kita tampilkan di localhost.
Pertanyaan selanjutnya adalah bagaimana mengambil sebagian isi dari gudanglagu.com. Misalkan kita akan mengambil headlinenya, jadi kita analisa dulu kode HTMLnya. Headline gudanglagu.com ternyata diawali dengan dan diakhiri dengan dengan kata lain isi yang kita harapkan diapit dengan dua buah komen di atas.
Selanjutnya adalah mencari posisi dan posisi menggunakan strpos

  1. $homepage = file_get_contents('http://gudanglagu.com/');  
  2.   
  3. $string_awal   = '';  
  4. $string_akhir   = '';  
  5.   
  6. $pos_awal = strpos($homepage$string_awal);  
  7. $pos_akhir = strpos($homepage$string_akhir);  
  8.   
  9. echo 'awal: ',$pos_awal,'';  
  10. echo 'akhir: ',$pos_akhir,'';  
  11. ?>  
  12.     
Dari situ kita tahu posisi awal dan akhirnya, tinggal kita extract pakai substr

  1.    
  2.   
  3. $homepage = file_get_contents('http://gudanglagu.com/');  
  4.   
  5. $string_awal   = '';  
  6. $string_akhir   = '';  
  7.   
  8. $pos_awal = strpos($homepage$string_awal);  
  9. $pos_akhir = strpos($homepage$string_akhir);  
  10.   
  11. echo 'awal: ',$pos_awal,'';  
  12. echo 'akhir: ',$pos_akhir,'';  
  13.   
  14. echo 'Hasilnya:';  
  15. echo substr($homepage$pos_awal$pos_akhir);  
  16.   
  17. ?>  
  18.     
Dan walla.... sudah bisa menampilkan data yang kita inginkan. walaupun tidak begitu sempurna.
Cara lain adalah dengan menggunakan explode.

  1.    
  2.   
  3. $homepage = file_get_contents('http://gudanglagu.com/');  
  4.   
  5. $string_awal   = '';  
  6. $string_akhir   = '';  
  7.   
  8. $homepage = explode($string_awal$homepage);  
  9. $homepage = explode($string_akhir$homepage[1]);  
  10.    
  11. echo 'Hasilnya:';  
  12. echo $homepage[0];  
  13.   
  14. ?>  
  15.     
Dan dengan cara ini hasilnya lebih bagus, pertanyaannya berapa resource yang digunakan untuk script ini? Berapa lama waktu eksekusi script untuk satu halaman. Kalau satu halaman saja membutuhkan waktu sekian lama, berapa lama untuk mengambil keseluruhan data dari satu situs segede gudanglagu.com?
Baiklah, saya akan memberi alternatif lain dengan menggunakan HTML DOM. Dan saya tidak mau repot dengan urusan ini karena sudah ada "PHP Simple HTML Dom parser" yang akan memudahkan segalanya. Tinggal kita unduh saja dan ambil satu file yaitu simple_html_dom.php dan kita include saja.
Lets do it, kita akan mengambil semua link di halaman depan gudanglagu.com dengan script ini:

  1.    
  2. require 'simple_html_dom.php';  
  3.   
  4. // Create DOM from URL or file  
  5. $html = file_get_html('http://www.gudanglagu.com/');  
  6.   
  7. // Find all images  
  8. foreach($html->find('a'as $element)  
  9.        echo $element->href . '
    '
    ;  
  10.   
  11. ?>  
  12.     
contoh lain, kalau ingin mengambil semua gambar bisa dengan ini:

  1.    
  2.   
  3. require 'simple_html_dom.php';  
  4.   
  5. // Create DOM from URL or file  
  6. $html = file_get_html('http://www.gudanglagu.com/');  
  7.   
  8. // Find all images  
  9. foreach($html->find('img'as $element)  
  10.        echo $element->src . '
    '
    ;  
  11.   
  12. ?>  
  13.     

Contoh untuk gudanglagu.com

1. Mendapatkan link dari tangga lagu.

  1.    
  2.   
  3. require 'simple_html_dom.php';  
  4.   
  5. // Create DOM from URL or file  
  6. $html = file_get_html('http://gudanglagu.com/tanggalagu.php');  
  7.   
  8. // Find all images  
  9. foreach($html->find('a'as $element) {  
  10.     $url = $element->href ;  
  11.     echo $url,'';  
  12.   }  
  13. ?>    
  14.     
2. Mendapatkan alamat download lagu

  1.    
  2.   
  3. require 'simple_html_dom.php';  
  4.   
  5. // Create DOM from URL or file  
  6. $html = file_get_html('http://gudanglagu.com/a/astrid/astrid-tak-ingin-dicintai/');  
  7.    
  8.   
  9. foreach($html->find('div#linkdl'as $e) {  
  10.     foreach($e->find('a'as $a)  
  11.         echo $a->href . '
    '
    ;  
  12. }  
  13.   
  14. ?>  
  15.     
kalau dulu mereka masih menampilkan alamat download ke 4shared, tapi sekarang sudah digandi ke alamat download otomatis dari 4shared. Kita juga bisa kok bikin seperti ini. Dengan penerapan seperti ini juga tentunya.
3. Gabungan dari 2 script di atas, download mp3 tangga lagu populer gudanglagu.com

  1.    
  2.   
  3. require 'simple_html_dom.php';  
  4.   
  5. // Create DOM from URL or file  
  6.   
  7. $sedot = $_GET[sedot];   
  8.   
  9. if ($sedot) {  
  10.   echo '

    Download mp3 dari tangga lagu gudanglagu.com

    '
    ;  
  11.     
  12.   $html = file_get_html($sedot);  
  13.   foreach($html->find('div#linkdl'as $e) {  
  14.       foreach($e->find('a'as $a)  
  15.           echo ',$a->href,'">DOWNLOAD NOW';  
  16.   }  
  17.   echo 'powered by http://gecko.web.id
';  
  • else {  

  •   echo '

    Download lagu Indonesia populer 

    '
    ;  

  •   echo '
      ';  
    1.   $html = file_get_html('http://gudanglagu.com/tanggalagu.php');  
    2.     foreach($html->find('a'as $a) {  
    3.         $url =  $a->href ;  
    4.         $judul = $a->innertext ;  
    5.         echo '
    6. ,urlencode($url),'">',$judul,'
    7. ';  
    8.     }  
    9.   echo '
    '
    ;  

  • }  

  •   

  • ?>  

  •     


  • Conclution

    Data mining atau penggalian data amat penting bagi kita yang ingin membuat website sedangkan tidak punya kemampuan untuk menulis konten, atau ingin membuat website dengan jumlah data yang banyak dan terlalu malas mengentry data. Tapi dalam data mining seharusnya kita juga menghargai orang yang punya konten asli; misalnya dengan menyebutkan sumber, tidak asal sedot semua. Perhatikan copyright dari empunya konten.
    Dalam hal menggali data lewat web fechting atau screen scrapping atau web grabing kita juga perlu memperhatikan penggunaan resource kita. Jangan asal grab, ingat penggunaan rsource server berlebihan akan menyebabkan disuspend oleh penyedia hosting. Ini terjadi kalau kita pakai shared host. Jika tidak ingin disuspend ya harus hemat resource atau upgrade hosting kita ke paket yang lebih besar.
    Untuk menghemat resource kita bisa melakukan penjadwalan pada script kita. Jadi kita melakukan grab misalnya sehari sekali dan konten disimpan di database. Atau menggunakan web caching. Halaman kita cache selama 24 jam. Toh tangga lagunya gudanglagu.com tidak berubah setiap saat. Saya rasa satu hari sekali sudah cukup.
    Amat salah kalau tiap ada user mau lihat tangga lagu kita melakukan grabbing. ya habislah resource kita. Malahan bisa-bisa disuspend bahkan diusir dengan paksa dari hostingan kita.
    Saya rasa untuk dasar sekian aja dulu, bila ada tambahan, atau ada script fetching hasil karya Anda yang mau dishare di sini, silahkan. Ada ide untuk tutorial fetching berikutnya juga silahkan. Semoga bermanfaat untuk kebaikan..
    Sumber : http://gecko.web.id

    1 comment:

    Unknown said...

    kereen om :D
    bisa dicoba dilocalhost ga ya?
    dan mampir juga ya om ke blog saya..

    Klik Disini

    Salam Blogwalker :D

    Template by : mhiman@ hacker-newbie.org