17 Mayıs 2014 Cumartesi

JSoup - Java İle HTML Parsing İşlemleri

HTML parsing yani HTML parçalama işlemi bir web sitesinden veri elde etmek için HTML DOM yapısını ve CSS mantığını kullanarak veriyi html yapısından ayrıştırıp  kullanılabilir hale getirdiğimiz işlemlerdir.

Öncelikle nasıl bir yapı üzerinde çalıştığınızı bilmelisiniz.

HTML Dom (Document-Object-Model) Nedir?

"DOM", "Belge Nesnesi Modeli" anlamlarına da gelmektedir. İnternet tarayıcıları girilen internet sayfasını bir belge, bu belge (sayfa) içerisinde bulunan tüm elemanları da nesne olarak kabul eder.

 Buna göre resim, yazı, form gibi tüm elemanlar nesnedir ve tüm elemanlar arasında bir hiyerarşi mevcuttur. İşte DOM sayfa içindeki herhangi bir nesnenin özelliğine müdahele edebilmemize, nesne özelliklerini değiştirebilmemize olanak sağlar.

Daha detaylı bilgi için tıklayınız.

Yukarıdaki resimde hiyerarşik yapıyı görmektesiniz. HTML elementleri arasında en üst eleman document nesnesi ve parçalama işlemlerinde önce document nesnesi elde edilecek ve daha sonra verinin bulunduğu nesneye hiyerarşiye uygun şekilde ulaşılacak.

Eğer bir textarea nesnesinden veri çekilecekse Document -> Form -> TextArea şeklinde sırayla nesneler elde edilecek ve ilgili nesneden veri elde edilecek.

JSoup Nedir?

JSoup bize HTML parçalama işlemlerinde yardımcı olacak açık kaynak kodlu bir java kütüphanesidir. Gerek HTML Dom yapısı ile gerek CSS seçicileri ile HTML elementlerine bu kütüphane yardımıyla ulaşılacak.

Tebrikler sıkıcı kısmı atlattık. Artık JSoup derslerine geçebilirsiniz.
Java4Fun - JSoup Dersleri

#REFERANSLAR
http://tr.wikipedia.org/wiki/Document_Object_Model
http://jsoup.org/

0 yorum:

Yorum Gönder

Java4Fun Copyright © 2011 | Template created by O Pregador | Powered by Templates de luxo