MozillaPL.org - polskie centrum Mozilli

Główne menu:

Parser HTML

Dodatki rozszerzające funkcjonalność i schematy wyglądu pakietów SeaMonkey oraz Mozilla Suite

Moderator: Pomocy?!

Parser HTML

Postautor: Gość » 03 kwietnia 2005, 08:04

Przeglądarka: Mozilla/5.0 (Windows; U; Windows NT 5.1; pl-PL; rv:1.7.6) Gecko/20050226 Firefox/1.0.1

Witam. Czy ktoś zna może jakieś parsery dla HTML potrafiące pobrać i wyświetlić poszczególne informacje znajdujące się na stronach. Chodzi o to żeby parser wyświetlał informacje na temat konferencji informatycznych, które niestety nie znajdują się w żadnej bazie xmlowej, ale są w zwyczajnym htmlu. Dla przykładu podałem link do strony, która docelowo miałaby być parsowana (lewa strona - informacje na temat konferencji). Najlepiej byłoby gdyby istaniało podobne rozszerzenie do FireFoxa. Z góry dzięki za pomoc. Pozdr.
Gość
 

Postautor: cyberrus » 03 kwietnia 2005, 12:25

Przeglądarka: Mozilla/5.0 (Windows; U; Windows NT 5.1; pl-PL; rv:1.7.6) Gecko/20050321 Firefox/1.0.2

rozszerzenia jako takiego nie ma, ale tak w ogóle to jest trochę narzędzi na podstawie których można coś takiego wysmażyć:
http://sourceforge.net/search/ i jako hasło wrzuć "html parser"

ja osobiście bawiłem się ciekawym narzędziem flaszowym:
http://sourceforge.net/projects/fpxhtmlrender/
z tym, że FP XHTML Render wymaga XHTML a ta twoja strona nie jest nawet zgodna z HTML
cyberrus
 
Posty: 620
Z nami od: 31 maja 2004, 09:13

Postautor: Adrianer » 15 kwietnia 2005, 10:04

Przeglądarka: Mozilla/5.0 (X11; U; Linux i686; pl-PL; rv:1.8a6) Gecko/20050111 MultiZilla/1.8.0.1d

jak wszystko dobrze pojdzie to pod koniec semestru bede wiedzial jak takie narzedzie wlasnorecznie napisac ;)
Adrianer
Moderator
 
Posty: 1770
Z nami od: 15 maja 2002, 17:37
Lokalizacja: Aachen/Germany

Postautor: nikdo » 15 kwietnia 2005, 13:14

Przeglądarka: Mozilla/5.0 (Windows; U; Windows NT 5.1; pl-PL; rv:1.7.6) Gecko/20050321 Firefox/1.0.2

Raczej ciężko będzie coś takiego zrobić z tą stroną. Nie ma szans rozpoznać, że w danym tagu jest to co Cię interesuje.

Może lepiej zacząć nagabywać autorów stron o udostępnienie tych informacji w jakimś bardziej znośnym formacie (RSS?)

nikdo

Połączenia PKP prosto z sidebaru: http://dziedzic.org/pkpanel/
nikdo
 
Posty: 421
Z nami od: 20 lutego 2003, 16:30
Lokalizacja: rybnik

Postautor: Adrianer » 16 kwietnia 2005, 21:51

Przeglądarka: Mozilla/5.0 (Windows; U; Windows NT 5.1; pl-PL; rv:1.8b2) Gecko/20050416 MultiZilla/1.8.0.1d

nikdo pisze:Raczej ciężko będzie coś takiego zrobić z tą stroną. Nie ma szans rozpoznać, że w danym tagu jest to co Cię interesuje.

Ja mam za zadanie napisać program, który z dowolnie wybranej strony ma zczytywać kursy akcji. Do tej pory sądziłem, że napisanie czegoś tak uniwersalnego jest nie możliwe - jak narazie sądzę tak dalej... ale mój prof twierdzi coś innego...
Adrianer
Moderator
 
Posty: 1770
Z nami od: 15 maja 2002, 17:37
Lokalizacja: Aachen/Germany

Postautor: Gy-Gy » 08 grudnia 2005, 20:18

Przeglądarka: Opera/8.02 (Windows NT 5.1; U; pl)

Napisanie parserka jest w miarę proste, o ile robisz to w Delphi (na innych się nie znam). Wstawiasz jakiś tam komponent z palety Indy Clients (to był chyba IdHTTP) i pobierasz nim kod strony. Potem lecisz w pętli po znakach, aż napotkasz coś interesującego (najpierw przeglądnij kod html tej strony). Potem zapisujesz te informacje do zmiennej, i na końcu te informacje odczytujesz. Proste?
Gy-Gy
 


Wróć do Rozszerzenia dla pakietów SeaMonkey i Mozilla Suite

Kto jest online

Zarejestrowani użytkownicy: Bing [Bot], Google [Bot]

Przejdź do powiązanej strony

Nawigacja:

Stopka: