MozillaPL.org - polskie centrum Mozilli

autor: **Gość** » 03 kwietnia 2005, 08:04

Witam. Czy ktoś zna może jakieś parsery dla HTML potrafiące pobrać i wyświetlić poszczególne informacje znajdujące się na stronach. Chodzi o to żeby parser wyświetlał informacje na temat konferencji informatycznych, które niestety nie znajdują się w żadnej bazie xmlowej, ale są w zwyczajnym htmlu. Dla przykładu podałem link do strony, która docelowo miałaby być parsowana (lewa strona - informacje na temat konferencji). Najlepiej byłoby gdyby istaniało podobne rozszerzenie do FireFoxa. Z góry dzięki za pomoc. Pozdr.

autor: **cyberrus** » 03 kwietnia 2005, 12:25

rozszerzenia jako takiego nie ma, ale tak w ogóle to jest trochę narzędzi na podstawie których można coś takiego wysmażyć:
http://sourceforge.net/search/ i jako hasło wrzuć "html parser"

ja osobiście bawiłem się ciekawym narzędziem flaszowym:
http://sourceforge.net/projects/fpxhtmlrender/
z tym, że FP XHTML Render wymaga XHTML a ta twoja strona nie jest nawet zgodna z HTML

autor: **Adrianer** » 15 kwietnia 2005, 10:04

jak wszystko dobrze pojdzie to pod koniec semestru bede wiedzial jak takie narzedzie wlasnorecznie napisac

autor: **nikdo** » 15 kwietnia 2005, 13:14

Raczej ciężko będzie coś takiego zrobić z tą stroną. Nie ma szans rozpoznać, że w danym tagu jest to co Cię interesuje.

Może lepiej zacząć nagabywać autorów stron o udostępnienie tych informacji w jakimś bardziej znośnym formacie (RSS?)

nikdo

autor: **Adrianer** » 16 kwietnia 2005, 21:51

nikdo pisze:Raczej ciężko będzie coś takiego zrobić z tą stroną. Nie ma szans rozpoznać, że w danym tagu jest to co Cię interesuje.

Ja mam za zadanie napisać program, który z dowolnie wybranej strony ma zczytywać kursy akcji. Do tej pory sądziłem, że napisanie czegoś tak uniwersalnego jest nie możliwe - jak narazie sądzę tak dalej... ale mój prof twierdzi coś innego...

autor: **Gy-Gy** » 08 grudnia 2005, 20:18

Napisanie parserka jest w miarę proste, o ile robisz to w Delphi (na innych się nie znam). Wstawiasz jakiś tam komponent z palety Indy Clients (to był chyba IdHTTP) i pobierasz nim kod strony. Potem lecisz w pętli po znakach, aż napotkasz coś interesującego (najpierw przeglądnij kod html tej strony). Potem zapisujesz te informacje do zmiennej, i na końcu te informacje odczytujesz. Proste?

MozillaPL.org - polskie centrum Mozilli

Główne menu:

Parser HTML

Parser HTML

Kto jest online

Nawigacja:

Stopka: