Parser HTML
Moderator: Pomocy?!
Posty: 6
• Strona 1 z 1
Parser HTML
Przeglądarka: Mozilla/5.0 (Windows; U; Windows NT 5.1; pl-PL; rv:1.7.6) Gecko/20050226 Firefox/1.0.1
Witam. Czy ktoś zna może jakieś parsery dla HTML potrafiące pobrać i wyświetlić poszczególne informacje znajdujące się na stronach. Chodzi o to żeby parser wyświetlał informacje na temat konferencji informatycznych, które niestety nie znajdują się w żadnej bazie xmlowej, ale są w zwyczajnym htmlu. Dla przykładu podałem link do strony, która docelowo miałaby być parsowana (lewa strona - informacje na temat konferencji). Najlepiej byłoby gdyby istaniało podobne rozszerzenie do FireFoxa. Z góry dzięki za pomoc. Pozdr.
- Gość
Przeglądarka: Mozilla/5.0 (Windows; U; Windows NT 5.1; pl-PL; rv:1.7.6) Gecko/20050321 Firefox/1.0.2
rozszerzenia jako takiego nie ma, ale tak w ogóle to jest trochę narzędzi na podstawie których można coś takiego wysmażyć:
http://sourceforge.net/search/ i jako hasło wrzuć "html parser"
ja osobiście bawiłem się ciekawym narzędziem flaszowym:
http://sourceforge.net/projects/fpxhtmlrender/
z tym, że FP XHTML Render wymaga XHTML a ta twoja strona nie jest nawet zgodna z HTML
http://sourceforge.net/search/ i jako hasło wrzuć "html parser"
ja osobiście bawiłem się ciekawym narzędziem flaszowym:
http://sourceforge.net/projects/fpxhtmlrender/
z tym, że FP XHTML Render wymaga XHTML a ta twoja strona nie jest nawet zgodna z HTML
- cyberrus
- Posty: 620
- Z nami od: 31 maja 2004, 09:13
Przeglądarka: Mozilla/5.0 (X11; U; Linux i686; pl-PL; rv:1.8a6) Gecko/20050111 MultiZilla/1.8.0.1d
jak wszystko dobrze pojdzie to pod koniec semestru bede wiedzial jak takie narzedzie wlasnorecznie napisac
- Adrianer
- Moderator
- Posty: 1771
- Z nami od: 15 maja 2002, 17:37
- Lokalizacja: Bern/Switzerland
Przeglądarka: Mozilla/5.0 (Windows; U; Windows NT 5.1; pl-PL; rv:1.7.6) Gecko/20050321 Firefox/1.0.2
Raczej ciężko będzie coś takiego zrobić z tą stroną. Nie ma szans rozpoznać, że w danym tagu jest to co Cię interesuje.
Może lepiej zacząć nagabywać autorów stron o udostępnienie tych informacji w jakimś bardziej znośnym formacie (RSS?)
nikdo
Może lepiej zacząć nagabywać autorów stron o udostępnienie tych informacji w jakimś bardziej znośnym formacie (RSS?)
nikdo
Połączenia PKP prosto z sidebaru: http://dziedzic.org/pkpanel/
- nikdo
- Posty: 421
- Z nami od: 20 lutego 2003, 16:30
- Lokalizacja: rybnik
Przeglądarka: Mozilla/5.0 (Windows; U; Windows NT 5.1; pl-PL; rv:1.8b2) Gecko/20050416 MultiZilla/1.8.0.1d
nikdo pisze:Raczej ciężko będzie coś takiego zrobić z tą stroną. Nie ma szans rozpoznać, że w danym tagu jest to co Cię interesuje.
Ja mam za zadanie napisać program, który z dowolnie wybranej strony ma zczytywać kursy akcji. Do tej pory sądziłem, że napisanie czegoś tak uniwersalnego jest nie możliwe - jak narazie sądzę tak dalej... ale mój prof twierdzi coś innego...
- Adrianer
- Moderator
- Posty: 1771
- Z nami od: 15 maja 2002, 17:37
- Lokalizacja: Bern/Switzerland
Przeglądarka: Opera/8.02 (Windows NT 5.1; U; pl)
Napisanie parserka jest w miarę proste, o ile robisz to w Delphi (na innych się nie znam). Wstawiasz jakiś tam komponent z palety Indy Clients (to był chyba IdHTTP) i pobierasz nim kod strony. Potem lecisz w pętli po znakach, aż napotkasz coś interesującego (najpierw przeglądnij kod html tej strony). Potem zapisujesz te informacje do zmiennej, i na końcu te informacje odczytujesz. Proste?
- Gy-Gy
Posty: 6
• Strona 1 z 1
Wróć do Rozszerzenia dla pakietów SeaMonkey i Mozilla Suite
Kto jest online
Zarejestrowani użytkownicy: Bing [Bot], dexter, Google [Bot]