Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > Java программирование > Общие вопросы по Java, Java SE, Kotlin
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 25.08.2011, 21:16   #1
Jakethefish
Форумчанин
 
Регистрация: 13.11.2009
Сообщений: 121
По умолчанию как парсить HTML ?

Всем привет.

Собственно сабж.
Читал про xpath, но пока ничего толкового не нарыл. Посоветуйте что-нибудь толкового, фреймворки в принципе не интересуют особо, устроит и xpath, так как если я правильно понял это что-то вроде jquery, но не нарыть толковой инфы как и чего делается.
Jakethefish вне форума Ответить с цитированием
Старый 25.08.2011, 21:29   #2
Пепел Феникса
Старожил
 
Аватар для Пепел Феникса
 
Регистрация: 28.01.2009
Сообщений: 21,000
По умолчанию

xpath насколько я помню к XML относится.
редко очень можно загрузить XHTML(именно X) как XML(хотя я делал, но я вырезал кусок, и потом правил в нем ошибки(для XML))

а пропарсить поидее можно обычными методами string, смотря что надо оттуда достать.
Хорошо поставленный вопрос это уже половина ответа. | Каков вопрос, таков ответ.
Программа делает то что написал программист, а не то что он хотел.
Функции/утилиты ждут в параметрах то что им надо, а не то что вы хотите.
Пепел Феникса вне форума Ответить с цитированием
Старый 25.08.2011, 21:29   #3
Jakethefish
Форумчанин
 
Регистрация: 13.11.2009
Сообщений: 121
По умолчанию

Вот кажется нашел.

http://jsoup.org/cookbook/extracting...elector-syntax
Jakethefish вне форума Ответить с цитированием
Старый 27.08.2011, 20:04   #4
alexinspir
Новичок
Джуниор
 
Аватар для alexinspir
 
Регистрация: 26.08.2008
Сообщений: 1,010
По умолчанию

Для разбора html я использовал HtmlCleaner, с помощью которого получал org.w3c.dom.Document, из которого уже с помощью стандартного XPath извлекал интересующую меня информацию.

Цитата:
Сообщение от Пепел Феникса Посмотреть сообщение
а пропарсить по идее можно обычными методами string, смотря что надо оттуда достать.
Очень сложно посредством методов String доставать необходимую информацию, да и эффективность/производительность данного подхода будет не самой лучшей.
При некоторых требованиях к входному документу можно использовать регекспы, но используя стандартный механизм, придется для каждого регекспа пробегаться по документу.
ромик0: Cколько получают здешние модераторы?
pu4koff: У модераторов сдельная оплата труда. Выдал предупреждение - плюс к премии. Выдал бан - лучший модератор месяца со всеми вытекающими.

Последний раз редактировалось alexinspir; 27.08.2011 в 20:09.
alexinspir вне форума Ответить с цитированием
Старый 28.08.2011, 10:02   #5
Jakethefish
Форумчанин
 
Регистрация: 13.11.2009
Сообщений: 121
По умолчанию

alexinspir, скажите, есть ли у вас какие-либо образцы кода Вашего метода, а также какой-нибудь мануал по xpath, а то в сети ничего понятного пока не пошел.
P.S. JSoup вполне подходит для моих целей, есть возможность сохранять и использовать куки, посылать пост и гет запросы, а также использовать CSS синтаксис для разбора документа.
Jakethefish вне форума Ответить с цитированием
Старый 28.08.2011, 15:32   #6
alexinspir
Новичок
Джуниор
 
Аватар для alexinspir
 
Регистрация: 26.08.2008
Сообщений: 1,010
По умолчанию

Цитата:
Сообщение от Jakethefish Посмотреть сообщение
alexinspir, скажите, есть ли у вас какие-либо образцы кода Вашего метода
у меня разбором html занимается не 1 класс а целый граф классов под абстракциями, которые не могут служить примером, и я не могу их дать из-за nda
Цитата:
Сообщение от Jakethefish Посмотреть сообщение
а также какой-нибудь мануал по xpath, а то в сети ничего понятного пока не пошел.
XPath (Использовать мануалы по xpath в контексте xslt не рекомендую.)

XPath ebook

java xpath example
ромик0: Cколько получают здешние модераторы?
pu4koff: У модераторов сдельная оплата труда. Выдал предупреждение - плюс к премии. Выдал бан - лучший модератор месяца со всеми вытекающими.
alexinspir вне форума Ответить с цитированием
Старый 22.10.2011, 19:54   #7
dox07
Пользователь
 
Регистрация: 16.02.2010
Сообщений: 26
По умолчанию

предлагаю использовать antlr. вся инфа на сайте www.antrl.org По сути это построитель парсера для разбора входного текста. Можно грузить из файла и затем обрабатывать текст или же прямо просто на вход текст подавать. Более того можно использовать просто лексер, и на основе лексем разбирать данные с учетом контекста. Недавно делал парсер формул математических, оч. помог именно лексер, а на основе потока лексем уже разбирал дальше и генерил дерево.
dox07 вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц

Опции темы Поиск в этой теме
Поиск в этой теме:

Расширенный поиск


Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Парсить текст в лево bulldog5293 Общие вопросы Delphi 10 12.05.2011 00:00
Парсить ссылки GoldmasteR PHP 1 21.12.2010 11:56
Забыл как парсить bulldog5293 Общие вопросы Delphi 1 18.11.2010 21:13
как парсить ссылку на время bulldog5293 Общие вопросы Delphi 3 12.08.2010 21:46
Как вывести код html из файла на страницу HTML Рамирас JavaScript, Ajax 1 25.07.2010 20:06