Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > Delphi программирование > Общие вопросы Delphi
Регистрация

Восстановить пароль

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 09.04.2013, 19:28   #1
Pcrepair
Форумчанин
 
Регистрация: 04.01.2011
Сообщений: 267
По умолчанию Парсинг выдачи поисковиков

Добрый день. Есть необходимость получить результаты выдачи по поисковым словам с гугля, яхуу, алтависты и подобных.
Необходимо:
- отправить запрос
- получить страницу
- собрать со страницы все УРЛ(потом отфильтровать мусор)

Вопрос: что лучше использовать TwebBrowser, или TEmbeddedWB?
оба являются надстройкой над ИЕ?
а может ТХром попробовать? за последний год сделали уже что то рабочее?
есть кто в курсе?
Pcrepair вне форума Ответить с цитированием
Старый 09.04.2013, 19:57   #2
stalker1995s
Gamedeveloper
Форумчанин
 
Аватар для stalker1995s
 
Регистрация: 11.07.2012
Сообщений: 149
По умолчанию

Бред друг мой, при любом даже минимальном изменение кода на сервисе, с которого парсим, программу нужно будет переписывать. Да и кодировку их еще ни кто не отменял. А вообще, делается это, я так понимаю с помощью TIHTTP. Удачи вам
stalker1995s вне форума Ответить с цитированием
Старый 09.04.2013, 20:20   #3
Pcrepair
Форумчанин
 
Регистрация: 04.01.2011
Сообщений: 267
По умолчанию

сразу видно что ты не в теме
Pcrepair вне форума Ответить с цитированием
Старый 09.04.2013, 20:53   #4
BDA
МегаМодератор
СуперМодератор
 
Аватар для BDA
 
Регистрация: 09.11.2010
Сообщений: 7,430
По умолчанию

Цитата:
Сообщение от Pcrepair Посмотреть сообщение
сразу видно что ты не в теме
Вам нужно отображать сами страницы? Нет. Так зачем использовать визуальные компоненты? Indy или Synapse в самый раз, но есть и другая сторона медали - в Indy TidHTTP нельзя исполнять Javascript (насколько знаю; да и в синапс, скорее всего тоже), что иногда необходимо, и тогда приходится писать много руками.

Цитата:
Сообщение от stalker1995s Посмотреть сообщение
Бред друг мой, при любом даже минимальном изменение кода на сервисе, с которого парсим, программу нужно будет переписывать.
Ну а что делать? Сидеть и ждать финальной версии интернета? Изменения неизбежны, а результат нужен уже сейчас.
Возможно, у поисковиков доступен АПИ, который меняется реже.
Пишите язык программирования - это форум программистов, а не экстрасенсов. (<= это подпись )
BDA вне форума Ответить с цитированием
Старый 09.04.2013, 21:16   #5
Человек_Борща
Старожил
 
Аватар для Человек_Борща
 
Регистрация: 30.12.2009
Сообщений: 11,434
По умолчанию

Писалось когда-то подобное ПО. Под яндекс, гугл и рамблер.
Я вас разочарую, для этого:
Цитата:
Необходимо:
- отправить запрос
- получить страницу
- собрать со страницы все УРЛ(потом отфильтровать мусор)
Браузер вообще не нужен. Особенно, если много-поточно делать.
Браузер это средство визуализации, а ещё источник гемороя.

Вам правильно подсказали, компонент TidHTTP от Indy справится с задачей.
Кроме него есть паке Synapse(от него THTTPSend) и Overbyte ICS(я ими не пользовался).
Для выборки URL можно использовать регулярное выражение, которое юзер имеет возможность самостоятельно создать и протестировать. Избавит вас от кучи проблем в будущем.
Человек_Борща вне форума Ответить с цитированием
Старый 10.04.2013, 07:34   #6
Pcrepair
Форумчанин
 
Регистрация: 04.01.2011
Сообщений: 267
По умолчанию

сразу видно что ты не в теме
Pcrepair вне форума Ответить с цитированием
Старый 10.04.2013, 12:17   #7
Человек_Борща
Старожил
 
Аватар для Человек_Борща
 
Регистрация: 30.12.2009
Сообщений: 11,434
По умолчанию

Pcrepair, ну тогда только вы 1 в теме, значит сами и разбирайтесь со своей проблемой.
Человек_Борща вне форума Ответить с цитированием
Старый 10.04.2013, 12:40   #8
eval
Подтвердите свой е-майл
 
Регистрация: 29.08.2012
Сообщений: 4,011
По умолчанию

предлагаю рассчитаться кто в теме кто нет, тс всех посчитает на раз два
eval вне форума Ответить с цитированием
Старый 10.04.2013, 13:41   #9
Mad_Cat
Made In USSR!
Старожил
 
Аватар для Mad_Cat
 
Регистрация: 01.09.2010
Сообщений: 3,657
По умолчанию

Цитата:
рассчитаться кто в теме кто нет
те кто хотят использовать браузер - в теме(это видимо только тс)
кто за Indy\synapse - не в теме (я видимо тоже так как я именно за 2 вариант)
"...В жизни я встречал друзей и врагов.В жизни много всего перевидал.Солнце тело мое жгло, ветер волосы трепал,но я смысла жизни так и не узнал..."
(c) Юрий Клинских aka "Хой"
Mad_Cat вне форума Ответить с цитированием
Старый 10.04.2013, 15:20   #10
Pcrepair
Форумчанин
 
Регистрация: 04.01.2011
Сообщений: 267
По умолчанию

вначале получи от хугля индей или синапсом результат, тогда и посчитаемся

Я вопросы тут не просто так задаю, не от нечего делать
Pcrepair вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц



Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Алгоритм выдачи денег Kasti Помощь студентам 7 29.11.2012 10:42
Переадресация с поисковиков bwitcher Помощь студентам 0 22.10.2011 14:07
Война поисковиков savva-paladin Свободное общение 8 20.08.2011 16:34
Через сколько чистится кэш поисковиков? new player Свободное общение 8 29.12.2010 02:30
Процедура выдачи из файла grafgrial Общие вопросы Delphi 4 16.05.2010 00:34