|
|
Регистрация Восстановить пароль |
Повторная активизация e-mail |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
|
|
Опции темы | Поиск в этой теме |
14.02.2014, 11:46 | #1 |
Пользователь
Регистрация: 19.03.2013
Сообщений: 13
|
Парсинг большого количества страниц сайта
Всем привет!
Возникли трудности с парсингом. Идея такова, парсер заходит на сайт, собирает все категории с меню сайта, потом проходит по каждой категории и качает картинки. Ну это в идеале...На сайте где работает парсинг банят, т.е. много запросов не пошлешь, использовал curl и proxy. Проблема заключается в том, что при обработке всех категорий ( порядка 30 ссылок) браузер может прервать соединение с сервером. Что это может быть и как это обойти? Другая фишка, хоть я и использовал proxy но бан всё равно получаю, может это сервер банят?! Спасибо большое за внимание! |
14.02.2014, 12:27 | #2 |
Далеко не
Участник клуба
Регистрация: 11.08.2011
Сообщений: 1,512
|
Код:
|
14.02.2014, 12:29 | #3 |
Пользователь
Регистрация: 19.03.2013
Сообщений: 13
|
Я устанавливал set_time_limit() но не помогло
|
14.02.2014, 14:05 | #4 |
Высокая репутация
СуперМодератор
Регистрация: 27.07.2008
Сообщений: 16,218
|
В настройках Apache надо отключить лимит времени.
Но по нормальному надо за один раз парсить одну ссылку, далее выдавать в браузер редирект на запуск парсинга следующей. А если сделать через Ajax, то можно даже в браузере динамически отображать результат. При желании тем же Ajax легко реализуется многопоточный парсер, который одновременно парсит, скажем, все 30 страниц. E-Mail: arigato.freelance@gmail.com
|
14.02.2014, 14:35 | #5 | |
Форумчанин
Регистрация: 08.11.2010
Сообщений: 593
|
Цитата:
получить список категорий, и слать ajax запрос на получение картинок и так пока не пройдем весь список |
|
14.02.2014, 14:43 | #6 |
Пользователь
Регистрация: 16.08.2013
Сообщений: 54
|
|
14.02.2014, 14:52 | #7 |
Форумчанин
Регистрация: 08.11.2010
Сообщений: 593
|
например интерактивность.
Более того, если даже парсим url регулярка, и обходим циклом, то послать запрос следующий на получение картинок мы не сможем послать до тех пор, пока не выполниться предыдущий. С js можем послать 3-4-5 запросов, которые будут обрабатываться |
14.02.2014, 15:03 | #8 |
Далеко не
Участник клуба
Регистрация: 11.08.2011
Сообщений: 1,512
|
CodeNOT в php есть многопоточный curl, еще можно сделать многопоточность с помощью сокетов.
|
14.02.2014, 15:19 | #9 |
Форумчанин
Регистрация: 08.11.2010
Сообщений: 593
|
|
14.02.2014, 15:25 | #10 |
Далеко не
Участник клуба
Регистрация: 11.08.2011
Сообщений: 1,512
|
Вроде ее, я точно не помню.
|
|
Опции темы | Поиск в этой теме |
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Хранение большого количества данных | Jtt | Общие вопросы .NET | 1 | 28.11.2013 18:13 |
Архивация большого количества файлов | 88ra | Microsoft Office Excel | 3 | 22.09.2012 16:20 |
Добавление большого количества картинок в примечания | Олег83 | Microsoft Office Excel | 0 | 30.01.2012 15:43 |
Создание большого количества потоков | Crystallon | Общие вопросы Delphi | 3 | 03.06.2011 02:42 |
Проблема большого количества форм... | Mr.Qwerty | Общие вопросы Delphi | 2 | 16.07.2009 16:53 |