Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > Работа для программиста > Фриланс
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 27.07.2009, 02:30   #1
bashkov
Новичок
Джуниор
 
Регистрация: 27.07.2009
Сообщений: 0
По умолчанию Требуется написать парсер-граббер сайтов

Требуется написать десктопный парсер-граббер сайтов на .blogspot.com (там все блоги на движке WordPress).

Цель парсера - получить локальную копию любого сайта с blogspot.com в статическом виде с некоторыми доработками, залить на сторонний хостинг и сайт должен сразу работать.

Задачи парсера:
1. Пройтись по всем страницам сайта и собрать весь контент (посты, комментарии, картинки).

2. Полученный контент обработать и вставить в статичные страницы со всеми стилями и оформлением, так чтобы получилась точная копия всех страниц сайта-донора. Расширение получаемых страниц .html или .php должно задаваться в настройках, т.е. быть вариантом выбора.

2.1. Обработать текст:
2.1.1. удалить все внешние ссылки из текста - сделать их неактивными: удалить тег A, адрес ссылки прописать текстом; если у ссылки был анкор, поместить его текст через знак "-" непосредственно перед адресом. Полученный после обработки адрес внешней ссылки дополнительно нужно обрамить тегом noindex.
Пример.
Было: Это пример текста со ссылкой, которая ведет < A href="http://www.site.com/123/test.php">сюда< / A >.
Стало: Это пример текста со ссылкой, которая ведет сюда - < noindex >http://www.site.com/123/test.php< /noindex >.
2.1.2. все внутренние ссылки нужно сделать относительными, чтобы работали относительно корня сайта.

2.2. Обработать картинки:
2.2.1. все картинки сохранить локально в папку /images;
2.2.2. если картинка одновременно является и внешней ссылкой - ссылку удалить, если внутренней - ссылку сделать относительной и оставить.

2.3. Обработать комментарии:
2.3.1. удалить из имен комментаторов ссылки, сделать их текстом.
2.3.2. Ссылку на добавление нового комментария ("Отправить комментарий") удалить полностью.

2.4. Обработать боковую колонку и футер отдельно:
2.4.1. если в нем есть только ссылки на друзей и последние комменты - обрабатывать как в предыдущих пунктах.
2.4.2. если в нем есть баннеры: предусмотреть возможность выбора - удалить все баннеры, либо удалить некоторые, либо поменять в баннерах внешние ссылки на свои.
2.4.3. если в нем есть баннеры Google Adsense предусмотреть возможность вставки своего идентификатора!

3. Структура получаемого сайта должна собираться на инклудах: отдельно боковая колонка (sidebar), отдельно тело (посты + комменты), отдельно футер.

4. В настройках программы предусмотреть возможность вставки своего кода в инклуды.

ТЗ примерное, требует небольшой приватной правки. Парсер нужен в виде десктопного приложения, но при отличной реализации подойдет и серверный (под денвер).

Просьба оценить трудозатраты и отписываться с ценой и сроками. Опыт написания подобных парсеров - ваше преимущество.
Просьба без перса предоплату не предлагать.

Для связи - эта тема, личка, icq 3-6-77-48.

Последний раз редактировалось bashkov; 27.07.2009 в 03:20.
bashkov вне форума Ответить с цитированием
Старый 27.07.2009, 03:19   #2
bashkov
Новичок
Джуниор
 
Регистрация: 27.07.2009
Сообщений: 0
По умолчанию

Предложили в аську парсить RSS.
Обращаю внимание еще раз - требуется статичная копия всего сайта. Всего сайта целиком, а не последних выводящихся через RSS постов.

Пример типичных сайтов для парсинга lankazp.blogspot.com, doandfollow.blogspot.com, pdaplusi.blogspot.com и т.п.

Последний раз редактировалось bashkov; 27.07.2009 в 03:25.
bashkov вне форума Ответить с цитированием
Старый 27.07.2009, 15:28   #3
xNut
 
Аватар для xNut
 
Регистрация: 16.06.2009
Сообщений: 8
По умолчанию

что-то не понял по поводу пунктов 2.4, 3, 4
можете стукнуть мне в аську
xNut вне форума Ответить с цитированием
Старый 27.07.2009, 18:44   #4
Greblin
Меркантильный кю
Участник клуба
 
Аватар для Greblin
 
Регистрация: 02.02.2008
Сообщений: 1,001
По умолчанию

Здравствуйте! Заинтересовало ваше предложение. Вышлите, пожалуйста, более подробное ТЗ, на один из следующих контактов
E-Mail: greblin@list.ru
ICQ: 452-325-803
Skype: igreblin
На основании приведённого задания стоимость оцениваю приблизительно в 200$

С уважением, Иван Садовой aka Greblin
Росли вроде умными, выросли дурнями... (c)А.Васильев
Greblin вне форума Ответить с цитированием
Старый 28.07.2009, 01:12   #5
alexcoder
Форумчанин
 
Регистрация: 31.05.2009
Сообщений: 786
По умолчанию

Здравствуйте. Не находит Вашу аську. Постучите в асю 368161244. Есть предложение (не RSS!). Если оно Вас устроит, цена будет намного дешевле 200$.
Помощь с программами:
vk.com/alexcoder1
e-mail: informatik101@mail.ru
alexcoder вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц



Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Граббер, в чем косяк? Arsmuzhik PHP 1 09.07.2009 00:10
Граббер sergeyich Фриланс 4 07.06.2009 15:10