|
|
Регистрация Восстановить пароль |
Повторная активизация e-mail |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
|
Опции темы | Поиск в этой теме |
13.11.2013, 13:15 | #1 |
Форумчанин
Регистрация: 17.01.2010
Сообщений: 277
|
Парсинг крупного портала.
Всем привет! Возникла такая мысль:
Пишем скрипт который собирает ссылки и структуру какого то крупного портала, скажем, avto.ru В результате получается база адресов без домена, вроде: /cars /ford /ford/focus ... - вообщем целая куча ссылок. Потом берем любой домен - somedomen.ru и делаем отдельный сайт с такой же структурой, которую мы получили: somedomen.ru/cars somedomen.ru/ford somedomen.ru/ford/focus Контент страницы будет браться с помощью file_get_contents с оригинального сайта и по возможности уникализироваться некоторым алгоритмом. В итоге у нас получается свой огромный сайт с уникальным контентом и индексируется в поисковиках. Естественно, все это - теория. Поэтому и вопрос: возможно ли это сделать? Будет ли от этого эффект? Как быстро собрать сайтмапы и ссылки с какого либо сайта? Законно ли это? Всем заранее спасибо! |
13.11.2013, 13:20 | #2 | |
Форумчанин
Регистрация: 01.12.2009
Сообщений: 569
|
Цитата:
|
|
13.11.2013, 13:24 | #3 |
Форумчанин
Регистрация: 17.01.2010
Сообщений: 277
|
Каким образом он попадет в бан? А если контент будет полностью уникальным?
|
13.11.2013, 13:26 | #4 | |
Форумчанин
Регистрация: 18.01.2012
Сообщений: 975
|
Старо как мир. Я как-то делал набор ПО для аналогичных целей. Буржуйский сайт грабился с помощью Teleport Pro, переводился с помощью самописной утилиты и промта на русский язык, вырезались абсолютные пути и любые упоминания оригинального сайта, контекстная реклама, счетчики, метатеги и проч., далее при помощи другой самописной утилиты выполнялась синонимизация и замена непереведенных слов. Потом сайт выкладывался в интернет => вуаля! Яндекс считал контент оригинальным и сайт не банил) Но это было года 4 назад
Цитата:
Благодарить в репутацию. Проклинать — туда же
Последний раз редактировалось Luuzuk; 13.11.2013 в 13:28. |
|
13.11.2013, 13:29 | #5 | |
Форумчанин
Регистрация: 01.12.2009
Сообщений: 569
|
Цитата:
В случае Luuzuk, контент брался с буржуинского сайта и проходил очищение промтом, но сейчас это тоже не панацея. |
|
13.11.2013, 14:23 | #6 |
Форумчанин
Регистрация: 17.01.2010
Сообщений: 277
|
Окей, отложим вопрос уникальности. Перейдем к технической возможности реализации. Как собрать все ссылки? Контент собирать не нужно, нужны исключительно адреса.
Я бы мог написать на PHP скрипт, бегающий по ссылкам, но думаю тут PHP не самый лучший вариант. Или вполне подходящий? |
13.11.2013, 14:49 | #7 | |
Форумчанин
Регистрация: 01.12.2009
Сообщений: 569
|
Цитата:
|
|
13.11.2013, 16:48 | #8 |
Форумчанин
Регистрация: 17.01.2010
Сообщений: 277
|
Еще один вопрос по этой теме: как можно узнать, насколько хорошо яндекс отнесется к такой странице? Наверное я имею ввиду, как проанализировать сайт и выяснить, что, например, многие страницы стырены с другого сайта.
|
13.11.2013, 17:01 | #9 |
Форумчанин
Регистрация: 01.12.2009
Сообщений: 569
|
Юзать Yandex.Webmaster
|
13.11.2013, 17:01 | #10 |
Форумчанин
Регистрация: 18.01.2012
Сообщений: 975
|
только проверить
Благодарить в репутацию. Проклинать — туда же
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Ищем разработчика/ов для крупного интернет сервиса с элементами соц.сети | archsham | Фриланс | 1 | 21.01.2013 18:56 |
Организация разработки крупного проекта через API | testergame | PHP | 0 | 09.10.2012 07:40 |
Создание крупного интернет проекта - перспективность? | Cronows | Свободное общение | 11 | 29.12.2011 05:20 |