Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > Скриптовые языки программирования > PHP
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 13.11.2013, 13:15   #1
Mr_freeman
Форумчанин
 
Аватар для Mr_freeman
 
Регистрация: 17.01.2010
Сообщений: 277
По умолчанию Парсинг крупного портала.

Всем привет! Возникла такая мысль:
Пишем скрипт который собирает ссылки и структуру какого то крупного портала, скажем, avto.ru
В результате получается база адресов без домена, вроде:

/cars
/ford
/ford/focus
... - вообщем целая куча ссылок.

Потом берем любой домен - somedomen.ru и делаем отдельный сайт с такой же структурой, которую мы получили:

somedomen.ru/cars
somedomen.ru/ford
somedomen.ru/ford/focus

Контент страницы будет браться с помощью file_get_contents с оригинального сайта и по возможности уникализироваться некоторым алгоритмом.
В итоге у нас получается свой огромный сайт с уникальным контентом и индексируется в поисковиках.

Естественно, все это - теория. Поэтому и вопрос: возможно ли это сделать? Будет ли от этого эффект? Как быстро собрать сайтмапы и ссылки с какого либо сайта? Законно ли это?
Всем заранее спасибо!
Mr_freeman вне форума Ответить с цитированием
Старый 13.11.2013, 13:20   #2
notHaker
Форумчанин
 
Аватар для notHaker
 
Регистрация: 01.12.2009
Сообщений: 569
По умолчанию

Цитата:
Сообщение от Mr_freeman Посмотреть сообщение
Всем привет! Возникла такая мысль:
Пишем скрипт который собирает ссылки и структуру какого то крупного портала, скажем, avto.ru
В результате получается база адресов без домена, вроде:

/cars
/ford
/ford/focus
... - вообщем целая куча ссылок.

Потом берем любой домен - somedomen.ru и делаем отдельный сайт с такой же структурой, которую мы получили:

somedomen.ru/cars
somedomen.ru/ford
somedomen.ru/ford/focus

Контент страницы будет браться с помощью file_get_contents с оригинального сайта и по возможности уникализироваться некоторым алгоритмом.
В итоге у нас получается свой огромный сайт с уникальным контентом и индексируется в поисковиках.

Естественно, все это - теория. Поэтому и вопрос: возможно ли это сделать? Будет ли от этого эффект? Как быстро собрать сайтмапы и ссылки с какого либо сайта? Законно ли это?
Всем заранее спасибо!
Привет, юный друг. Твой домен рано или поздно попадет в бан и неважно, кем он будет инициирован, важно — успеешь ли ты получить с этого действа профит.
Код - это работа, а работа стоит денег.

pz-game.ru. 2d зомби-сурвивал для олдфагов.
notHaker вне форума Ответить с цитированием
Старый 13.11.2013, 13:24   #3
Mr_freeman
Форумчанин
 
Аватар для Mr_freeman
 
Регистрация: 17.01.2010
Сообщений: 277
По умолчанию

Цитата:
Сообщение от notHaker Посмотреть сообщение
Привет, юный друг. Твой домен рано или поздно попадет в бан и неважно, кем он будет инициирован, важно — успеешь ли ты получить с этого действа профит.
Каким образом он попадет в бан? А если контент будет полностью уникальным?
Mr_freeman вне форума Ответить с цитированием
Старый 13.11.2013, 13:26   #4
Luuzuk
Форумчанин
 
Аватар для Luuzuk
 
Регистрация: 18.01.2012
Сообщений: 975
По умолчанию

Старо как мир. Я как-то делал набор ПО для аналогичных целей. Буржуйский сайт грабился с помощью Teleport Pro, переводился с помощью самописной утилиты и промта на русский язык, вырезались абсолютные пути и любые упоминания оригинального сайта, контекстная реклама, счетчики, метатеги и проч., далее при помощи другой самописной утилиты выполнялась синонимизация и замена непереведенных слов. Потом сайт выкладывался в интернет => вуаля! Яндекс считал контент оригинальным и сайт не банил) Но это было года 4 назад

Цитата:
А если контент будет полностью уникальным?
А вы его сами писать что-ли будете? Ворованное уникальным не бывает )
Благодарить в репутацию. Проклинать — туда же

Последний раз редактировалось Luuzuk; 13.11.2013 в 13:28.
Luuzuk вне форума Ответить с цитированием
Старый 13.11.2013, 13:29   #5
notHaker
Форумчанин
 
Аватар для notHaker
 
Регистрация: 01.12.2009
Сообщений: 569
По умолчанию

Цитата:
Сообщение от Mr_freeman Посмотреть сообщение
Каким образом он попадет в бан? А если контент будет полностью уникальным?
Полностью уникальный контент должны делать контент-манагеры и при этом придирчиво следить за тем, чтобы процент уникальности был очень высок.

В случае Luuzuk, контент брался с буржуинского сайта и проходил очищение промтом, но сейчас это тоже не панацея.
Код - это работа, а работа стоит денег.

pz-game.ru. 2d зомби-сурвивал для олдфагов.
notHaker вне форума Ответить с цитированием
Старый 13.11.2013, 14:23   #6
Mr_freeman
Форумчанин
 
Аватар для Mr_freeman
 
Регистрация: 17.01.2010
Сообщений: 277
По умолчанию

Окей, отложим вопрос уникальности. Перейдем к технической возможности реализации. Как собрать все ссылки? Контент собирать не нужно, нужны исключительно адреса.
Я бы мог написать на PHP скрипт, бегающий по ссылкам, но думаю тут PHP не самый лучший вариант. Или вполне подходящий?
Mr_freeman вне форума Ответить с цитированием
Старый 13.11.2013, 14:49   #7
notHaker
Форумчанин
 
Аватар для notHaker
 
Регистрация: 01.12.2009
Сообщений: 569
По умолчанию

Цитата:
Сообщение от Mr_freeman Посмотреть сообщение
Окей, отложим вопрос уникальности. Перейдем к технической возможности реализации. Как собрать все ссылки? Контент собирать не нужно, нужны исключительно адреса.
Я бы мог написать на PHP скрипт, бегающий по ссылкам, но думаю тут PHP не самый лучший вариант. Или вполне подходящий?
Берите preg_match_all и собирайте на здоровье.
Код - это работа, а работа стоит денег.

pz-game.ru. 2d зомби-сурвивал для олдфагов.
notHaker вне форума Ответить с цитированием
Старый 13.11.2013, 16:48   #8
Mr_freeman
Форумчанин
 
Аватар для Mr_freeman
 
Регистрация: 17.01.2010
Сообщений: 277
По умолчанию

Еще один вопрос по этой теме: как можно узнать, насколько хорошо яндекс отнесется к такой странице? Наверное я имею ввиду, как проанализировать сайт и выяснить, что, например, многие страницы стырены с другого сайта.
Mr_freeman вне форума Ответить с цитированием
Старый 13.11.2013, 17:01   #9
notHaker
Форумчанин
 
Аватар для notHaker
 
Регистрация: 01.12.2009
Сообщений: 569
По умолчанию

Цитата:
Сообщение от Mr_freeman Посмотреть сообщение
Еще один вопрос по этой теме: как можно узнать, насколько хорошо яндекс отнесется к такой странице? Наверное я имею ввиду, как проанализировать сайт и выяснить, что, например, многие страницы стырены с другого сайта.
Юзать Yandex.Webmaster
Код - это работа, а работа стоит денег.

pz-game.ru. 2d зомби-сурвивал для олдфагов.
notHaker вне форума Ответить с цитированием
Старый 13.11.2013, 17:01   #10
Luuzuk
Форумчанин
 
Аватар для Luuzuk
 
Регистрация: 18.01.2012
Сообщений: 975
По умолчанию

только проверить
Благодарить в репутацию. Проклинать — туда же
Luuzuk вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц



Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Ищем разработчика/ов для крупного интернет сервиса с элементами соц.сети archsham Фриланс 1 21.01.2013 18:56
Организация разработки крупного проекта через API testergame PHP 0 09.10.2012 07:40
Создание крупного интернет проекта - перспективность? Cronows Свободное общение 11 29.12.2011 05:20