Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > Скриптовые языки программирования > PHP
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 25.10.2014, 16:47   #1
Predator199
Форумчанин
 
Аватар для Predator199
 
Регистрация: 26.01.2012
Сообщений: 648
По умолчанию Парсинг, скрытие контента...

Следующая задача.
Необходимо парсить новости с одного сайта. Проблема заключается в следующем. При просмотре страницы через браузер, все ок. Контент есть, при просмотре исходного кода страницы. Контент, а вернее та часть кода (html). Из которой необходимо забирать данные, отсутствует.

Скорее всего на том сайте, сделано так. Если js код не исполняется, контент прячут и наоборот. Js исполняется браузером пользователя.

Так вот, какие будут решения? Возможно ли как то при помощи php, какой нибудь библиотеки. Имитировать браузер, что ли...??
Predator199 вне форума Ответить с цитированием
Старый 25.10.2014, 17:10   #2
grominfo
Форумчанин
 
Аватар для grominfo
 
Регистрация: 30.05.2011
Сообщений: 651
По умолчанию

Контент не прячут, а подгружают Ajax'ом. Парсите скрипты, вынимайте ссылки по которым подгружается контент и забирайте уже готовый контент. Его даже парсить не надо в большинстве случаев.
Создание, программирование и сопровождение сайтов любой сложности.
Изготовление программ на заказ.
Список услуг и портфолио на сайте www.andreygrom.ru
grominfo вне форума Ответить с цитированием
Старый 25.10.2014, 17:19   #3
Predator199
Форумчанин
 
Аватар для Predator199
 
Регистрация: 26.01.2012
Сообщений: 648
По умолчанию

Предположим знаю ссылки которые необходимы, даже возьмем весь html код вместе со ссылками. Вопрос в другом...

Где его прописывать и как в таком случаи будет работать js(ссылки на них, если я верно понял)..? Коль с использованием Ajax, то и js код в таком случаи должен работать при парсинге..

Последний раз редактировалось Predator199; 25.10.2014 в 20:38.
Predator199 вне форума Ответить с цитированием
Старый 26.10.2014, 00:33   #4
grominfo
Форумчанин
 
Аватар для grominfo
 
Регистрация: 30.05.2011
Сообщений: 651
По умолчанию

Цитата:
Коль с использованием Ajax, то и js код в таком случаи должен работать при парсинге..
Js интерпретируется браузером, а не сервером. При запросе страницы выдается лишь html код страницы. Скрипты не исполняются.

Потрачу немного времени и объясню на пальцах

Есть страница

Код:
<!DOCTYPE html>
<html>
<head>
    <meta content="text/html; charset=UTF-8"  http-equiv="content-type">
    <title></title>
    <script type="text/javascript" src="/ajax.js"></script>
</head>
<body>
<div id="content"></div>
</body>
</html>
В ней, как видите есть ссылка на скрипт. Предположим, что js такой:

Код:
$(document).ready(function(){
    $.ajax({
        type: "GET",
        url: "content.php",
        data: "id=123",
        success: function(msg){
            $("#content").html(msg);
        }
    });
});
Тут идет подгрузка контента по адресу /content.php с параметром id=123. Из этого примера видно, что контент нужно грузить по ссылке /content.php?id=123

Ищите такие скрипты, систематизируйте, подгоняйте парсер.
Создание, программирование и сопровождение сайтов любой сложности.
Изготовление программ на заказ.
Список услуг и портфолио на сайте www.andreygrom.ru
grominfo вне форума Ответить с цитированием
Старый 30.10.2014, 12:50   #5
Stanislav
Квадрокоптерист
Участник клуба Подтвердите свой е-майл
 
Регистрация: 29.09.2007
Сообщений: 1,824
По умолчанию

Чтобы не искать ссылки не заморачиваться я использовал phantomjs эмуляция броузера, парсер за 20 минут пишется.
Я часть той силы, что вечно хочет зла, но вечно совершает благо..
Stanislav вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц

Опции темы Поиск в этой теме
Поиск в этой теме:

Расширенный поиск


Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Простой слайдер контента MrBrain JavaScript, Ajax 2 20.06.2013 12:24
выбор контента Веди PHP 7 09.04.2013 10:18
Изменение контента страницы Farrel ASP.NET 0 20.10.2011 23:43
слайдер контента CodeNOT JavaScript, Ajax 1 04.10.2011 01:23
Менеджер контента Insainer HTML и CSS 1 27.04.2008 11:06