Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > Скриптовые языки программирования > Python
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 16.08.2017, 12:50   #1
paololka
Новичок
Джуниор
 
Регистрация: 16.08.2017
Сообщений: 1
По умолчанию Парсинг сайта

Добрый день. Возникла проблема с написанием рекурсивного парсинга страниц сайта.

Суть такова, написан код, который парсит только страницу, которую я указал. Помогите разобраться как реализовать, чтобы можно было извлечь абсолютно все ссылки с сайта

Код:
import requests
from bs4 import BeautifulSoup, SoupStrainer
from itertools import groupby
class TRaCAse:
    url='http://corp.fastsite.ru/'
    file = open('links.txt', 'w')
    req = requests.get(url)
    soup = BeautifulSoup(req.content, 'html.parser', parse_only=SoupStrainer('a'))
    list_1= ([link['href'] for link in soup if link.has_attr('href')])
    list_1 = list(set(list_1))
    deleted = 0
    for i in range(len(list_1)):
        if "https" not in list_1[i - deleted] :
            if "http" not in list_1[i - deleted] :
                if "www" not in list_1[i - deleted] :
                    del list_1[i - deleted]
                    deleted += 1
    ##удаление повтор. ссылок
    new_t = [el for el, _ in groupby(list_1)]
    string_x = ''.join(str(e) + '\n' for e in new_t)
    file.write(string_x)
    file.close()
paololka вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц

Опции темы Поиск в этой теме
Поиск в этой теме:

Расширенный поиск


Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Парсинг сайта Sumy-ua C# (си шарп) 4 06.03.2015 15:05
Парсинг сайта. Romeo0502 Общие вопросы Delphi 3 06.05.2013 23:12
Парсинг сайта bodqa C# (си шарп) 3 01.04.2013 14:31
Парсинг сайта SnaiperArts C# (си шарп) 27 20.07.2012 20:26
парсинг сайта CodeNOT PHP 1 21.03.2011 09:48