|
|
Регистрация Восстановить пароль |
Повторная активизация e-mail |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
|
Опции темы | Поиск в этой теме |
27.07.2008, 11:47 | #1 |
Пользователь
Регистрация: 29.04.2008
Сообщений: 32
|
Программа для сканирования ссылок на сайте.
Задача такова: Мне нужно написать программу которая могла заходить на какой нибудь сайт, сканировать там ссылки с определенным фильтром (например: сайт http://programmersforum.ru фильтр ссылок: "google.com" ну это просто пример) и причем заходить по тем ссылкам на сайты считывать от туда HTML-код.
Вопрос такой: что мне для этого нужно(учебники, программы)? Каким языком лучше писать? В программирование я знаю отлично только паскаль, но хочу научиться и другим языкам. Принцип решения задачи прост: 1. Считать HTML-код с указанного сайта 2. Найти всё что включено в тег <a href= с учетом фильтра 3. Зайти по ссылке на сайт 4. Считать от туда HTML-код(считать можно куда угодно и в файл и на экран) Последний раз редактировалось antoha.by; 27.07.2008 в 11:57. |
27.07.2008, 12:51 | #2 |
Высокая репутация
СуперМодератор
Регистрация: 27.07.2008
Сообщений: 15,586
|
Писал что-то подобное на Делфи. Программа сканировала сайт на поиск определенных фраз и сохраняла статистику.
E-Mail: arigato.freelance@gmail.com
|
27.07.2008, 13:07 | #3 |
Пользователь
Регистрация: 29.04.2008
Сообщений: 32
|
Arigato, Исходник дай пожалуйста!
|
27.07.2008, 13:15 | #4 |
Форумчанин
Регистрация: 27.12.2006
Сообщений: 955
|
Есть готовая dll заточенная под .NET которая как раз решает твою проблему. Писал сам потому стоит денег.
|
27.07.2008, 15:41 | #5 | |
Старожил
Регистрация: 26.04.2008
Сообщений: 2,645
|
Цитата:
Код:
|
|
27.07.2008, 16:37 | #6 |
Пользователь
Регистрация: 29.04.2008
Сообщений: 32
|
eoln,
Спасибо! Последний раз редактировалось antoha.by; 27.07.2008 в 16:43. |
27.07.2008, 17:58 | #7 |
Высокая репутация
СуперМодератор
Регистрация: 27.07.2008
Сообщений: 15,586
|
Я писал на Делфи 6. Приводить исходник своей проги не вижу смысла, т.к. она решает немного другую задачу и снабжена очень многими совсем не связанными с этой задачей возможностями.
На Делфи 6 есть такой компонент, как TClientSocket, я использовал его. С его помощью не составит труда скачать нужную страничку. А затем алгоритм тривиален, да ты и сам его привел в первом сообщении. Единственное, что при считывании придется руками формировать HTTP-запрос. Протокол HTTP хорошо документирован, найти не составит труда. E-Mail: arigato.freelance@gmail.com
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
программа, которая сохраняет веб страницы раз в час на сайте в определённой папке | SeregaKo | Общие вопросы Delphi | 7 | 24.07.2008 16:10 |
Где найти компонент для сканирования? | Stilet | Софт | 6 | 27.05.2008 15:39 |
Изменение ссылок при вставке | Strannik79 | Microsoft Office Excel | 4 | 10.09.2007 14:31 |
Доступ к избранному и добавление ссылок. | Inbox | Общие вопросы Delphi | 5 | 30.05.2007 17:11 |