|
|
Регистрация Восстановить пароль |
Повторная активизация e-mail |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
|
|
Опции темы | Поиск в этой теме |
18.09.2010, 23:37 | #1 |
Пользователь
Регистрация: 19.01.2008
Сообщений: 92
|
Парсинг страницы с кривой кодировкой
Не получается никак распарсить, нужна помощь. В едит указываем ссыылку, по ней парсим линки в мемо1, с мемо1 берем линк, заходим на страницу и распарсиваем номер, ложим в мемо2 и так циклом. Номер не распарсивается потмоу что русский текст не может найти в коде страницы, т.к. кодировка кривая. UTFEncode, UTFDecode не помогли
Код:
|
19.09.2010, 01:44 | #2 |
Старожил
Регистрация: 28.01.2009
Сообщений: 21,000
|
а зачем вам парсить всю эту кривизну?
ищите значащие данные, без ложных пробелов(32 вроде он) Хорошо поставленный вопрос это уже половина ответа. | Каков вопрос, таков ответ.
Программа делает то что написал программист, а не то что он хотел. Функции/утилиты ждут в параметрах то что им надо, а не то что вы хотите. |
19.09.2010, 02:15 | #3 |
Пользователь
Регистрация: 19.01.2008
Сообщений: 92
|
посмотрите код страницы. там иначе никак не получица. только с кривизной. или если использовать только тэги. то будет очень много мусора
|
19.09.2010, 02:26 | #4 |
Старожил
Регистрация: 28.01.2009
Сообщений: 21,000
|
какой страницы?
и что надо вытянуть? Хорошо поставленный вопрос это уже половина ответа. | Каков вопрос, таков ответ.
Программа делает то что написал программист, а не то что он хотел. Функции/утилиты ждут в параметрах то что им надо, а не то что вы хотите. |
19.09.2010, 04:44 | #5 |
Пользователь
Регистрация: 19.01.2008
Сообщений: 92
|
вторая кнопка. заходит на сфтраницы типа http://moscow.olx.ru/nokia-e66-iid-122046090 и дергает то что между тэгами <li>телефон: <strong> и </strong></li>, но т.к. кодировка страницы кривая, pos не может найти слово на русском
|
19.09.2010, 12:42 | #6 |
Старожил
Регистрация: 28.01.2009
Сообщений: 21,000
|
да уж, это не кодировка кривая, а...
страница скорее всего в UTF8 кодирована, а не в ANSI, раскодируйте и ищите на здоровье(<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />, и не скорее всего, а точно) в итог я так и не понял в чем кривизна кодировки, просто помните что кодировок много. Хорошо поставленный вопрос это уже половина ответа. | Каков вопрос, таков ответ.
Программа делает то что написал программист, а не то что он хотел. Функции/утилиты ждут в параметрах то что им надо, а не то что вы хотите. |
19.09.2010, 14:52 | #7 |
Старожил
Регистрация: 13.08.2009
Сообщений: 2,581
|
Если язык не русский - то он кривой! Английский - кривой! Японский - кривой!
Если кодировка не Win1251 - то она кривая! UTF8 - кривая! KOI8-R - кривая! А руки у меня не кривые, неее...
Опытный программист на C++ легко решает любые не существующие в Паскале проблемы.
|
19.09.2010, 15:13 | #9 | |
Пользователь
Регистрация: 19.01.2008
Сообщений: 92
|
Цитата:
|
|
19.09.2010, 15:17 | #10 |
Старожил
Регистрация: 28.01.2009
Сообщений: 21,000
|
ИнДи качает её так как отдает сервер.
используйте UTF8ToANSI(например) Хорошо поставленный вопрос это уже половина ответа. | Каков вопрос, таков ответ.
Программа делает то что написал программист, а не то что он хотел. Функции/утилиты ждут в параметрах то что им надо, а не то что вы хотите. |
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Парсинг XML страницы | record222 | Общие вопросы Delphi | 3 | 06.04.2010 18:07 |
Парсинг голой HTML страницы | Blourid | Работа с сетью в Delphi | 5 | 15.03.2010 19:37 |
Парсинг страницы | Terikon | Общие вопросы Delphi | 3 | 04.04.2009 00:32 |
парсинг страницы | seoanalyzer | Общие вопросы Delphi | 3 | 13.02.2009 12:50 |
Парсинг HTML страницы | OkeaH | Работа с сетью в Delphi | 1 | 19.01.2009 09:17 |