|
|
Регистрация Восстановить пароль |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
|
|
Опции темы | Поиск в этой теме |
24.10.2011, 09:48 | #1 |
Пользователь
Регистрация: 24.09.2011
Сообщений: 36
|
данные из *.pdf
здравствуйте, подскажите пожалуйста, можно ли вообще и если можно, то как вытащить данные из файлов *pdf?
нужны значения определенных позиций, например дата, номер, кадастровый номер, адрес и т.д. |
24.10.2011, 10:32 | #2 |
Старожил
Регистрация: 11.05.2010
Сообщений: 5,166
|
Если сохранить как текст (можно бат-файл написать) - то можно макросом/скриптом уже из текста вытащить:
КАДАСТРОВАЯ ВЫПИСКА О ЗЕМЕЛЬНОМ УЧАСТКЕ (выписка из государственного кадастра недвижимости) 11.10.2010 № 61/001/10-461985 КB. 1 Кадастровыйномер61:15:0600301:1045 2 Лист№1 3 Всеголистов: 8 Общиесведения4 Предыдущиеномера: 61:15:600301:664 6 Датавнесенияномеравгосударственныйк адастрнедвижимости: 02.11.2006 5 Единоеземлепользование7 Местоположениеустановленоотноситель ноориентира, расположенноговграницахучастка. Почтовыйадресориентира: Ростовскаяобл, р-нКаменский, ТсОО"НовоеВремя", участки№28, №43, №54, №1г, №22г8 Категорияземель:
webmoney: E265281470651 Z422237915069 R418926282008
|
24.10.2011, 10:41 | #3 |
Старожил
Регистрация: 02.05.2009
Сообщений: 3,907
|
Можно.
У вас есть минимум 2 варианта. 1.Сохранить в текст и парсить. 2.(Я так парсил прайсы) Программно перебираете страницы,зная структуру их. Каждому знаку соответствует своя координата по X и Y Получаете необходимые данные.Полей в файле я не обнаружил,с которых можно брать данные по имени
Анализ,обработка данных Недорого
|
24.10.2011, 11:35 | #4 |
Пользователь
Регистрация: 24.09.2011
Сообщений: 36
|
doober, даже если пересохранять в текст вручную, получится намного быстрее, чем копировать нужные значения по отдельности каждое... а что значит парсить?
|
24.10.2011, 12:47 | #5 |
Старожил
Регистрация: 02.05.2009
Сообщений: 3,907
|
Я сам боюсь этого страшного слова Парсинг
Во вложении для информации примеры файлов ПДф и результат. Таких страниц в файле до 20 Если надо получить несколько данных-то естественно через текст вам делать надо,таблицу вы через текст не возьмете
Анализ,обработка данных Недорого
|
24.10.2011, 13:43 | #6 |
Участник клуба
Регистрация: 02.05.2010
Сообщений: 1,390
|
Сереж, просто замени его на сплит:-)
П.С. А слова и я боюсь:-)
mailto: kuklp60@gmail.com, ящики для благодарностей:
WM Z206653985942, R334086032478, U238399322728 |
24.10.2011, 13:57 | #7 |
Старожил
Регистрация: 31.12.2010
Сообщений: 2,133
|
> А слова и я боюсь:-)
Ага. Похоже на пирсинг
exceleved@yandex.ru Яндекс.Деньги: 410011500007619
|
24.10.2011, 14:53 | #8 |
Форумчанин
Регистрация: 09.06.2011
Сообщений: 515
|
А подскажите пожалуйста как (или где можно посмотреть) можно написать процедуру преобразования ПДФ в текстовый файл.
Или может подскажите как можно с сайта http://markets.ft.com/RESEARCH/marke...ate=10/19/2011 "*только дата меняется извлечь информацию в ексель? (может немного не по теме но тоже касается преобразования ПДФ) Последний раз редактировалось gluk_fm; 24.10.2011 в 14:58. |
24.10.2011, 15:22 | #9 | |
Пользователь
Регистрация: 24.09.2011
Сообщений: 36
|
Цитата:
в приложении текстовый файл, который получился при копировании из пдф |
|
24.10.2011, 15:35 | #10 |
Форумчанин
Регистрация: 09.06.2011
Сообщений: 515
|
если текст является постоянным (формат и количество строк всегда одинаковы). То делаете разбивку по столбцам и выбираете только те ячейки которые нужны.
А по моему вопросу никто ничего не подскажет? Подскажите хоть где это можно поискать..... |
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Как упорядочить данные (перевести данные из стольбцов в строки)? | opeck | Microsoft Office Excel | 3 | 21.11.2011 01:43 |
PDF: внедрить свои данные | AnTe | Компоненты Delphi | 8 | 12.07.2011 16:50 |
Данные по столбцам - упорядочить данные к друг другу | PetroD | Microsoft Office Excel | 10 | 07.08.2010 12:30 |
Яр|/||< (^_^) | Компоненты Delphi | 4 | 09.07.2009 16:50 |