Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > Microsoft Office и VBA программирование > Microsoft Office Word
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 03.03.2015, 22:40   #1
Composter
Пользователь
 
Регистрация: 15.10.2010
Сообщений: 35
По умолчанию Извлечение определенного набора текста из документа

Добрый день.
Производители вентиляционного оборудования высылают очень неудобные файлы для их обработки.Прикладываю один для наглядности, это он после экспорта в word и удаления многих картинок, для ощущения размера текста могу сказать что в некоторых проектах количество вентустановок может достигать 50-70 штук(вместо 3 в этом документе).
Для работы мне требуются различные данные из этого файла.Для конструкторов я делаю табличку где в одном столбце название установки в другом масса ее. Для электриков название - электрическая мощность.Для окончательной выдачи моего проекта мне требуется масса данных из этой таблицы.
Как самому сделать это с нуля сделать я понимаю. Нужно искать диапазон(range) который будет содержать "установки*Название" , и в нем искать требуемый текст и собирать несколько букв и цифр, складировать это в массив, и потом экспортировать либо в txt либо excel.
У меня вопрос может существуют решения которые примерно похожи на то что мне требуется?
Вложения
Тип файла: zip Podbor.zip (270.0 Кб, 10 просмотров)
Composter вне форума Ответить с цитированием
Старый 04.03.2015, 09:22   #2
shanemac51
Участник клуба
 
Аватар для shanemac51
 
Регистрация: 12.08.2010
Сообщений: 1,077
По умолчанию

видимо это результат распознавания PDF

Текст оформлен надписями и автофигурами

красиво, но не функционально

часть автофигур я убрала, перекрасила текст в красный

==============но===========
остались надписи(оранжевые)
и таблицы в надписях(текст остался черным)
Вложения
Тип файла: zip 2015-03.ZIP (103.3 Кб, 7 просмотров)
Имя-Галина== почта shanemac51@yandex.ru скайп shanemac51 c 8-15мск будни
Сфера интересов--word-excel-access-распознавание
shanemac51 вне форума Ответить с цитированием
Старый 04.03.2015, 12:09   #3
Composter
Пользователь
 
Регистрация: 15.10.2010
Сообщений: 35
По умолчанию

да, изначально файл был в формате pdf. получить только текст, можно еще проще, можно скопировать все из word формата, в txt файл и от туба обратно.Мне в принципе все равно с автофигурами он или без.
Меня интересует есть ли готовые решения по поиску нужного текста и извлечения нескольких символов после него.
Composter вне форума Ответить с цитированием
Старый 04.03.2015, 12:18   #4
shanemac51
Участник клуба
 
Аватар для shanemac51
 
Регистрация: 12.08.2010
Сообщений: 1,077
По умолчанию

текст в вашем документе расположен не линейно
если задать перебор параграфов -- мне кажется не получится нужного порядка абзацев(может получиться каша)

как то я распознавала в автоматическом режиме --получилась полнейшая чушь
аналогичное имела и при сохранении в текстовик

после этого не применяю при распознавании никакой автоматики --только ручная расстановка областей(или автомат с контролем)

===
дешевле обходится --меньше корректуры
Имя-Галина== почта shanemac51@yandex.ru скайп shanemac51 c 8-15мск будни
Сфера интересов--word-excel-access-распознавание
shanemac51 вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц



Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Расширение input по мере набора текста three_cats JavaScript, Ajax 3 13.01.2014 12:48
Определение скорости набора текста в Delphi lacasombra Помощь студентам 2 23.04.2013 13:43
datagridview - позиционирование по мере набора текста andrew_jr20 C# (си шарп) 1 23.11.2011 23:37
открытие документа с определенного места vstorspb Microsoft Office Word 1 29.07.2011 23:03
копирование определенного набора данных из dbgrid в clipboard kate158 Общие вопросы Delphi 9 15.10.2008 18:20