Другие языки программирования и технологии

у меня есть документ с расширением .pdf как мне из него вытащить нужный текст?

Если когда-нибудь имели дело с отсканированными документами, то знаете, что сканер выдает изображение. Для того, чтобы с этого изображения получить текст, нужно файл изображения загнать в программу типа FineReader и распознать текст. Файл ПДФ можно получить из распознанных изображений и из нераспознанных. В первом случае все довольно просто - выделяете в просмотрщике ПДФ (например, Adobe Reader'е) нужный текст, нажимаете "Копировать" и вставляете из буфера в нужный файл. Или, если нужен весь текст, то в том же Adobe Reader есть функция типа "Копировать все в текстовый файл" или "Сохранить как текст" (что-то вроде того) . Здесь может быть та проблема, что текст обычно в таких случаях распознается автоматически, без участия человека, и при этом в распознанном тексте куча ошибок, а если учесть, что неуверенно распознанные слова в ПДФ заменяются на их изображение, то мешанина может быть приличная.
Во втором случае, если ПДФ создан из нераспознанных изображений, Вам придется самостоятельно разложить его на отдельные изображения и самому распознать в том же FineReader. Только так. Подробности можете поискать через Гугл, Яндекс и иже с ними.
C@ньк@ Пономарёв
C@ньк@ Пономарёв
1 322
Лучший ответ
Согласна с Red- Shuhov
скачать adobe reader
Ну.. . Это смотря распознан ли текст. Если да, то юзай инструмент типа "Выделение текста" или что-то похожее
Есть програмулина pdf2word. Перегоняешь ей файл из .pdf в .doc и делай с ним чего хочешь.
есть программа ABBYY PDF Transformer, она платная.. . но если поискать.. . ;)
В Adobe Reader выдели текст и скопируй, например, в Word