Сайт о телевидении

Сайт о телевидении

» » Описание p. Как конвертировть из DjVu в PDF? Когда стоит использовать.PDF формат

Описание p. Как конвертировть из DjVu в PDF? Когда стоит использовать.PDF формат

Межкорпоративный документооборот (внешний ЭДО)

Чем отличается формат PDF от PDF/A, и какой формат лучше использовать для сохранения отсканированных образов документов?

Ришат Мухаметшин 16 мая 2013 г. 16:10

PDF (“portable document format”) - это универсальный формат электронных документов, которому, кстати, скоро исполнится 20 лет. Он создан по инициативе компании Adobe, и исходное его предназначение - электронное представление печатных материалов. Отсюда следует задача данного формата, связанная с хранением информации о цветовой схеме и расположении элементов, обеспечить идентичный вывод на разных мониторах и принтерах.

За время своего существования формат PDF значительно прибавил в возможностях. В первой же редакции формата появилась возможность вставлять в текст документа гиперссылки, шифровать документ с паролем и тем самым защищать его от модификации. В версии PDF 1.4 появилась возможность поверх изображения наносить текстовый слой, в том числе невидимый, давая пользователю возможность, видя “картинку”, тем не менее, копировать с неё текст. Кроме того, в этой же версии появилась возможность вставлять метаданные в виде пар “ключ-значение”, каждая из которых может быть связана с какой-то частью документа (например, отдельным изображением) или со всем документом целиком. Это важные нововведения, с точки зрения архивного хранения, и они поддерживаются форматом по сей день.

PDF/A - это подмножество формата PDF, содержащее ограниченный набор возможностей представления данных. Данный формат является стандартом ISO и предназначен для долгосрочного хранения электронных документов. Обеспечение длительного срока хранения достигается посредством внедрения в содержимое электронного документа в формате PDF/A всей информации, необходимой для его отображения. Такой информацией, в частности, являются шрифты - те из них, которые использованы в документе, включены в него. К слову, это влияет на его размер: документ в формате PDF/A не меньше, а вероятно даже больше по размеру, чем документ с аналогичным содержимым, сохранённый в формате PDF.

Считается, что документ, хранимый в формате PDF/A, ввиду полного отсутствия связи с такими изменчивыми вещами как гиперссылки и мультимедийный контент, можно будет открыть в любой операционной системе через какое угодно длительное время с помощью приложения, поддерживающего соответствующий формат. Поскольку PDF/A обеспечен статусом международного стандарта, его поддержка со стороны разработчиков ПО в долгосрочной перспективе оправдана, а использование целесообразно по сравнению с другими доступными форматами хранения, которые могут измениться в любой момент времени (вспомним недавнюю историю с отказом от поддержки документов Word старого образца до версии 2003 в Google Drive - старт умерщвлению формата Word 97–2003 дан).

При этом целостность и неизменность неподписанного документа в формате PDF/A не может быть гарантирована и не заявляется как особенность формата. Другими словами, несмотря на то, что данный формат позиционируется как обеспечивающий долгосрочное хранение, изменение содержимого документа возможно и не является отклонением от нормы, если оно не зашифровано. Однако есть ещё один нюанс: для каждого конкретного документа, формат которого заявлен как PDF/A, невозможно заведомо утверждать, что это действительно так. Необходима верификация на соответствие требованиям формата для каждого конкретного документа, и если на этапе размещения в архиве или после очередного изменения она не будет проведена, можно считать миссию обеспечения долгосрочного хранения потенциально проваленной (с некоторыми оговорками, но всё же).

Исходя из описанных выше различий между форматами PDF и его потомком PDF/A, вполне можно предположить, что первый больше пригоден для оперативного обмена и краткосрочного хранения электронных документов, тогда как PDF/A, несмотря на потенциально большой размер единичного документа (в него внедрены все использованные шрифты, а это для краткосрочного использования избыточный и ощутимый балласт), имея статус международного стандарта, гарантирует, что даже через продолжительное время, вне зависимости от окружения и операционной системы, любой пользователь сможет открыть документ в данном формате, располагая приложением-просмотрщиком. Этот факт укладывается в концепцию архива электронных документов и должен учитываться при сохранении каждого документа в нём.

Теперь необходимо определиться с тем, что такое отсканированный образ документов. В подавляющем большинстве случаев это растровое изображение. Предполагается, что текста поверх него нет, то есть в документе хранится исключительно отсканированный растр - изображение, текст на котором непонятен компьютеру, а понятен только человеку. В исключительных случаях поверх растрового изображения может быть расположен текстовый слой, частично или целиком наполненный либо вручную человеком, либо с помощью системы распознавания текста. Можно предположить, что документ содержит метаданные, так или иначе связанные с видом документа и его содержимым (например, если это счёт-фактура, метаданные могут содержать информацию о поставщике, дате выставления, сумме и т.д.).

Очевидно, что отсканированный образ документа допускает, но не подразумевает долгосрочного хранения. Но всё-таки в большинстве случаев образ должен храниться не меньше бумажного оригинала, а зачастую значительно дольше, поскольку значимость и важность его в контексте организации-владельца всегда держится выше нулевой отметки. Кроме того, образ снят с бумажного документа, а это значит, что его изменение не подразумевается, хотя и возможно.

На основании перечисленных особенностей, которыми обладает отсканированный образ документа, можно смело заявлять, что одинаково пригодны оба формата, поскольку для каждого конкретного документа не будут использованы возможности формата такие, которые не поддерживаются стандартом PDF/A. Последний допускает и метаданные, и текстовый слой поверх изображения, и даже подписание документа с целью защитить его от модификации. А необходимостью внедрения шрифтов в каждый документ можно пренебречь: поскольку речь идёт об образах, и текста нет, соответственно, нет и шрифтов, и добавочный вес в этом отношении будет мал.

(4,10 - оценили 10 чел.)

Загружая документ из Интернета, вы можете заметить, что он имеет формат.PDF. Возможно, вы также заметили, что его трудно (если вообще возможно) редактировать. Чтобы открыть файл.PDF формата нужно иметь специальную программу, например Adobe Acrobat Reader. Иногда пользователи путаются, какой формат выбрать. Почему люди используют PDF файлы? Разве не проще пользоваться.DOC или.DOCX форматами?

На самом деле, формат.PDF широко распространен для передачи различного рода документов и электронных книг. Почему так произошло? Давайте разберемся, что такое PDF файл , и узнаем его плюсы и минусы.

Преимущества PDF файлов

Давайте вернемся к вопросу “Что лучше, PDF или DOCX ?”. DOCX - отличный формат для пользователей, которые используют Microsoft Office на своих устройствах. DOCX это стандартный формат документов Microsoft Word. Но если кто-то открывает ваш файл, на его компьютере должен быть установлен текстовый редактор от MS, или другая программа, которая умеет работать с этим форматом. Хотя и большинство могут конвертировать.DOC в нужный формат, этот процесс иногда изменяет оригинальное форматирование и создает лишние хлопоты.

К счастью, большинство операционных систем полностью поддерживают PDF файлы. Это значит, что вам не нужно создавать документ специально для пользователей Windows, IOS, или Android. Просто выберите PDF и будьте уверены, что он откроется на любом устройства.

Когда стоит использовать.PDF формат?

В ситуациях, когда вы не знаете, на какой операционной системе будет открываться файл, используйте PDF. Скажем, вы решили выложить на сайт книгу, журнал, брошюру, или какой-либо важный документ. На сайт могут заходить люди с компьютеров под управлением Windows, Linux или владельцы смартфонов на IOS или Android. Лучшим вариантом в данном случае будет использование.PDF формата. Каждое устройство сможет его открыть и отобразить содержимое.

Еще лучше, если после загрузки документа, он автоматически открывается через браузер. Популярные браузеры, такие как Google Chrome (это одна из ) или Mozilla Firefox имеют встроенные PDF-просмотрщики, потому люди могут просмотреть документ просто и быстро.

Отдавайте преимущество PDF файлам при отправке по Email. Представим, что вы отправляете резюме. Хорошо, если получатель проверяет почту с компьютера, и может открыть.DOCX файл. А если нет? Со смартфона или планшета проще открыть.PDF ежели.DOC.

Недостатки.PDF формата

Получив файл, вы можете захотеть изменить его, но тут кроется одна из основных проблем PDF файлов - их сложно редактировать. Если DOC файл это оригинальный текстовый документ, который можно легко изменять, то PDF больше напоминает изображение. Редактирование возможно, но для этого нужен просмотрщик со встроенной функцией редактирования, или соответствующая программа.

Когда не нужно использовать PDF

Не используйте формат.PDF, когда вы хотите иметь “живой документ” , который может быть отредактирован другими пользователями. Вы можете добавить редактируемые поля в PDF документ, но полное редактирование требует немалых усилий. Если вы работаете с другими пользователями, желательно узнать, какие операционные системы они используют и договориться о типе файлов, который подходит всем.

По крайней мере, каждый может использовать облачную службу документов, например Google Docs. Для режима “только чтение” хорошо подойдет PDF, а для редактирования - его использовать не стоит.

Итог

Теперь вы знаете, что такое PDF файл , в каких случаях его стоит использовать, а которых лучше подойдет.DOC. Прежде чем создавать документ, подумайте о тех, кто будет им пользоваться. Желаю удачи.

Многие начинающие пользователи ПК сталкиваются с файлами неизвестного им расширения. Одним из таких расширений является.pdf. Что же такое PDF-файл и как его открыть? Давайте разбираться.

Что такое PDF?

Для начала нам нужно понять, как расшифровывается данное расширение. PDF означает Portable Document Format, что в переводе на русский будет звучать как «портативный формат документа». Идея за этим форматом довольно проста: точное отображение полиграфических продуктов в электронном варианте. PDF обычно используется для различной документации. Пользовательские руководства, электронные книги, формы для заявок, отсканированные документы и много другое — все эти файлы наверняка будут в расширении.pdf.

За разработку данного формата ответственна компания Adobe. При создании PDF она ставила перед собой следующие задачи: с форматом сможет работать любое аппаратное обеспечение/операционная система и его можно открыть без программного обеспечения, при помощи которого тот был создан. В общем, формат PDF — это чрезвычайно важная разработка от Adobe, пользу из которой пользователи извлекают буквально ежедневно. И это несмотря на то, что формат был создан 25 лет назад, т.е. в 1993 году.

Как открыть PDF?

Хорошо, давайте теперь предположим, что вам понадобилось загрузить из Интернета какую-то документацию для работы либо какую-то книгу для учебного курса в формате PDF. Вопрос: чем ее открыть? На самом деле, файл формата PDF можно открыть даже с помощью установленного у вас на компьютере браузера. Google Chrome, Mozilla Firefox, Opera — подойдет практически любой браузер. Просто перетащите PDF-файл в окошко браузера и вы получите полный доступ к электронной версии документации.

Если же вы не хотите использовать браузер (вполне понятное желание), то есть еще одно решение, причем от самой компании Adobe. Чтобы получить полный доступ к PDF-файлу, вы можете воспользоваться такой крайне удобной программкой, как Adobe Acrobat Reader DC. В ней вы сможете найти любые инструменты и параметры, которые помогут вам в наилучшем виде ознакомиться с содержимым PDF. Помимо прочего, вы также можете найти в Интернете кучу других программ, способных дать вам примерно такой же функционал, как и у Adobe, но мы все же рекомендуем пользоваться Acrobat Acrobat Reader DC, так как она условно бесплатна и доступна на всех платформах.

Погодите, Acrobat Acrobat Reader DC — условно бесплатная программа? Да, чтобы просматривать доступные файлы в формате PDF, вам нужно попросту загрузить это решение от Adobe на свой компьютер и произвести установку. Однако, если вам нужно не просто чтение файла, но и, допустим, его редактирование — придется покупать подписку, причем далеко не дешевую. Самая «навороченная» версия программы обойдется вам в $15, что вполне можно считать высокой ценой, учитывая курс доллара. Так что в случае нужды в редактировании PDF-файла попробуйте найти какой-то бесплатный аналог в Интернете.

Я имею дело с PDF не только как пользователь, а, прежде всего, как разработчик софта, умеющего его читать и писать (возможно, вы сталкивались с продуктами компании ABBYY, работающими с PDF – ABBYY FineReader, ABBYY PDF Transformer). Я предполагаю, что вы прочитали статью habrahabr.ru/company/abbyy/blog/105006 и далее пишу только про некоторые особенности и ограничения PDF, которые больше интересны продвинутым пользователям. Никаких сложных технических деталей при этом не буду касаться, так что программистам, желающим научиться читать или писать PDF, лучше сразу перейти к чтению спецификацию версии 1.7 со страницы www.adobe.com/devnet/pdf/pdf_reference_archive.html :)

Назначение и особенности PDF
Изначально формат PDF задумывался компанией Adobe ещё в конце 80х годов прошлого века как «электронная твёрдая копия» странично-структурированных документов, которую можно просматривать и печатать в виде, идентичном оригинальному, на разных машинах и платформах, но который не предполагается редактировать. Это определение отличает PDF от большинства других форматов хранения и распространения человеко-читаемых документов. За прошедшие годы PDF сильно эволюционировал, являясь в настоящее время контейнером для самого разнообразного контента (текст, векторная и растровая графика, интерактивные элементы, формы, аудио, видео, аннотации разных видов), но его исходное предназначение до сих пор остаётся источником как его возможностей, так и многочисленных ограничений.

Так, форматы текстовых документов (DOC, RTF, DOCX и т.д.) в основном ориентированы не на просмотр, а на редактирование документов. Созданный разумным пользователем:) документ логично реагирует на вставку/замену/удаление текста, картинок, таблиц в разных местах, изменение размеров и полей страниц, изменение форматирования фрагментов текста любого размера и тому подобные действия. Интернет страницы в формате HTML не слишком ориентированы на редактирование (хотя и допускают его), но при условии прямых рук автора нормально переносят отображение не только на экране монитора своего создателя, но и на устройствах с совершенно другими экранами и взаимодействием с пользователем.

PDF-принтер переводит GDI(«интерфейс графических устройств»)-команды вывода в нужные места символов, линий, кривых, прямоугольников, растровых изображений и прочих геометрических примитивов в соответствующие им PDF-команды с сохранением в файл. При этом, разумеется, сохраняются количество и размер страниц, на которое выполнялась печать.

Такое преобразование способно очень точно передать внешний вид того, что получилось, перед печатью (например, линии и символы не теряют своей чёткости при любом масштабировании и при этом хранятся достаточно компактно), но совершенно игнорирует устройство документа, из которого это получилось. Например, для подчёркивания слова или другого фрагмента текста в PDF не предусмотрено выделенной команды или атрибута символов – вместо этого отдельно выводятся символы (группами, которые обычно даже не совпадают со словами или строками), а отдельно рисуются линии или тоненькие прямоугольники нужной толщины и цвета в нужных местах страницы. Таблицы, которые человек воспринимает как целостный набор ячеек, для приложения, отображающего PDF, – просто хаотический набор символов и линий, по случайному совпадению образовавших нечто, воспринимаемое человеком как таблица. Гиперссылки, которые в исходном документе можно было использовать как для навигации внутри документа, так и для перехода на Веб-адреса, при печати исчезают как средство навигации, остаются лишь окрашенные и/или подчёркнутые надписи. В общем, сплошные имитация и надувательство. Такие PDF я ниже буду называть «векторными» (как состоящие из векторных команд, к которым относится и рисование символов).

Другой способ получения PDF-документов, ставший особенно популярным в последние годы, – переработка в него отсканированных бумажных страниц. Сейчас большинство сканеров и многофункциональных устройств могут выдавать результат в виде «растровых» PDF – при этом предыдущий способ «имитации печати» не нужен, а драйвер или утилита устройства самостоятельно формирует страницы PDF так, чтобы на каждой из них оказалось нужное «растровое» изображение, благо набор форматов графики, которые можно использовать в PDF, покрывают большинство запросов. Такие «растровые» PDF-документы занимают больше места и выглядят менее качественными, чем «векторные».

Некоторые современные приложения (в том числе приложения комплекта OpenOffice, Microsoft Office новых версий, ABBYY FineReader и ABBYY PDF Transformer) умеют создавать PDF самостоятельно, пользуясь при этом гораздо большим арсеналом средств, чем PDF-принтеры, ибо знают об исходном документе гораздо больше, чем нужно передать принтеру. Это позволяет сохранить, например, гиперссылки как таковые (а не просто как окрашенный и/или подчёркнутый текст) или описать некоторые элементы структуры документа для его переформатирования и показа на экранах малых разрешений. Такие документы со структурной информацией называются «тегированными» или «tagged» PDF. По замыслу Adobe, «тегирование», добавленное начиная с Acrobat 5, призвано скрыть наиболее вопиющие недостатки ранних версий PDF. Например, для нетегированных документов не гарантируется корректная работа механизма копирования фрагментов текста в буфер обмена Windows (всем привычный Copy-Paste). При этом даже сегодня тегированными являются не все создаваемые PDF, в том числе из-за ограниченных возможностей программ-генераторов (или незнания пользователями, где включить нужную для этого галочку в настройках), или просто из-за большего размера таких PDF, когда остро стоит вопрос экономии дискового пространства при хранении больших архивов.

Преобразование PDF-документов в другие форматы
Желание отредактировать содержимое PDF-документа или преобразовать его в другие, желательно редактируемые форматы (как для немедленного редактирования, так и для хранения с возможностью поиска/редактирования «когда-нибудь»), возникает по разным причинам. Простейшие средства извлечения текстового содержимого предоставляет любое приложение, отображающее PDF – я имею привычный Copy-Paste, который работает довольно примитивно – как правило, теряется символьное и абзацное форматирование, игнорируются таблицы и сложная вёрстка PDF-документа. Есть приложения, которые позволяют «точечно» редактировать PDF без преобразования в другие форматы – но их арсенал средств редактирования очень ограничен, ну просто никакого сравнения с привычными текстовыми процессорами:) В дорогущем Adobe Acrobat для многих документов единственным работающим видом редактирования является «аннотирование» – есть инструменты для добавления комментариев, выделения текста маркером, зачёркивания и т.п. Да, более продвинутое редактирование как бы есть, но вы, случайно, не встречали забавного сообщения «All or part of the selection has no available system font. You cannot add or delete text using the currently selected font.» при невинной попытке удалить символ или слово из «хорошего», «векторного» PDF-документа в Акробате? А не пробовали заменить фрагмент строки на более длинный, грустно наблюдая уползающие вправо хвосты строк? Если нет, значит любовь к продуктам Adobe у вас ещё впереди! К простым и привычным для текстовых процессоров задачам – например, «заменить за несколько секунд по всему документу слово «MS» на «Microsoft», с изменением размещения текста по колонкам и страницам» – такое «редактирование» и близко не стоит.

Неслучайно в софтверной индустрии сформировалась целая отрасль, производящая средства конверсии с лучшей функциональностью. Из написанного выше (и особенно – ниже), должно стать понятно, насколько это непростая задача. Большинство пользователей, не читавших этого креатива, так не считают – поэтому я его и пишу:)

Основные проблемы при преобразовании PDF в другие форматы
Часто в обсуждении связанных с PDF вопросов употребляется понятие «текстового слоя». Интуитивно многими пользователями предполагается, что в PDF-файлах есть такие выделенные части, где логично и понятно описаны все нужные характеристики видимого текста – или невидимого, но находимого поиском или выделяемого мышью. Хочу открыть вам страшную тайну (вероятно, с риском в ближайшее время получить пулю от киллера, подосланного авторами формата PDF и их отделом маркетинга) – никакого текстового слоя в указанном смысле в PDF нет! На деле для каждой страницы есть общий поток команд её рисования, в котором совершенно произвольно перемешаны разнотипные команды – задания областей отсечения, смены текущих толщины, цвета и шаблона пунктирности линий, изменения системы координат, смены шрифта, рисования прямых и кривых (с текущими атрибутами), вывода группы символов с текущими атрибутами и указанными «номерами глифов» (глиф – описание изображение символа, без учёта других его характеристик), вывода растровых картинок и т.п. То есть даже специальные текстовые команды – это просто один из многих инструментов рисования, не выделенный в отдельные потоки.

Хуже другое – даже в пределах одной страницы PDF можно использовать (слишком) широкий набор средств изображения похожего глазу текста: буквы могут быть видны как части растрового изображения – например, в логотипах (задача их распознавания – в чистом виде задача OCR-приложений, того же ABBYY FineReader), как результат рисования кривыми Безье или специальными текстовыми командами. Этот последний случай – самый лучший для обработки, но даже здесь не обязательно указываются общепринятые коды символов из Unicode или других кодировок – ибо в PDF-файл можно записывать особые шрифты из подмножества только реально использованных символов и ссылаться на символы по совершенно условным «номерам глифов», а не по кодам. То есть не всегда просто как обнаружить символы в нужном месте, так и определить их коды! С форматированием, в том числе с выбором похожего шрифта при отсутствии точного аналога, всё ещё хитрее.

Символы, даже если их присутствие и коды тем или иным способом установлены, своим порядком вывода на страницу очень часто никак не соответствуют исходной последовательности их размещения и чтения на странице. Например, на двухколоночной странице команды вывода текста из правой и левой колонок могут быть произвольно перемешаны. На такой странице нужно выделить области, в каждой из которых размещён логически связный текст – это тоже задача, много лет решаемая OCR -приложениями. Некоторую помощь даёт структурная информация из тегированных PDF – но часто даже у сделанных сейчас PDF эта информация либо отсутствует – как при выводе через PDF-принтер – либо бывает недостаточно полна.

Когда мы решили, что в некоторых местах страницы есть связный текст (а где-то даже поняли, как он сгруппирован в таблицы – это очень нетривиальная задача!), и нашли, какие символы и в какие строчки складываются, нужно преобразовать эти строчки в абзацы и более высокоуровневые элементы, привычные пользователям как текстовых процессоров, так и HTML – колонки, таблицы, врезки. Данных об абзацном форматировании в PDF обычно нет, так что все эти характеристики тоже нужно вычислять – как при всём том же распознавании. Если пытаться игнорировать элементы текста сложнее строчек или абзацев, то, выведя всё в коротких врезках, получим документ, который выглядит как настоящий, но почти не редактируется – помните задачу о замене по всему документу слова «MS» на «Microsoft»? Это очень хороший тест на редактируемость. Для редактируемого документа важна способность текста перетекать из одних зон в другие – в нужных случаях, которые ещё надо суметь отличить от ненужных.
Добавить метки

PDF(Portable Document Format), не просто всем известный и удобный формат, а и единственный, который является стандартом с 2008 года. Он был разработан командой компании Adobe Systems. Разработчики формата поставили перед собой задачу создать такой формат отображения документа, чтобы на любом устройстве документ открывался и выглядел одинаково.

Вкратце PDF мы уже рассматривали в статье , сегодня попробуем выявить достоинства и недостатки этого векторного формата.

Часто PDF ассоциируется с «безбумажным офисом», а в случае с дизайном — с подготовкой к печати и с передачей графических макетов в типографию.

Преимущества и недостатки.

Плюсы:
— стандартизованность и популярность: открывается на любых устройствах с любыми операционными системами ровно в том виде, в котором был создан;
— средство просмотра PDF формата, Adobe Acrobat Reader, часто предустановлено на компьютер, если устройство поставлялось с операционной системой. Если же нет – он доступен для скачивания с сайта разработчика Adobe Systems и это совершенно бесплатно;
— занимает мало места на жестком диске, потому что поддерживает множество алгоритмов компрессии;
— безопасность: пользователь может настроить параметры безопасности для своего PDF файла, например, запрет печати, запрет редактирования, использование электронной подписи для определения подлинности документа и т.д.

Минусы:
редактор PDF файлов – платный;
— редактировать pdf файлы в специализированных программах, сложнее, чем любые другие графические файлы;
— сложно работать с текстом в PDF файлах, он воспринимается как картинка.

Где используется?

PDF формат используется для хранения и передачи текстовой и графической информации в сети, например для передачи фирменного бланка в полиграфию или размещение анкеты на сайте. Отлично подходит для демонстрации наработок: показать легко, отредактировать – сложно. Это усложняет воровство интеллектуальной собственности. Ну и идеи «безбумажного офиса» воспринимаются на ура всеми, кто задумывается об экологии на планете.