Изменить стиль страницы

Полиграфичность. Высокая.

Масштабируемость. Весьма средняя. Зависит от того, насколько хорошо программа-просмотрщик поддерживает anti-aliasing. [1.4]

Кроссплатформенность. Средняя.

Конвертируемость. Ниже среднего.

Гипертекст. Есть подобие.

Возможность редактирования. Средняя.

Формально, файлы созданные с использованием DJVU трудно называть книгами. Это, по существу, растровый многостраничный графический файл. При его создании специальные алгоритмы отделяют текст от фона и иллюстраций, после чего они сжимаются с различным разрешением. Что и обеспечивает чрезвычайно высокое сжатие картинки (примерно 1:500) при более чем приемлемом качестве изображения. Эти свойства делают его идеальным для множества сканированных компьютерных (и не только) руководств и пособий, которыми сейчас завалены варезные сайты (такие книги еще называют «освобожденными» ;)) ). Ведь, если книга содержит примеры исходников программ, формулы, схемы или сложные таблицы, то даже незначительные ошибки при OCR могут непоправимо испортить ее. A DJVU позволяет представить книгу «как есть».

Причем интересы читателей, привыкших парой щелчков копировать нужный кусок текста в буфер, тоже учтены. Последние версии формата DJVU могут содержат чисто текстовый слой.

Справедливости ради, следует заметить, что DJVU, более чем хорошо справляющийся с текстами и штриховыми иллюстрациями, пасует перед изданиями, содержащими цветные фото и рисунки — иллюстрированными энциклопедиями и глянцевыми журналами. Выглядят такие издания в DJVU весьма непрезентабельно.

Закрытые специализированные форматы

Существует довольно много форматов электронных книг, которые были созданы для одного конкретного устройства или программы.

К ним можно отнести Rocket e-book (.rb), Micro$oft Reader (.lit), PalmDoc, MobiPocket (.prc), Jinke Book Wolf (.wol) и т.д. Плюс, некоторые программы для чтения норовят сконвертировать текст в свой собственный, ни с чем не совместимый формат (IceBook Professional на PC, iSilo и Weasel на Palm и прочие). Правда, при близком рассмотрении оказывается, что это все те же HTML, RTF или txt (некоторое исключение составляет формат ExeBook, который конвертирует текст книги в исполняемый файл, содержащий набор растровых картинок), как правило, упакованные для компактности, и снабженные служебной областью, где могут храниться, например, закладки. Также (и чаще, чем хотелось бы) может быть добавлена DRM.

Полиграфичность. Зависит от конкретного формата. Средняя или выше среднего.

Масштабируемость. Средняя или выше среднего.

Кроссплатформенность. Низкая. Обычно такие форматы создаются для одного конкретного устройства или программы. Просмотр на PC или, соответственно, КПК нередко возможен только с помощью программ, написанных энтузиастами.

Конвертируемость. Низкая. Обычно только через софт, опять же написанный энтузиастами.

Гипертекст. Чаще всего есть.

Возможность редактирования. Низкая или вообще никакая.

И, наконец…

Специализированные открытые форматы на основе XML

Что такое XML, подробно описано ниже. Сейчас нас интересуют лишь сравнительные характеристики формата.

Полиграфичность. Высокая. Правда, всецело зависит от программы-ридера.

Масштабируемость. Почти абсолютная.

Кроссплатформенность. Практически абсолютная.

Конвертируемость. Практически абсолютная.

Гипертекст. Есть.

Возможность редактирования. Как правило, абсолютная.

Как видим, язык XML имеет наилучшее сочетание качеств, необходимых для e-book. Поэтому попытки делать e-book на его основе уже предпринимались неоднократно и небезуспешно.

В отличие от txt, RTF, DOC, HTML, PDF, и т.д. которые однозначно ориентированы на отображение или хранение текстовых данных, форматы на основе XML позволяют структурировать книгу.

Известны форматы OEB (Open E-Book), DocBook, e-Pub и другие. Но наиболее популярным (по крайней мере, в Рунете) является FictionBook.

§ 1.3 Несколько слов о XML

Расширяемый язык разметки — eXtensible Markup Language, был создан для хранения структурированных данных в текстовом формате. Теоретически файлы XML должны легко читаться, как программным обеспечением, так и человеком.

С использованием технологии XML можно записывать и обрабатывать практически любые данные, вне зависимости от их структуры и сложности.

На базе XML уже создано большое количество подмножеств для решения конкретных задач. Например, есть реализация HTML средствами XML — XHTML, язык для записи математических формул и выражений (MathML), язык для химических формул, для медицинской электронной документации. Новый формат файлов пакета M$ Office 2007 представляет собой не что иное, как пачку XML-документов, которые сохраняются в одном архиве.

Кроме того, поскольку любые данные в XML — это обычный текст, то и работать с ними можно как с текстом: готовить XML-документы в notepad, а в случае потери какой-либо части данных с остальными можно будет по-прежнему работать.

В отличие от HTML, набор средств разметки (тэгов) в XML не фиксирован, и может быть произвольным.

Разумеется, это должно как-то описываться. Поэтому в XML есть такое понятие, как «спецификация», DTD (Document Type Definition — описание типа документа) — документ, в котором описана структура XML-подмножества. В настоящее время на смену DTD пришла XML Schema.

Если возникнет необходимость, XML легко преобразовать в любой другой формат. Для этого существует XSLT — eXtensible Stylesheet Language Transformation — расширяемый язык стилей.

Вот, к примеру, реализация адресной книги на базе XML.

Василий

Иванович

Пупкин

пер. Кривоколенный, 5-15

555-22-11

736-11-22

[email protected]

Кооператив

Рога и Копыта

ул. Малая Арнаутская, 12

202-33-20

202-32-00

http://www.horn&hoof.ua

mail@horn&hoof.ua

Как видим, сам документ имеет древовидную структуру и состоит из вложенннных элементов.

Первая строка является признаком XML и содержится во всех документах.

Элемент — это данные, ограниченные парой тэгов. и .

Кроме данных, элементы могут содержать в себе атрибуты — например, у элемента phone есть атрибут type, который может принимать фиксированные значения «home», «work» и «mobile».

Вместо пары тэгов для обозначения границ элемента может использоваться один тэг вида , но тогда у такого элемента не может быть данных и вложенных элементов.

Стандарт XML предписывает, чтобы у «дерева» элементов был корневой элемент, который будет содержать внутри себя все остальные. Корневой элемент должен быть единственным, то есть XML-документ, где два и больше корневых элементов, — это документ, сформированный неправильно.

Как видим, все просто и понятно. Документ легко читается и редактируется, а при желании можно написать XSL, трансформирующий его в HTML или RTF.

Давая свободу, XML одновременно предъявляет к документу гораздо более жесткие требования, чем HTML. Одно из ключевых понятий XML — «валидный» документ. Все элементы документа должны быть правильно закрыты, а вложенность их соответстовать спецификации. Конструкции типа Text, которые легко «проглатывает» HTML, в XML считаются фатальной ошибкой.

вернуться

1.4

Anti-aliasing — сглаживание картинки при масштабировании.