Онлайн книга Электронные издания. Глава 3 . Мультимедийный документ и форматы представления его элементов (В. А. Вуль, 2003)

Электронные издания (В. А. Вуль, 2003)

Глава 3

Мультимедийный документ и форматы представления его элементов

Данная глава посвящена рассмотрению состава мультимедийного документа и представления отдельных его компонентов. В частности, описываются различные варианты представления текстовой и графической информации. Указаны наиболее популярные графические форматы, используемые в электронных изданиях. Описаны возможные форматы представления аудиофайлов, особенности кодирования и сжатия соответствующих данных. В заключение анализируются форматы анимационных файлов и цифрового видео и варианты компрессии соответствующих данных.

3.1. Мультимедиа и ее роль в современных информационных технологиях

Мультимедиа-издание – это полноценное объединение продуктов современных информационных технологий: текста, графики, видео, аудио, фото, кино и телекоммуникаций (телефон, телевидение, радиосвязь). С помощью мультимедиа-приложений текст, графика, аудио– и видеоинформация объединяются в единое информационное поле, подобно тому, как в кинофильме объединяются звук и "движущееся" изображение. Однако, в отличие от кинофильма мультимедиа представляет собой интерактивную среду, т. е. пользователь может управлять процессом представления мультимедиа с помощью различных средств ввода – таких как клавиатура и манипулятор. Выполняемые сценарии и встраиваемые компоненты "оживляют" документы и заставляют их "реагировать" на действия пользователя. Состав мультимедиадокумента представлен на рис. 3.1.

Рис. 3.1. Основные компоненты мультимедийного документа

Помимо базового текста и графики, которые являются стандартными компонентами печатных изданий, в состав публикации мультимедиа входит ряд дополнительных элементов. Прежде всего это анимация. Наряду со стандартной анимацией в формате GIF в последнее время как в сетевых документах, так и в документах, локализованных на носителях, все чаще используется анимация в формате Flash (или Flash-фильмы). Flash-анимация, которая будет подробнее рассмотрена в 6-ой главе, весьма компактна за счет использования векторного формата. В то же время она позволяет создавать множество новых интересных эффектов как с точки зрения графики, так и повышения уровня интерактивности. Появились также интерактивные элементы, основанные на применении Java-скриптов – ролловеры, которые также позволяют резко повысить уровень интерактивности графической среды гипертекстового документа. Средства для создания ролловеров будут рассмотрены в главе. 4.

Ролловер представляет собой динамический элемент, изменяющий внешний вид, когда на нем оказывается курсор мыши или делается щелчок ею. Ролловеры предназначены для отображения различных состояний графических элементов Web-страницы (как правило, кнопок и ссылок).

Непрерывно повышается уровень сжатия аудио– и видеофайлов при неизменном их качестве. Как уже упоминалось, практически к любому гипертекстовому документу могут быть присоединены такие файлы. Создаются новые программные и аппаратные средства для производства, воспроизведения и передачи таких файлов, в том числе – в сетевой среде с низкой пропускной способностью – что позволяет надеяться на постепенное расширение их практического использования.

Успешное сращивание телекоммуникационных сетей с компьютерами, стремительный рост их качества и количества преобразует вещательные сети в интерактивные, создает единое мировое информационное мультимедиапространство. Важнейшей частью этого пространства является сеть Интернет и, особенно, ее гипермедиа-система World Wide Web. Распространение мультимедиа-технологий (в сочетании с развитием электронной коммерции) в дальнейшем наложит жесткие ограничения на конкурентоспособность издательско-полиграфических фирм, ориентированных на широкий спрос. Преимущества в продаже даже самой высококачественной продукции получат те, кто быстрее и эффективней освоил электронные способы коммерции и обслуживания.

Использование мультимедиа в учебных пособиях дополняет аналитические (вычислительные и логические) и навигационные возможности компьютеров способностью к образному, синтетическому описанию изучаемого предмета или объекта. Многочисленные исследования показали, что обучаемый с первого раза запоминает лишь четверть услышанного и треть увиденного, при комбинированном воздействии на слух и зрение запоминается приблизительно половина информации, а при вовлечении обучаемого еще и в активные действия (например, при использовании интерактивных мультимедиа-технологий доля усвоенного достигает 75%). Мультимедиа, особенно интерактивное, активизирует индивидуальные, личностные мотивы обучаемого (в частности, студента) при усвоении материала, в том числе:

✓ целевой (для меня важно и необходимо знать этот материал и уметь выполнять такую работу);

✓ исследовательский (работая с учебным материалом, я не только узнаю что-то новое, но и чувствую себя активным участником процесса познания, сам участвую в творческом процессе);

✓ эмоционально-эстетический (в процессе изучения материала я испытываю удовольствие, как от получаемых результатов, так и от самого процесса изучения этого материала);

✓ игровой (эта форма обучения интересна, начав изучать материал, я не могу остановиться, мне интересно и хочется довести до конца изучение материала);

✓ инициационный (предполагает органичное сочетание в мультимедийном учебнике информационной и эстетически-эмоциональной глубины).

По уровню творческих мотивов и степени воздействия на человека мультимедиа следует отнести к новому виду синтетического искусства, отличительной особенностью которого является высокая информативность и интерактивность. Поэтому, в будущем следует ожидать создания теории педагогики мультимедиа, учитывающей психофизиологические и эстетические законы восприятия и усвоения большого объема информации. Не исключая традиционной формы обучения, предполагающей творческое и воспитательное общение с преподавателем, мультимедиа создает новые позитивные факторы, в частности, значительный рост эффективности обучения за счет повышения качества самостоятельной работы обучаемого с электронными учебными материалами.

Специалисты считают, что самую сложную систему автоматизированного управления было бы гораздо легче освоить в том случае, если она реализована на основе стандартного мультимедиа-интерфейса. В будущем, видимо, будут созданы эвристические алгоритмы мультимедиа, которые позволят не только человеку адаптироваться в компьютерной системе, но и компьютеру адаптироваться к уровню восприятия человека, т. е. сделать процесс адаптации двусторонним.

В последующих разделах излагается характеристика и роль отдельных мультимедиа-компонент.

3.2. Форматы представления текстовых блоков электронного издания

Еще несколько лет тому назад ответ на поставленный в заголовке данного раздела вопрос был предельно прост: текстовые блоки должны быть в гипертекстовом (HTML) формате или же в формате PDF, так как только эти форматы поддерживали возможность включения в электронное издание мультимедийных компонентов. В настоящее время практически все верстальные пакеты поддерживают не только преобразование издания в формат PDF (или HTML), но и подключение к изданию мультимедиа-компонентов. В частности, в программном пакете PageMaker фирмы Adobe предусмотрена команда Дополнения | QuickTime Media в меню Сервис (рис. 3.2), которая обеспечивает подключение к электронному документу объекта в универсальном формате QuickTime, позволяющим работать с любой времязависимой информацией, начиная от аудиоданных и кончая фильмами с несколькими видео– и аудиодорожками.

В широко распространенном в нашей стране текстовом редакторе Microsoft Word, начиная с версии Word 97, предусмотрена возможность включения в состав документа не только анимации в формате GIF, но также и видеофильма в формате QuickTime, видеоклипа в формате AVI, клипа мультимедиа. На рис. 3.3 (слева) показано диалоговое окно Вставка объекта этого редактора, которое иллюстрирует сделанное утверждение. Кроме того, принятый в этой версии редактора формат DOC стал в полной мере гипертекстовым, так как в нем появилась возможность включать в документ гипертекстовые ссылки как внутренние, для чего в документе делаются специальные закладки, так и внешние – по URL-адресу любого другого документа. В редакторе добавлена также возможность преобразования исходного документа в формат HTML, а также создания специальных HTML-форм. Часть этих возможностей представлена и усовершенствована в новых версиях редактора – MS Word 2000 и Word 2002. В частности, на рис. 3.3 (справа) показано аналогичное диалоговое окно Вставка объекта для этих последних версий редактора Word. Там также имеется возможность вставки в документ видео в формате QuickTime (QuickTime Movie) и в формате AVI (Видеозапись).

Рис. 3.2. Интерфейс программного пакета PageMaker c раскрытой командой Дополнения меню Сервис

Таким образом, наряду с форматом HTML и PDF (последний, строго говоря, хранит текст в графическом формате), текстовые блоки электронных изданий могут быть представлены в форматах DOC (MS Word), P65 (для Adobe PageMaker 6.5) и многих других.

В том случае, когда электронное издание не содержит мультимедиакомпонентов, то оно может храниться в формате любого текстового редактора или верстального пакета, единственное дополнительное требование к текстовому редактору состоит в том, что он должен поддерживать графические форматы рисунков, если они включены в текст издания.

Для чисто текстовых изданий ограничений еще меньше. Их можно хранить и распространять в любом текстовом формате, используемом в современных персональных компьютерах. В частности, может использоваться формат TXT (в том числе "простой текст" или plain text), гораздо более экономичный, чем формат DOC. Для кодирования любого символа такого текста используется всего один байт. Пример такой кодировки представляет код ASCII (American Standart Code for Information Interchange, Американский стандартный код для обмена информацией). Для языков на основе латиницы и кириллицы такое кодирование вполне удовлетворительно.

Рис. 3.3. Интерфейс и диалоговое окно Вставка объекта редактора MS Word 2002

Однако, для некоторых восточных языков, например, китайского или японского, такой подход неприменим, так как разнообразие символов в этих языках многократно превышает 256 – предельного значения этого параметра в ASCII-стандарте. В последние годы все более прочные позиции приобретает стандарт Unicode или ISO 10646, т. е. стандарт Международной организации по стандартизации (International Organization for Standartization) под номером 10646. В этом стандарте каждый символ кодируется уже 2 байтами, т. е. предельное разнообразие символов достигает значения 65536. Этот стандарт часто называют стандартом многоязыковой поддержки, так как он позволяет кодировать символы государственных языков всех стран нашей планеты.

Однако электронное издание в TXT-формате не удовлетворяет даже самым скромным эстетическим запросам, так как в нем нет возможности использования не только графики, но даже шрифтов различного начертания, заголовков и подзаголовков, примечаний и других элементов, которые в совокупности называют "разметкой текста" (markup). Из языков разметки текста помимо HTML, рассмотренного в предыдущей главе, наибольшее распространение получили:

✓ TROFF, разработанный для оформления документации в рамках операционной системы UNIX и различных ее версий, включая LINUX;

✓ TEX, который широко используется для подготовки изданий с большим количеством математических формул;

✓ SGML (Standart Generic Markup Language – стандартный обобщенный язык описания документов), разработанный для длительного хранения документов большого объема.

Исходная программа форматирования электронных документов в системе UNIX называлась ROFF (от Run OFF – тиражирование). TROFF означает Typesetting ROFF, т. е. форматирование текста для принтеров с высоким разрешением и фотонаборных устройств. Хотя область распространения этого языка и поддерживающих его программ постепенно сужается, в США он продолжает использоваться для создания электронных отчетов, которые могут одинаково успешно выводиться на терминалах с низким разрешением и распечатываться с полиграфическим качеством.

Система верстки и язык TEX был разработан хорошо известным среди программистов и математиков профессором Дональдом Кнутом для подготовки книг и пособий по математическим дисциплинам. TEX работает на различных аппаратных и программных платформах. Его можно отыскать в сети Интернет и бесплатно перенести на свой компьютер. Имеются и коммерческие версии этого продукта, в частности для платформы Macintosh фирмы Apple. Отметим, что помимо математических книг на этом языке издаются различные академические журналы, в том числе и в нашей стране.

Язык SGML реализует принцип логической разметки текста, который позволяет разграничить содержимое издания и его электронное представление. Именно этим принципом руководствовались специалисты фирмы IBM, создавшие этот язык, который с 1986 года получил статус международного стандарта. Кстати, HTML был создан именно на основе SGML. Основное достоинство языка SGML состоит в его универсальности, независимости от программных средств для его интерпретации. Этот формат может быть конвертирован в форматы TROFF или TEX. Язык изначально создан для производственных нужд, связанных с длительным хранением электронных документов большого объема, таких как описания крупных проектов или их документация.

Большинство из перечисленных текстовых форматов можно встретить в многочисленных "Электронных библиотеках", представленных в сети Интернет, о чем подробнее будет сказано в главе 9. Для ускорения загрузки таких изданий с сайта на компьютер пользователя они нередко представлены в архивированном виде, для чего чаще всего используются программы-архиваторы ARJ, ZIP и RAR, работающие под управлением DOS, а так же WINZIP и WINRAR, предназначенные для работы в оболочке Windows.

Специальные языки разметки страниц в будущем будут активно развиваться. Одна из причин этого связана с автоматизацией извлечения информации из подготовленных электронных изданий. Такая операция обязательно производится для облегчения поиска информации, в том числе – в сети Интернет. Для публикаций, в производстве которых использованы принципы логической разметки и языки разметки страниц, многократно повышается эффективность поиска ключевых слов и выражений, адекватно отражающих содержание этих изданий.

3.3. Форматы представления графической информации

Без иллюстраций любое издание выглядит однообразно. Хорошо подобранная и рационально размещенная в издании графика не только улучшает дизайн издания, но и делает его значительно более информативным для читателя, помогают лучше передать его содержание и даже суть. Однако графика требует значительного информационного пространства для своего размещения, с чем связаны основные ограничения ее использования.

3.3.1. Общая характеристика графических форматов

Известны два способа описания компьютерного изображения: точечный (растровый) и векторный (контурный). В первом случае изображение формируется из отдельных точек или пикселов. Векторное изображение состоит из отдельных объектов, ограниченных замкнутыми или незамкнутыми контурами, каждый из которых представляет собой сочетание отдельных отрезков прямых линий (векторов) и кривых линий (дуг окружностей, фрагментов параболических кривых и кубических сплайнов). Каждый такой графический объект можно перемещать, масштабировать, вращать без потери качества изображения и независимо от любых других объектов.

Сплайн – это гладкая линия, проходящая через заданные точки.

Векторные файлы содержат математическое описание всех элементов изображения, которое используется программой визуализации для их отображения на экране монитора. Таким образом, сам процесс отображения информации требует определенных вычислительных мощностей для преобразования математического описания объектов в растровый формат монитора. Векторная графика характеризуется рядом положительных черт, к числу которых можно отнести:

1. Экономичность хранения изображений, т. е. сравнительно небольшие размеры графических файлов, хранящих изображение в векторном формате.

2. Легкость трансформации и манипулирования отдельными графическими объектами (и всем изображением в целом).

3. Максимальное использование разрешающей способности выводного устройства, с помощью которого осуществляется визуализация цифрового изображения, так как величина разрешения обычно в графическом файле непосредственно не задана.

4. Простота интеграции с текстом, который состоит из отдельных символов, формируемых преимущественно контурным методов (например, элементы TrueType-шрифтов и шрифтовые объекты в формате PostScript).

Простейшие форматы векторного типа реализованы в электронных таблицах, используемых в пакетах Lotus и Excel. Большинство же векторных форматов разработано для хранения чертежей, созданных программами САПР (Систем автоматизированного проектирования). В издательском деле и полиграфии к наиболее распространенным можно отнести формат и язык PostScript, относящийся к группе языков описания страниц PDL (Page Description Language). Язык широко используется для описания сверстанных страниц и их последующего вывода на печать в фотонаборных автоматах и лазерных принтерах. Ряд векторных форматов используются преимущественно как внутренние в графических программных пакетах, таких как Corel Draw, Adobe Illustrator и пр. Векторный формат используется в так называемых Flash-фильмах, которые все чаще используются вместо анимационных GIF-файлов.

С точки зрения живописности и реалистичности изображения векторная графика имеет весьма ограниченные возможности, поэтому в издательском деле шире используется растровое представление. В случае применения векторной графики определенные трудности возникают и с автоматизацией ввода графического изображения в компьютер или оцифровкой изображения. Сканеры, цифровые фото– и видеокамеры хранят оцифрованное изображение в растровых форматах.

Точечная или растровая графика исторически стала применяться гораздо раньше векторной. К ней можно отнести художественные изображения мозаичного типа: смальта, мозаика и даже вышивка. Таким образом, к растровой графике относят изображения, полученные из мельчайших отдельных элементов, каждый из которых неделим и характеризуется постоянством тона на всем своем протяжении. Такие элементы принято называть пикселами (это понятие мы уже упоминали во 2-ой главе). Каждый такой пиксел формально независим от соседних пикселов, т. е. может иметь различные характеристики: яркость, цветовой тон, насыщенность цвета и прочее.

К достоинствам точечной графики можно отнести следующие факторы:

1. Простота и легкость ввода (оцифровки) изображений.

2. Удобство технической реализации вывода информации (на монитор, лазерный или струйный принтер и так далее).

3. Реалистичность изображения.

4. Возможность получения тонких живописных эффектов, таких как туман, тонкие цветовые переходы и нюансы цвета, перспектива изображения, размытость и нерезкость и пр.

Однако и недостатки точечной графики существенны. К основным из них относятся:

1. Необходимость точных установок параметров до начала создания графического изображения. Следует задать количество точек на единицу длины изображения, размер изображения по каждой координате, а также глубину цвета – количество бит для представления каждого отдельного пиксела.

1. Большой информационный объем получаемого графического файла, который определяется произведением трех величин: площади изображения, разрешающей способности и глубины цвета в согласованных единицах измерения. Например, максимальное разрешение в пакете PhotoShop составляет 10000 пиксел на дюйм при максимальном значении 30000 пикселов по каждой координате, чему соответствуют размеры файлов до нескольких сотен Мбайт.

3. Неизбежное появление искажений при трансформациях изображения, т. е. когда при повороте и других трансформациях изображения, входящие в его состав горизонтальные и вертикальные линии превращаются в ступенчатые.

Важной характеристикой любого изображения, в частности растрового, является глубина цвета. Самое простое изображение использует 2 уровня серого, т. е. черный и белый цвета. На цветовое описание элемента такого изображения (пиксела) требуется лишь 1 бит. Следующий вариант использует множество уровней серого, обычно 256, в результате чего каждый элемент изображения кодируется 1 байтом (2⁸ = 256). Цветные изображения также могут быть различных типов.

В некоторых графических файлах используют так называемые индексированные цвета. В этом случае количество цветовых оттенков обычно не превышает 256, причем все они хранятся в самом графическом файле в виде палитры цветовых оттенков и каждый возможный цветовой тон в изображении соответствует одному из элементов этой палитры. Общее разнообразие или глубина цвета равна, как и в предыдущем случае, 8 битам или 1 байту. Кстати, индексированные цвета используются и в оболочке Windows в виде встроенной палитры цветов, с которой мы еще не раз встретимся в рамках данной книги.

Наконец, так называемое полноцветное изображение (True color) чаще всего работает в RGB-цветовом пространстве и использует 1 байт на каждый из 3-х основных цветовых компонент (красная, зеленая и синяя), т. е. общая глубина цвета равна 24 битам или 3 байтам. При таком представлении количество различных цветовых оттенков превышает 16 миллионов. В некоторых графических файлах используется даже 48-битная глубина цвета. В этом случае каждый основной цвет представляется 16 битами или 65576 различными уровнями, а общее число различных цветовых оттенков выражается фантастической величиной, превышающей 2,6×10¹⁴ .

RGB – это аббревиатура от Red, Green и Blue (красный, зеленый и красный). Цветовая модель RGB чаще всего используется для показа изображений на экране монитора или с помощью широкоформатных проекторов.

3.3.2. Сжатие графических данных

Для электронных изданий, зачастую распространяемых по сетям, объем занимаемый файлом представляет собой очень важную характеристику. Понятно поэтому стремление использовать векторные форматы или же специальные растровые форматы с внутренним сжатием информации для представления графических файлов. Кратко остановимся на методах и средствах сжатия изображений.

Существует 2 группы методов сжатия изображений: без потерь и с потерями. В первом случае при распаковке сжатого графического файла полностью восстанавливается вся исходная информация, в том числе, цветовой оттенок каждого отдельного пиксела. Во втором же – часть информации теряется, т. е. изображение становится несколько менее качественным, некоторые мелкие его детали утрачиваются. Во многих случаях это вполне допустимо, так как человеческий глаз различает, в лучшем случае, лишь несколько тысяч оттенков цвета. Кроме того, он не реагирует на мелкие детали изображения (разрешение глаза близко к одной угловой минуте, откуда при нормальном расстоянии до изображения в 25—30 см можно подсчитать величину линейного разрешения глаза, которая близка к 90—100 мкм).

Большинство методов сжатия без потерь основано на варианте группового кодирования RLE (Run-Length Encoding). Идея такого метода заключается в том, что последовательности повторяющихся значений заменяются на пару чисел, первое из которых дает количество повторяющихся значений, а второе – само это значение. В описаниях многоцветных изображений очень часто соседние пикселы характеризуются одними и теми же тоновыми и цветовыми характеристиками, что и обеспечивает эффективность такого сжатия [29].

Схема сжатия без потерь Лемпела-Зива-Велча (LZW) в последние годы используется все шире и шире. Она позволяет работать с данными любого типа, обеспечивая достаточно быстрое сжатие и распаковку данных. Этот алгоритм называют алгоритмом подстановок или алгоритмом сжатия словарного типа. На основе входного потока данных алгоритм формирует словарь данных (его также называют переводной таблицей или таблицей строк). Образцы новых данных сравниваются с записями словаря. Если они там не представлены, то создается новая кодовая фраза. Если строка повторно встречается во входном потоке, то в выходной поток записывается ссылка на соответствующую строку словаря, которая имеет меньшую величину, чем исходный фрагмент данных. Так реализуется сжатие информации.

Декодирование LZW-данных производится в обратном порядке. Декомпрессор читает код из потока данных и, если этого кода еще нет в словаре, добавляет его туда. Затем этот код переводится в строку, которую он представляет, и заносится в выходной поток несжатых данных. Ряд графических форматов, в том числе и один из базовых – TIFF – используют в современных своих версиях встроенное LZW-сжатие. В частности, этот формат использован для представления рисунков в данной книге. Достоинством этого метода для графических файлов является хорошее сжатие данных для любой глубины представления цвета, начиная со штриховых и кончая полноцветными изображениями. В частности, такое сжатие успешно используется в формате GIF с индексированными цветами (глубина цвета 8 бит). Оба эти формата будут описаны в данном разделе.

В других случаях используется сжатие с регулируемой величиной потерь и переменным коэффициентом сжатия. Чем больше величина потерь, тем больше и коэффициент сжатия. Программа сжатия обычно делит все изображение на блоки размером 8 × 8 пикселов каждый: Уменьшение сжимаемого фрагмента позволяет уменьшить пропорционально квадрату его линейных размеров время обработки, т. е. деление на фрагменты эффективно увеличивает скорость преобразования. Далее к значениям пикселов применяется формула, называемая дискретным косинусным преобразованием. Оно преобразует матрицу пикселов в матрицу значений амплитуд пространственного спектра изображения.

Значения элементов полученной матрицы характеризуют различные составляющие спектра: левый верхний угол результирующей матрицы соответствует самым низким частотам пространственного спектра, а правый нижний – самым высоким. Коэффициент качества преобразования, введенный предварительно пользователем, используется при получении значений элементов матрицы квантования. Чем ниже коэффициент качества, тем большие будут значения у элементов последней матрицы. Далее каждый элемент матрицы амплитуд делится на соответствующий элемент матрицы квантования. Полученные в итоговой матрице значения округляются до ближайшего целого числа. В результате таких операций в правой нижней части итоговой матрицы будет тем больше нулевых элементов, чем ниже заданный пользователем коэффициент качества. Затем программа сжатия кодирует элементы последней матрицы, начиная от левого верхнего по строке до правого нижнего одним из методов кодирования без потерь, причем чем больше нулей в последней матрице, тем меньше окажется информационный объем сжатого файла. Величина коэффициента сжатия для этого метода изменяется в пределах от 10 до 100 в зависимости от заданного значения коэффициента качества.

Декодирование сжатого описанным методом файла изображения начинается с шага обратного преобразования без потерь в результате чего восстанавливается заключительная матрица, в которой содержится ряд нулевых элементов в правой нижней части. Затем значения элементов этой матрицы домножаются на элементы матрицы квантования, хранимой в самом сжатом файле. В результате получим восстановленную матрицу амплитуд пространственного спектра, значения которой отличаются от элементов исходной (они округлялись до целого значения в процессе сжатия с потерями), что и определяет отличия восстановленного изображения от исходного. Далее применяется обратное косинусное преобразование, в результате чего получим восстановленную матрицу значений пикселов, размер которой по-прежнему 8 × 8. В результате потери высокочастотных составляющих восстановленное изображение будет выглядеть более блеклым и размытым по сравнению с исходным.

3.3.3. Описание наиболее распространенных графических форматов

Далее остановимся на основных форматах графических файлов. Самым универсальным из них является TIFF (Tag Image File Format). Спецификация этого формата была представлена фирмой Aldus Corporation в 1986 г. А в 1996 г. была выпущена современная его версия 6.0. Формат предназначался для хранения оцифрованных изображений больших размеров и высокого разрешения. В 1999 г. фирма Aldus вошла в состав фирмы Adobe, известной среди дизайнеров, издателей и полиграфистов всего мира своими программными пакетами для профессиональной работы с растровой и векторной графикой. Формат TIFF подходит как для профессиональной работы художников с графикой, так и для факсимильной связи и передачи изображений большого размера. Формат обладает универсальностью и высокой гибкостью и хранит графические данные в структурированном виде, что позволяет графическим приложениям осуществлять быстрый поиск и загрузку нужных фрагментов изображения.

В нем может использоваться как 24– и 32-битное цветовое представление (True Color), так и представление с индексированными цветами. Он часто применяется как промежуточный при преобразовании из одного графического формата в другой. Однако размер графических файлов, представленных в этом формате, велик, что долгое время препятствовало его использованию в электронных публикациях. Этот недостаток компенсируется, начиная с 5-ой версии формата, применением эффективного встроенного LZWсжатия, о котором было сказано выше. В 6-ой версии формата TIFF стандартное представление данных в RGB-цветовом пространстве дополнено возможностью представления в пространстве CMYK, которое широко используется при выводе графических данных на бумагу или иной носитель для тиражирования оттисков. Кроме того, в этой же версии предусмотрена возможность хранения описания фрагментов изображения в формате JPEG, о котором мы поговорим позднее.

CMYK – это аббревиатура от Cyan, Magenta, Yellow и Black (голубой, пурпурный, желтый и черный). Именно эти цвета составляют основу модели CMYK, которая предназначается для печати цветоделенных материалов и чаше всего используется для отображения на бумаге цветных изображений в полиграфии.

Общая структура графического файла в формате TIFF показана на рис. 3.4. Как следует из представленных на рисунке данных, в TIFF-файле принципиально может храниться несколько изображений, для каждого из которых предусмотрен свой собственный директорий (или каталог) и своя структура для хранения данных изображения. Следует отметить гибкость этого формата, выражающуюся в том, что директории и данные могут располагаться друг относительно друга 3-мя различными способами:

1. Как показано на рис. 3.4, т. е. вначале – все директории, а затем все данные изображений.

2. Попарно: директорий и данные 1-го изображения, затем – то же самое для 2-го и так далее.

3. Вначале все данные изображений, а уже затем – директории этих изображений.

Рис. 3.4. Общая структура TIFF-файлов

Используя устаревший термин "директорий" автор следует стандартному описанию формата TIFF, предложенному фирмой Aldus в середине 90-х годов.

Гибкость формата проявляется и в структуре директория для каждого изображения, а также в размещении графических данных, служащих для описания изображений. Эта структура подробнее представлена на рис. 3.5. Заголовок файла содержит информацию, необходимую для идентификации типа файла. Это собственно идентификатор, номер версии и смещение первого директория (IFD0) относительно заголовка файла. В директории изображения (Image File Directory, IFD) содержится несколько структур данных, изначально названных тэгами. В первом из них хранится информации об общем количестве элементов описания изображения – тэгов, а затем размещается каждый такой тэг. В самом конце каждого IFD помещена ссылка на следующий IFD в виде величины его смещения от начала TIFF-файла. Структуры данных, называемые здесь тэгами уже совсем не те тэги, с которыми мы сталкивались в предыдущей главе. Здесь тэг представляет собой элемент данных, служащий для описания изображения. В современных версиях формата TIFF их чаще называют полями. В каждом таком тэге или поле могут содержаться данные изображения или же ссылка на то место в памяти, где они помещены. Все изложенное иллюстрируется рис. 3.5.

Каждый тэг или поле представляет собой стандартную 12-байтовую структуру, где в первых 4 байтах хранится идентификатор тэга (поля) и тип элементов данных. Следующие 4 байта содержат количество элементов данных в этом поле и лишь последние 4 байта отведены для хранения собственно данных этого поля или же смещения того места, где хранятся эти графические данные.

Универсальность формата TIFF проявляется также в том, что данные изображения могут быть организованы как в виде полос, так и в виде фрагментов. Понятие полоса для растрового изображения соответствует одной строке или последовательно расположенным нескольким строкам растра. Протяженность полосы измеряется количеством строк растра, которые в нее входят. Таким образом, полоса представляет собой одномерную структуру данных. Каждая полоса задается в некотором тэге (или поле) с помощью смещения относительно начала файла. Это позволяет программам отображения легко находить в файле нужные данные и отображать их независимо от других данных изображения.

Рис. 3.5. Структура размещения данных в TIFF-формате

Фрагмент представляет собой двумерную структуру данных, в нем задается как горизонтальная протяженность (количество пикселов вдоль строки развертки), так и вертикальный размер, т. е. число строк развертки, которые присутствуют (хотя бы частично) внутри фрагмента. Фрагмент – структура прямоугольная. Это позволяет выводить на экран части изображений в том случае, если разрешение компьютера не позволяет вывести изображение целиком. Индивидуальная адресация фрагментов (в виде величины смещения) позволяет программам легко и быстро находить нужный фрагмент изображения и отображать его на экране.

Нелишним будет также упомянуть, что формат TIFF обладает широкими возможностями развития. Действительно, для того чтобы использовать новый тип данных достаточно определить его в соответствующих тэгах или полях и предусмотреть возможность правильного распознавания этого типа данных в программах просмотра файлов формата TIFF. Именно так были определены сжатые с помощью алгоритма Лемпела-Зива-Велча графические данные в версии 5.0 и с помощью алгоритма JPEG-сжатия – в формате 6.0.

Формат GIF (Graphic Interchange Format) создан компьютерной информационной службой CompuServe. Он является одним из наиболее употребительных растровых форматов в электронных, в особенности, в сетевых издания. Формат изначально был создан для упрощения обмена данными в локальных компьютерных сетях, при возможности отображения этих данных. Основных достоинств у формата 3:

✓ пригодность для различных платформ, т. е. формат GIF является платформно-независимым;

✓ возможность хранения нескольких изображений в одном файле и их представление в форме анимационного GIF-файла;

✓ малый размер файлов благодаря использованию мощного алгоритма сжатия без потерь.

Изображение записывается в этом формате с использованием RGB-цветовой модели и данных встроенной в файл палитры индексированных цветов. К сожалению, серьезным ограничением для этого формата является малая глубина цвета, не превышающая 8 бит на пиксел. Важное достоинство этого формата состоит в том, что он позволяет хранить в одном файле несколько изображений. Современная версия GIF89a решила проблему обработки таких изображений, размещенных в одном файле, с помощью дополнительно включенного в файл блока управления графикой. Этот блок позволяет программе просмотра организовать взаимодействие каждого последующего изображения с текущим, что и обеспечило создание широко распространенных анимационных GIF-файлов. Структура анимационного GIF-файла и взаимодействие хранимых в нем различных изображений подробнее рассмотрено в разд. 3.5.1. Там же мы остановимся на структурной организации файлов этого типа. Графические данные в формате GIF могут храниться как последовательно, строка за строкой, так и с различными вариантами чередования строк. В последнем случае рисунок первоначально может создаваться, например, на основе 1/8 части от общего описания, а в дальнейшем к нему добавляются все новые строки, и изображение постепенно "прорисовывается" все четче и четче.

Растровый формат с глубиной представления цвета до 48 бит и с использованием той же самой RGB-модели создан специальной группой разработчиков и получил название PNG (Portable Network Graphic – переносимый сетевой формат), что произносят как "пинг". Формат PNG изначально планировался как замена формату GIF, но с улучшенными возможностями представления цвета. Он, как и GIF, поддерживает чередование строк и ускоренную начальную загрузку файла. В нем используется еще более эффективный алгоритм сжатия информации. Кроме того, в формате поддерживается режим полупрозрачных корректирующих слоев, аналогичный используемым в векторном AI (Illustrator) и растровом PSD (Photoshop) форматах графических пакетов фирмы Adobe. Единственное ограничение формата PNG по сравнению с GIF состоит в его непригодности для хранения в одном файле нескольких изображений и, вследствие этого, отсутствии анимационных возможностей.

Рассмотренные выше графические форматы содержали внутреннюю компрессию без потерь информации. Еще один формат, который относят к числу наиболее употребительных, характеризуется регулируемой величиной сжатия в зависимости от допустимой потери качества изображения. Этот формат разработан объединенной группой экспертов в области фотографии JPEG (Joint Photographic Experts Group) и назван аббревиатурой JPEG (расширение файлов, созданных в этом формате – JPG) . Этот формат также растровый с глубиной цвета, равной 24 битам. Преимущественно используется цветовая модель HSL (Hue-Saturation-Lightness или ОттенокНасыщенность-Яркость). Алгоритм сжатия, используемый в таких файлах, носит названия "алгоритм сжатия JPEG". Он был описан ранее в этом же разделе в качестве примера технологии сжатия с потерями в графических файлах. Различные его варианты использованы также при организации сжатия видеоданных (см. разд. 3.5).

Графические программы, которые позволяют хранить данные в этом формате, обычно выводят специальную линейку, на которой устанавливается значения параметра качества, изменяющегося в пределах от 0 до 10 (см. рис. 3.6). Одновременно с непрерывным изменением коэффициента качества на линейке появляется дискретный параметр качества в форме целого числа в поле ввода Качество, а рядом в раскрывающемся списке расположена соответствующая характеристика этого параметра. При значении от 0 до 4 качество "Низкое", от 5 до 7 – "Среднее", 8 и 9 – "Высокое" и от 10 до 12 – "Максимально". На рисунке значение коэффициента качества равно 6 и качество "Среднее". При сохранении изображения можно установить переключатель Разновидность формата в положение Progressive, при котором величина чередования строк устанавливается в пределах от 3 до 5, что обеспечивает быструю начальную загрузку изображения низкого качества в сетевых структурах.

Рис. 3.6. Диалоговое окно для установки параметров файла в формате JPEG

Используемый в формате JPEG подход "сжатие с потерями" частично идентифицирует и удаляет ту информацию, которая несущественна для восприятия изображения. Лишь при сжатии изображения с резко выраженными контурами линии начинают "дрожать". При высоких значениях коэффициента качества изображения этот эффект не проявляется. Возможно, в дальнейшем появится вариант формата с избирательной установкой коэффициента качества для различных фрагментов изображения, что позволит достигнуть высокого качества при очень высоких коэффициентах сжатия.

В заключение этого раздела следует отметить последовательность графических форматов в порядке убывания их популярности (или частоты применения) для электронных изданий и документов: GIF, JPEG, PNG, TIFF.

3.4. Форматы представления аудиофайлов

В этом разделе речь пойдет о цифровых форматах файлов, предназначенных для хранения звука. Иначе говоря, – о хранении оцифрованного звука. Напряжение, передаваемое по телефонным каналам и несущее звук, представляет собой аналоговый сигнал достаточно сложной формы. Чтобы преобразовать такой сигнал в цифровую форму необходимо выполнить последовательно две операции: дискретизацию и квантование. Дискретизация состоит в периодическом измерении значений напряжения (на рис. 3.7 дискретизация сигнала производится в моменты времени t1,.., t4,..), а квантование – в преобразовании аналоговых значений в дискретный цифровой код. На рисунке показан пример 3-разрядного квантования аналогового сигнала, при котором имеется 2³ = 8 уровней квантования. Соответственно на качество оцифрованного звукового сигнала оказывают влияние 2 фактора: частота дискретизации и разрядность цифрового кода, получаемого при квантовании. При увеличении частоты дискретизации и разрядности кода качество оцифрованного звука улучшается, но пропорционально возрастает объем информации, которая должна хранится в файле. Таким образом необходимо найти компромиссное решение между качеством и размерами файла.

Рис. 3.7. Дискретизация и квантование аналогового звукового сигнала

Частоту дискретизации определить достаточно просто. В соответствии с теоремой Котельникова частота дискретизации должна быть вдвое больше максимальной частоты спектра звукового сигнала. Принятая в настоящее время частота дискретизации для аудио-CD составляет 44100 Гц, т. е. максимальная воспроизводимая частота звукового спектра составляет 20050 Гц, что превышает диапазон звуков, воспринимаемых ухом человека. Это обеспечивает идеальное звучание таких устройств. Частота дискретизации в телефонных сетях составляет 8000 Гц, что более чем в 2 раза превышает полосу пропускания телефонного канала, равную 3000 Гц.

Количество уровней или разрядность квантования характеризует точность передачи уровня звукового сигнала. Действительно, при 256 уровнях квантования или представлении уровня звука с помощью 8 бит информации, величина погрешности квантования равна половине расстояния между соседними уровнями, так как именно с этой точностью значение электрического напряжения может быть преобразовано в цифровой код (при том условии, что наименьшему уровню сигнала, обозначенному min на рис. 3.7, соответствует цифровой код 000000002 или 00h, а наибольшему, обозначенному max, – 111111112 или 0ffh в 16-ричной форме представления), т. е. отнесено к одному из двух соседних уровней, между которыми находится реальное значение сигнала.

Нетрудно сообразить, что при частоте дискретизации в 44100 Гц и квантовании каждого такого уровня 16 двоичными разрядами (65536 уровней квантования) хранение 1 минуты цифрового аудио потребует около 5 Мбайт информационного пространства, а 30 минут стереозвучания – около 300 Мбайт.

Закодированные описанным способом цифровые аудио-данные характеризуются значительной избыточностью, т. е. они могут быть упакованы, а затем восстановлены без всякой потери качества. Однако применение для сжатия цифрового аудио архиваторов обычного типа, таких как ARJ или ZIP позволяет сжать исходный файл лишь приблизительно на 20%, т. е. такое сжатие является неэффективным.

Основная идея сжатия аудиосигнала с потерями – пренебрежение теми фрагментами звука, которые лежат вне пределов восприятия человеческого уха. Первая такая возможность определяется маскирующим эффектом, в соответствии с которым сильные звуки приводят к невосприимчивости уха к слабым звукам в том же самом частотном диапазоне. Поэтому слабые звуки можно кодировать с малым количеством уровней, в результате чего сокращается количество информации, используемое при кодировании звука.

Далее, весь частотный диапазон делится на поддиапазоны, каждый из которых обрабатывается отдельно, причем маскирующий эффект используется как внутри каждого поддиапазона, так и между ними, т. е. очень мощный звук в одном из поддиапазонов приводит к маскированию во всех остальных. Затем используются особенности психоакустической модели человеческого слуха, в соответствии с которой тщательно сохраняются звуки хорошо воспринимаемых частот и удаляются звуки тех частот, которые не воспринимаются.

Для стереозвучания используется дополнительный прием, связанный с тем, что стереоэффект воспринимается человеком только в области средних звуковых частот. Поэтому сигнал низких и высоких частот передается в монофоническом звучании.

Наконец, используются специальные алгоритмы сжатия, основанные на высокой предсказуемости звукового сигнала, т. е. большом значении его коэффициента автокорреляции. Все перечисленные выше методы и алгоритмы позволяют получить десятикратный и более высокий коэффициент сжатия практически без потери качества звучания, что реализуется в формате MP3, разработанном комитетом MPEG (Motion Picture Expert Group – группа экспертов в области движущихся изображений).

Для воспроизведения звуковых файлов формата MP3 существует целая группа программ-плееров. Список большинства из них можно найти на сайте http://www.dailymp3.com. Самые популярные из них это Winamp, которая включена в дистрибутив браузера Netscape Communicator, начиная с версии 4.7, K-Jofol, которая является самым быстрым декодером звука, и NAD (или NADDY), которая является лидером по качеству воспроизведения звука. Другие плееры используются гораздо реже.

Из форматов звуковых файлов следует упомянуть AU (от слова Audio, предложен фирмой Sun Microsystems) для UNIX-подобных систем и платформ, WAV (Microsoft Waveform – стандарт звуковых файлов для операционной системы Windows), AIFF (Audio Interchange File Format – интерактивный формат аудио файлов) – стандарт звуковых файлов для платформы Apple Macintosh и MIDI (Musical Instrument Digital Interface – цифровой интерфейс для музыкальных инструментов) – межплатформный формат электронных музыкальных инструментов. Кратко остановимся на каждом из них.

Формат AU – один из наиболее распространенных в сети Интернет. В заголовочной части файла определяются параметры звуковых данных: частота дискретизации и разрядность квантования, число звуковых каналов и метод кодирования. Используется разновидность этого формата с 16-разрядным квантованием стереозвука и частотами дискретизации 20050 и 44100 Гц с одним или несколькими звуковыми каналами. Наиболее распространенные файлы этого формата носят подзаголовок -Law. Они рассчитаны на один звуковой канал с полосой 8000 Гц. Подзаголовок -Law означает преобразование выбранных в процессе дискретизации значений в двоичный код по логарифмическому закону. Преобразование производится в соответствии с выражением:

Y_µ = sign(m) ln (1+µ|m/mp|)/ln(1+µ), (3.1)

где Y µ – значение в логарифмической шкале, m – исходное квантованное значение, mp – максимальная величина последнего значения, µ – постоянное значение, величина которого определяет область, в которой обеспечивается наиболее высокое качество звучания.

В формате AU наряду с 8-разрядным логарифмическим кодированием и 16разрядным линейным кодирование стереозвука, предусмотрена возможность представления 24– и 32-разрядного линейного стереозвука, имеющего частоту дискретизации 22050 и 44100 Гц.

Формат WAV является основным на платформе Windows. Фактически это специальная разновидность файла формата RIFF (Resource Interchange File Format – файловый формат взаимодействия ресурсов), который предназначен для хранения произвольных структурированных данных. Полное название такого формата – WAVE RIFF Microsoft Windows. Звуковые данные в таком файле обычно хранятся в PCM-форме (PCM – Pulse Code Modulation или импульсно-кодовая модуляция). Это означает запись в файле значений квантованного кода в последовательных точках дискретизации. В заголовочной части файла содержится основная информация об оцифрованном звуке, например, число каналов и частота дискретизации, а также среднее число передаваемых в секунду байтов. Последняя характеристика позволяет программе воспроизведения звука выбрать требуемые размеры буфера для хранения звуковых данных. Большинство программ воспроизведения звука буферизуют количество данных, соответствующее одной секунде непрерывного звучания.

Формат WAV поддерживает также ряд дополнительных блоков данных. К ним относят дополнительную информацию о сжатых звуковых данных. В частности, фирма IBM зарегистрировала специальные коды форматирования для сжатия в формате -Law. Специальный блок предназначен для того чтобы помечать определенные позиции в потоке звуковых данных, что позволяет синхронизировать звуковой ряд с видеорядом. Предусмотрены также блоки для размещения дополнительной текстовой информации.

Формат AIFF (Audio Interchange File Format) преимущественно предназначен для работы на платформе Macintosh. Он во многом напоминает WAV, но позволяет, в отличие от последнего, хранить еще и шаблоны, т. е. образцы оцифрованного звука, которые можно использовать как шаблоны для отдельных нот. Специальная версия формата AIFF-C поддерживает сжатие.

MIDI (Musical Instrument Digital Interface) – старейший звуковой формат, который позволил стандартизировать работу с различными электронными музыкальными инструментами. Стандарт базируется на использовании пакетов данных, каждый из которых соответствует определенному MIDIсобытию. Эти события можно разделить по каналам. Сложная среда такого файла может включать различную аппаратуру на каждом канале, причем отдельная ее часть будет отвечать за события на определенном канале. Такие файлы хранят не запись оцифрованного звука, а только ноты. В результате они гораздо компактнее других типов звуковых файлов. Недостатком такого формата является то, что он не определяет в явном виде всех тонкостей воспроизведения звука.

3.5. Форматы представления анимации и цифрового видео

3.5.1. Анимационные GIF-файлы

Известно, что анимационные файлы в формате GIF занимают почетное место на Web-страницах. Надо сказать, что в электронных изданиях любого типа анимационные файлы также используются достаточно широко. Это объясняется тем обстоятельством, что GIF-файлы непосредственно воспроизводятся большинством браузеров, причем объем памяти, занимаемый этими файлами, сравнительно невелик. Для учебных электронных изданий анимационные файлы обеспечивают уникальную возможность демонстрации последовательности действий, протекания физических, электрических, технологических и других процессов в простой и наглядной форме. Следует особо отметить, что затрата вычислительных ресурсов на такие демонстрации – минимальна.

Искусственный мир компьютерной анимации лежит где-то посредине между миром неподвижных изображений, форматы которых были рассмотрены в разд. 3.3, и реальным миром видеоизображений. Обычные мультипликационные фильмы состоят из множества рисованных изображений-кадров, в которых последовательно изменяются позиции объекта анимации. В результате, при отображении с достаточной скоростью такой последовательности изображений у зрителя возникает впечатление движения объектов.

Возможности GIF-анимации связаны с тем, что этот формат позволяет хранить в одном файле несколько различных изображений. Единственный существенный недостаток GIF-файлов связан с применением индексированных цветов, для чего в файле используется глобальная и локальные цветовые палитры. Глобальная цветовая палитра хранит до 256 различных цветовых оттенков, каждый из которых может быть использован в любом из изображений, которое хранится в данном файле. Локальные палитры относятся к каждому отдельному изображению, т. е. хранимые в них цветовые оттенки не могут использоваться в других (не своих) изображениях. Каждое такое изображение формирует отдельный кадр, причем задержка следующего кадра и его линейное смещение относительно предыдущего по каждой координате может регулироваться. Разрешение для всех изображений, входящих в данный файл, или количество пикселов по каждой координате должно в таком файле поддерживаться постоянным.

Рис. 3.8. Структура анимационного файла формата GIF 87a

Структура файлового формата GIF 87а представлена на рис. 3.8. Файл начинается с общего заголовка и дескриптора логического экрана, причем в последнем хранится ширина и высота каждого изображения в пикселах, индекс цвета фона и значение коэффициента сжатия. Там же задается размер глобальной цветовой таблицы, которая может и отсутствовать. В этом случае обязательно используется для каждого отдельного изображения локальная палитра. В большинстве случаев рекомендуется пользоваться именно глобальной палитрой, что экономит общее информационное пространство, занимаемое файлом.

После указанных трех элементов следуют наборы данных, характеризующие каждое из входящих в файл изображений. Каждое изображение в отдельности описывается локальным дескриптором и локальной цветовой палитрой, после которых следуют данные изображения. Данные обычно состоят из последовательностей пакетов данных, называемых блоками, причем в состав отдельных блоков могут входить и подблоки.

Конец ознакомительного фрагмента.

Вы здесь

Электронные издания. Глава 3 . Мультимедийный документ и форматы представления его элементов (В. А. Вуль, 2003)