Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИНФОРМАЦ. ТЕХНОЛОГИИ 2012.doc
Скачиваний:
56
Добавлен:
30.03.2015
Размер:
1.21 Mб
Скачать

2. Технологии обработки документов

2.1. Текстовая информация. Модель документа

Известно, что существуют различные типы текстовых файлов (плоские, размеченные, ASCII и пр.)- Соответственно, для ввода, обработки, представления информации в таких файлах требуются различные программные возможности. Для работы с текстами на компьютере используются программные средства, называемые текстовыми редакторами, или текстовыми процессорами.

2.1.1. Разновидности текстовых форматов

Существует большое количество разнообразных текстовых редакторов, различающихся по своим возможностям. Эти программы позволяют работать с различными типами и форматами тек­стовых файлов, при необходимости преобразуя их друг в друга.

Например, в текстовом формате (плоский текст – . t×t) работают редактор Notepad, встроенные редакторы оболочек Norton Commander и Far Manager (рис. 2.1), в то время как Word (а также WordPad) позволяют работать с размеченными текстовыми файлами в коммуникативном (тип файла . rtf – rich text format, или «обогащенный формат текста»), внутреннем (.doc) и текстовом (. t×t) форматах (рис. 2.2). Распространен также редактор документов Adobe Acrobat (рис. 2.3), использующий коммуникативный формат .pdf (portable document format). Ниже более подробно рассмотрены форматы разметки текстов HTML (см. рис. 2.6, 2.7).

Необходимо отметить, что наиболее развитые редакторы позволяют обрабатывать не просто тексты, а документы (тексты, содержащие встроенные или внедренные объекты или файлы других типов – табличные, графические, мультимедиа и пр.).

2.1.2. Типы файлов для размещения документов

Перечислим наиболее типичные файлы данных:

    • текстовые файлы – обобщенное название для простых и размеченных текстов, ASCII-файлов и других наборов данных символьной информации, которые интерпретируются и обрабатываются текстовыми редакторами, процессорами, анализаторами (Lexicon, Word, TEC, анализаторы SGML, HTML);

  • текст без разметки (планарный) – файл, содержащий только отображаемые (воспроизводимые на всех печатающих устройствах и терминалах) символы кода ASCII, а также простейшие управляющие символы: CR – возврат каретки; LF – перевод строки; TAB – символ табуляции, иногда LF – новая страница ;

  • текст с разметкой – планарный файл, содержащий бинарную и символьную (остальные колонки) разметку, управляющую отображением информации (программно и/или аппаратно);

Рис. 2.1. Текстовый редактор Far Manager, редактирование ASCII-файла: 1 – исходный экран менеджера файлов Far Manager, выбор файла для текстового редактирования (файл с символьной разметкой – 0lpotoka4 .rtf); 2 – элемент разметки (новый параграф); 3 – текст латиницы; 4 – текст кириллицы (шестнадцатеричное представление)

Рис. 2.2. Экран редактора Word, интерпретация RTF-файла (см. рис. 2.1)

Рис. 2.3. Редактор документов Adobe Acrobat, интерпретация файла, аналогичного рис. 2.1, 2.2

  • ASCII-файл – файл, содержащий только отображаемые коды левой части кодовой таблицы ASCII (латиница и служебные символы) и обычно применяющийся для хранения документов с символьной разметкой (RTF, SGML, HTML)