Кафедра Информатики и математики
к.т.н., доцент Яшин В.Н.
Информатика
Лабораторная работа № 7
Часть 1
Самара
2012
6. Технология создания и обработки текстовой информации
6.1. Определения, классификация программ для создания и
редактирования текстовой информации, форматы
текстовых файлов
Под текстовой информацией традиционно понимают информацию представленную с помощью соответствующих символов – букв, цифр, знаков препинания, знаков отражающих математические операции, специальных знаков и т.д. Основным носителем текстовой информации, т.е. материальным средством на котором фиксируется или регистрируется текстовая информация, является документ. Современное понятие документа не является однозначным и зависит от сферы деятельности человека – экономики, материального производства, систем управления, науки, образования, культуры и т.д.
Например, в области экономики под документом понимают материальный носитель, на котором различными способами осуществляется фиксация или регистрация информации экономического характера. Современный документ кроме текстовой информации может содержать таблицы, диаграммы, графики, рисунки, фотографии и т.д., и, следовательно, может содержать и графическую информацию. С развитием информационных технологий появилось понятие электронного документа как упорядоченной совокупности данных хранимых в электронном (кодированном) виде на соответствующем носителе – в оперативной памяти компьютера, компьютерной дискете, накопителе на жестком магнитном диске, компакт- диске (CD), флэш-памяти (Flash USB drive) и т.д. Электронный документ также может включать в себя текстовую, графическую, служебную информацию и иметь сложную организационную структуру. Преобразование электронного документа в документ традиционного вида происходит при его печати на бумажном носителе. Для создания и обработки текстовой информации в компьютере применяют специальные программы, которые условно можно разделить на три класса: текстовые редакторы, текстовые процессоры, настольные издательские системы. Условность обусловлена тем, что новые версии таких программ постоянно расширяют свои функциональные возможности и приводят к размыванию границ ранее принятой классификации. Таким образом, в настоящее время классификация программ для обработки текстовой информации является не устоявшейся.
К текстовым редакторам относят программы, предназначенные для создания, редактирования, форматирования, сохранения и печати документов. При этом под редактированием понимается преобразование документа, обеспечивающее удаление или добавление, исправление или перемещение содержания документа, а под форматированием – преобразование документа, изменяющее его форму представления. К текстовым редакторам можно отнести следующие компьютерные программы: Notepad, WordPad, Lexicon и т.д. К этому же классу программ можно отнести текстовые редакторы систем программирования (инструментальных систем), использующие языки программирования Pascal, C++, Delphi, Visual Basic и т.д.
К текстовым процессорам относят программы, имеющие более широкий спектр возможностей по созданию документов (использование шаблонов, выбор стилей форматирования, поиск и замена символов, средства проверки орфографии, работа с таблицами, графиками и др.) по сравнению с текстовыми редакторами. В России наибольшей популярностью среди текстовых процессоров пользуется Microsoft Word.
Еще более мощные программы по созданию документов носят название настольных издательских систем и предназначены для подготовки документов к публикации. Примером такой издательской системы является программа Adobe PageMaker.
Документы созданные с помощью выше перечисленных компьютерных программ сохраняются во внутренней или внешней памяти компьютера в виде текстовых файлов. При этом под текстовым файлом будем понимать документ, которому присвоено имя (идентификатор) по определенному правилу. Способ хранения текстовой информации в файле определяет формат файла. В литературе связанной с информационными технологиями формат файла называют также расширением файла. В настоящее время существует достаточно много форматов текстовых файлов, которые можно разделить на универсальные и оригинальные форматы. Первые могут быть прочитаны (однозначно интерпретированы) большинством программ, вторые – только специальными программами. Для преобразования текстового файла из одного формата в другой, в состав современных текстовых процессоров входят специальные программы – конверторы. Входит такая программа и в состав текстового процессора Microsoft Word. Выбор требуемого формата текстового документа или его преобразование производится в процессе сохранения или открытия в текстовом процессоре Word. Например, для сохранения нового документа необходимо выполнить команду [Файл – Сохранить как …] и с помощью появившегося диалогового окна «Сохранение документа» выбрать папку для сохранения документа, в списке «Имя файла:» присвоить документу имя и в раскрывающемся списке «Тип файла:» выбрать необходимый формат файла. Для тестового процессора Microsoft Word 2002 диалоговое окно «Сохранение документа» показано на рис. 6.1.
Рассмотрим некоторые форматы текстовых файлов из раскрывшегося списка «Тип файла;» (рис.6.1).
Документ Word (*.doc) – формат файла .doc, оригинальный формат используемой версии Word 2002, полностью сохраняет форматирование, может использовать 16 – битную кодировку символов (шрифты Unicode).
Веб – страница (*.htm; *.html) – форматы файлов .htm и .html форматы хранения веб – страниц в сети Интернет. Содержат управляющие коды (теги) языка разметки гипертекста.
Шаблон документа (*.dot) – формат файла .dot, оригинальный формат используемой версии Word 2002 для хранения шаблона документа. Шаблон можно рассматривать как стандартный бланк, подготовленный для заполнения. Этот бланк содержит параметры настройки меню и инструментальных панелей, элементы «Автотекста», макрокоманды и т.д. В документе, создаваемом на основе конкретного шаблона, по умолчанию используются элементы оформления и значения параметров из соответствующего шаблона.
Рис.6.1. Диалоговое окно «Сохранение документа»
В текстовом процессоре Microsoft Word 2002 имеется большой набор шаблонов для создания разнообразных документов от обычных деловых бумаг до коммюнике (заявлений). Если после запуска программы Microsoft Word пользователь начнет набирать текст в «пустом» окне документа, то документ будет базироваться на шаблоне Normal.dot, который визуально представляет собой чистый лист бумаги формата А4 (210х297 мм.) и содержит все стандартные стили форматирования и панели инструментов. Шаблон Normal.dot активен по умолчанию, т.е. если пользователь не предпринимает действий по установке оригинального шаблона, то текстовый процессор Microsoft Word 2002 загружает шаблон Normal.dot автоматически.
Текст в формате RTF (Rich Text Format) (*.rtf) – универсальный формат, который сохраняет все форматирование. Осуществляет преобразование управляющих кодов в команды, которые могут быть прочитаны и интерпретированы многими текстовыми процессорами.
Обычный текст (Text Only) (*.txt) – универсальный формат. Сохраняет текст без форматирования, в текст вставляются только управляющие символы конца абзацев.