Чухарев е.М.
Компьютерные технологии в лингвистических исследованиях
Указания
ПО ВЫПОЛНЕНИЮ ДОМАШНЕГО ЗАДАНИЯ
Архангельск 2009
Для решения задач необходимо скачать файлы документов: http://chukharev.ru/2010-pomorsu-tasks.zip
Предварительные замечания
Как известно, в семиотике и лингвистике под знаком (англ. sign) понимается двусторонняя сущность, состоящая из означающего (плана выражения) и означаемого (плана содержания). Одной из разновидностей знака является знак-символ (англ. symbol): символические знаки, в отличие от иконических и индексальных, характеризуются отсутствием сходства или смежности между означаемым и означающим.
В русскоязычной традиции, сложившейся в компьютерных науках, термины «знак» и «символ» используются в иных значениях, а именно как взаимозаменяемые соответствия англ. character. Текст представляется в памяти компьютера в виде последовательности символов (= знаков): букв, цифр, знаков препинания, пробелов, а также так называемых специальных (= управляющих, непечатаемых) символов, которые, как следует из их названия, не отображаются на экране и не выводятся на печать, однако используются для управления форматированием и расположением текста. К непечатаемым символом относятся, например, знаки абзаца («красной строки»). Чтобы увидеть непечатаемые символы в Microsoft Word следует нажать кнопку «¶» на панели инструментов.
Для того, чтобы определить, какое количество символов содержится в тексте, в Microsoft Word 2003 нужно выбрать в меню «Сервис» пункт «Статистика», а в Microsoft Word 2007 — на ленте «Рецензирование» в поле «Правописание» нажать кнопку «Статистика».
§1. Простой поиск
Многие лингвистические задачи связаны с поиском в тексте некоторых элементов: слов, словосочетаний, предложений и проч. В Microsoft Word встроена функция автоматического поиска, вызвать которую можно следующими способами:
в Microsoft Word 2003 — выбрав в меню «Правка» пункт «Найти», либо нажав одновременно клавиши Ctrl и F;
в Microsoft Word 2007 — нажав кнопку «Найти» на панели инструментов, либо нажав одновременно клавиши Ctrl и F.
В результате появляется диалоговое окно «Найти и заменить».
2
Элемент, который следует найти в тексте, называется шаблоном поиска (англ. search pattern). Шаблон поиска следует вводить в поле «Найти». После нажатия кнопки "Найти далее» Microsoft Word начинает просматривать текст, ища в нём совпадения (matches) с шаблоном. Совпадения выделяются в тексте инверсией. Продолжая нажимать кнопку «Найти далее», можно последовательно просмотреть все совпадения в тексте. Если совпадений больше нет, то будет выдано сообщение «Просмотр документа закончен».
Вместо последовательного просмотра совпадений можно выделить их все сразу.
Для этого в Microsoft Word 2003 нужно установить галочку «Выделить все элементы, найденные в» и убедиться, что в выпадающем списке выбрана позиция «Основной документ». При этом кнопка «Найти далее» превратится в «Найти все». После нажатия этой кнопки будут выделены все имеющиеся в тексте совпадения с шаблоном поиска, а в диалоговом окне после слов «Найдено элементов:» будет указано их общее количество.
В Microsoft Word 2007 для достижения того же эффекта следует нажать кнопку «Выделение при чтении» и из всплывающего меню выбрать пункт «Выделить все». Количество найденных совпадений будет указано в диалоговом окне («Приложение Word выделило... элементов»).
С найденными таким образом совпадениями можно осуществлять любые блочные операции: например, выделить их шрифтом прямо в тексте (в меню «Формат» пункт «Шрифт») или перенести их списком в отдельный файл (в меню «Правка» выбрать пункт «Копировать», затем создать новый документ и выбрать в меню «Правка» пункт «Вставить»).
Что именно считается совпадением, определяют параметры поиска. Для настройки этих параметров нужно нажать кнопку «Больше» и установить галочки в зависимости от задачи.
Если установлена галочка «Учитывать регистр», то будут находиться элементы, точно (буква в букву) совпадающие с шаблоном. В случае, если эта галочка не установлена, совпадением будет также считаться элемент, отличающийся от шаблона регистром (англ. case), то есть употреблением заглавных и строчных букв. Например, если задать шаблон поиска Rob, но не устанавливать галочку «Учитывать регистр», то помимо собственно Rob будут также найдены слова типа rob, RoB, rOB и т. п. (если, конечно, они присутствуют в тексте).
Если галочка «Только слово целиком» не установлена, то кроме целых слов, совпадающих с шаблоном, будут находиться и части слов, например, для шаблона man
3
будут найдены man, wоmап и mankind. Если же установить галочку «Только слово целиком», то совпадениями будут считаться только отдельные слова.
Галочка «Все словоформы» работает для английского языка и позволяет находить формы единственного и множественного числа имён существительных, все синтетически образуемые степени сравнения прилагательных и формы глаголов.
Назначение галочки «Подстановочные знаки» будет рассмотрено в §2.
Задачи
Текст: Great Expectations (dickens.doc)
Встречается ли в тексте слово enormous? Если да, то в каких контекстах оно употребляется?
Встречается ли в тексте словоформа гisk?
Сколько всего раз встречается в тексте слово beautiful?
Определить, сколько раз встречаются в тексте названия цветов (заполнить таблицу):
№ п/п |
Название цвета |
Частота |
№ п/п |
Название цвета |
Частота |
1 |
black |
|
6 |
magenta |
|
2 |
blue |
|
7 |
orange |
|
3 |
brown |
|
8 |
purple |
|
4 |
pink |
|
9 |
red |
|
5 |
green |
|
10 |
white |
|
5. В какой орфографии (британской или американской) представлен текст Great Expectations в файле?