Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Практика-КТЛ.doc
Скачиваний:
48
Добавлен:
13.02.2015
Размер:
182.78 Кб
Скачать

Чухарев е.М.

Компьютерные технологии в лингвистических исследованиях

Указания

ПО ВЫПОЛНЕНИЮ ДОМАШНЕГО ЗАДАНИЯ

Архангельск 2009

Для решения задач необходимо скачать файлы документов: http://chukharev.ru/2010-pomorsu-tasks.zip

Предварительные замечания

Как известно, в семиотике и лингвистике под знаком (англ. sign) понимается двусторонняя сущность, состоящая из означающего (плана выражения) и означаемого (плана содержания). Одной из разновидностей знака является знак-символ (англ. symbol): символические знаки, в отличие от иконических и индексальных, характеризуются отсутствием сходства или смежности между означаемым и означающим.

В русскоязычной традиции, сложившейся в компьютерных науках, термины «знак» и «символ» используются в иных значениях, а именно как взаимозаменяемые соответствия англ. character. Текст представляется в памяти компьютера в виде последовательности символов (= знаков): букв, цифр, знаков препинания, пробелов, а также так называемых специальных (= управляющих, непечатаемых) символов, которые, как следует из их названия, не отображаются на экране и не выводятся на печать, однако используются для управления форматированием и расположением текста. К непечатаемым символом относятся, например, знаки абзаца («красной строки»). Чтобы увидеть непечатаемые символы в Microsoft Word следует нажать кнопку «¶» на панели инструментов.

Для того, чтобы определить, какое количество символов содержится в тексте, в Microsoft Word 2003 нужно выбрать в меню «Сервис» пункт «Статистика», а в Microsoft Word 2007 — на ленте «Рецензирование» в поле «Правописание» нажать кнопку «Статистика».

§1. Простой поиск

Многие лингвистические задачи связаны с поиском в тексте некоторых элементов: слов, словосочетаний, предложений и проч. В Microsoft Word встроена функция автоматического поиска, вызвать которую можно следующими способами:

  • в Microsoft Word 2003 — выбрав в меню «Правка» пункт «Найти», либо нажав одновременно клавиши Ctrl и F;

  • в Microsoft Word 2007 — нажав кнопку «Найти» на панели инструментов, либо нажав одновременно клавиши Ctrl и F.

В результате появляется диалоговое окно «Найти и заменить».

2

Элемент, который следует найти в тексте, называется шаблоном поиска (англ. search pattern). Шаблон поиска следует вводить в поле «Найти». После нажатия кнопки "Найти далее» Microsoft Word начинает просматривать текст, ища в нём совпадения (matches) с шаблоном. Совпадения выделяются в тексте инверсией. Продолжая нажимать кнопку «Найти далее», можно последовательно просмотреть все совпадения в тексте. Если совпадений больше нет, то будет выдано сообщение «Просмотр документа закончен».

Вместо последовательного просмотра совпадений можно выделить их все сразу.

Для этого в Microsoft Word 2003 нужно установить галочку «Выделить все элементы, найденные в» и убедиться, что в выпадающем списке выбрана позиция «Основной документ». При этом кнопка «Найти далее» превратится в «Найти все». После нажатия этой кнопки будут выделены все имеющиеся в тексте совпадения с шаблоном поиска, а в диалоговом окне после слов «Найдено элементов:» будет указано их общее количество.

В Microsoft Word 2007 для достижения того же эффекта следует нажать кнопку «Выделение при чтении» и из всплывающего меню выбрать пункт «Выделить все». Количество найденных совпадений будет указано в диалоговом окне («Приложение Word выделило... элементов»).

С найденными таким образом совпадениями можно осуществлять любые блочные операции: например, выделить их шрифтом прямо в тексте (в меню «Формат» пункт «Шрифт») или перенести их списком в отдельный файл (в меню «Правка» выбрать пункт «Копировать», затем создать новый документ и выбрать в меню «Правка» пункт «Вставить»).

Что именно считается совпадением, определяют параметры поиска. Для настройки этих параметров нужно нажать кнопку «Больше» и установить галочки в зависимости от задачи.

Если установлена галочка «Учитывать регистр», то будут находиться элементы, точно (буква в букву) совпадающие с шаблоном. В случае, если эта галочка не установлена, совпадением будет также считаться элемент, отличающийся от шаблона регистром (англ. case), то есть употреблением заглавных и строчных букв. Например, если задать шаблон поиска Rob, но не устанавливать галочку «Учитывать регистр», то помимо собственно Rob будут также найдены слова типа rob, RoB, rOB и т. п. (если, конечно, они присутствуют в тексте).

Если галочка «Только слово целиком» не установлена, то кроме целых слов, совпадающих с шаблоном, будут находиться и части слов, например, для шаблона man

3

будут найдены man, wоmап и mankind. Если же установить галочку «Только слово целиком», то совпадениями будут считаться только отдельные слова.

Галочка «Все словоформы» работает для английского языка и позволяет находить формы единственного и множественного числа имён существительных, все синтетически образуемые степени сравнения прилагательных и формы глаголов.

Назначение галочки «Подстановочные знаки» будет рассмотрено в §2.

Задачи

Текст: Great Expectations (dickens.doc)

  1. Встречается ли в тексте слово enormous? Если да, то в каких контекстах оно употребляется?

  2. Встречается ли в тексте словоформа гisk?

  3. Сколько всего раз встречается в тексте слово beautiful?

  4. Определить, сколько раз встречаются в тексте названия цветов (заполнить таблицу):

№ п/п

Название цвета

Частота

№ п/п

Название цвета

Частота

1

black

6

magenta

2

blue

7

orange

3

brown

8

purple

4

pink

9

red

5

green

10

white

5. В какой орфографии (британской или американской) представлен текст Great Expectations в файле?