Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Диплом.doc
Скачиваний:
29
Добавлен:
16.03.2016
Размер:
275.46 Кб
Скачать

2 Особенности составления тезаурусов по теме «горный и пешеходный туризм» в испанском и русском языках

В соответствии с выводами Главы 1, тезаурус, составлению и исследованию которого посвящена наша работа – это идеографический тематический словарь «Горный и пешеходный туризм». Он будет состоять из лексики русского и испанского языков.

Таким образом, чтобы составить тезаурус необходимо решить ряд задач:

- проанализировать корпус текстов (рекламные проспекты, буклеты), туристические сайты, энциклопедии;

- выделить термины, описывающие предметную область;

- провести логическое разделение терминов по семантическим группам;

- сопоставить термины русского и испанского языков;

- расположить группы в алфавитном порядке.

2.1 Методы и алгоритм ручного составления тезауруса

Информационно-поисковый тезаурус – словарь, составляемый вручную экспертом-лингвистом, специалистом в области построения словарей и семантических ресурсов. При составлении подобного словаря стоит задача получить тезаурусное описание одной или нескольких предметных областей, при этом, часто существует корпус текстов, который является основой для создания словаря. Эксперт проводит анализ корпуса текстов и руководствуясь технологией ручного построения тезауруса составляет список терминов описывающих заданную предметную область и включает их тезаурус в качестве дескрипторов. После этого термины группируются в концепты и между ними устанавливаются иерархические и ассоциативные отношения.

Для процесса ручного создания тезауруса характерны такие недостатки как высокая стоимость и длительность создания ресурса, обусловленность результата от квалификации эксперта, невозможность вручную проанализировать весь корпус текстов и некоторые другие. Очевидно, что при ручном составлении тезауруса эксперту необходимо использовать существующие методы поиска информации и поисковые интернет – системы.

Прежде всего, двуязычный тезаурус представляет не пословные переводы, его структура представляет собой организованный на основе близости семантического значения список лексем в русском языке – определение понятия на русском языке – определение понятия на иностранном языке - список текстовых вариантов на иностранном языке. При этом списки лексических единиц должны быть как можно более полными с каждой стороны, включая и те выражения, которые обычно не представлены в словарях, так как представляются очевидными для человека.

При создании традиционных двуязычных словарей основной целью является обеспечение совокупности наиболее частых переводов слова в различных текстах. Переводы даются как бы с запасом, в список переводов включаются и точные переводы, и переводы с более узким значением и с более широким (именно поэтому испано-русские и русско-испанские словари не являются обратимыми). Предполагается, что читающий разберется по контексту, какой перевод выбрать.

Основными этапами при составлении тезауруса являются следующие:

1) Предварительная обработка корпуса текстов с целью выделения ключевых слов.

2) Формирование множества слов и словосочетаний для включения в тезаурус и изучение связей между дескрипторами тезауруса. Эксперт, руководствуясь этим множеством, составляет список ключевых понятий предметной области.

3) Выделение иерархических отношений между дескрипторами (в нашем случае – алфавитные порядок) и их классификация (в нашем исследовании, классификация опирается на семантические отношения между дескрипторами).

4) Построение множества ассоциативных отношений между дескрипторами в русском и испанском языке.

2.2 Особенности выявления элементов тезауруса «горный и пешеходный туризм» в русском и испанском языках

В качестве материала для исследования в нашей работе мы используем энциклопедические статьи, рекламные проспекты и буклеты, сайты туристических операторов, посвященные теме «горный и пешеходный туризм». Составление списка ключевых слов начинается с выявления ключевых слов из заголовка, затем список дополняется ключевыми словами из текста документа.

В процессе выбора ключевых слов необходимо придерживаться следующих правил:

- отражению ключевыми словами подлежит лишь та информация, которая действительно имеется в документе и ясно выражена;

- составление списка ключевых слов не связывается с вероятным наличием или отсутствием каких-либо дескрипторов в тезаурусе или с какими-либо предположениями о характере возможных запросов;

- в качестве ключевых слов, выраженных отдельными словами естественного языка, как правило, используются только имена существительные. Если в качестве ключевых слов, кроме существительных, необходимо использовать и другие значащие слова, то их следует объединять в словосочетания вокруг соответствующих существительных, например: «оптические неконтактные взрыватели», «миниатюрные электронные лампы». Подобный метод выделения ключевых слов соответствует основной синтаксической структуре построения лексических единиц тезауруса. Тем самым облегчается дальнейший поиск необходимого дескриптора в тезаурусе, что в свою очередь сокращает время обработки документа. Выделение элементов словосочетания осуществляется только в случае отсутствия в тезаурусе дескриптора, соответствующего по смысловому содержанию всему выделенному словосочетанию;

- элементы словосочетания естественного языка, используемые в качестве ключевых слов, выписываются в той же последовательности составляющих их элементов, что и в документе, например: «нелинейные дифференциальные уравнения», а не «дифференциальные уравнения нелинейные». Прямой порядок слов в словосочетании также обусловлен особенностями структурного построения тезауруса;

- словосочетания, отражающие принятые технические термины, выписываются как одно ключевое слово, например: «тиратроны тлеющего разряда», «температурный коэффициент реактивности» и т. д.