Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
SIT.doc
Скачиваний:
36
Добавлен:
27.10.2018
Размер:
275.97 Кб
Скачать

16. Лингвистические информационные ресурсы (лир): история становления и современное состоя­ние лир.

ЛИР – терминология, переводные словари, корпус текстов (устн, письм) и т.д.

ЛИР – это множество определенным образом оформленных и организованных речевых и языковых данных, находящихся на машинных носителях и используемых в различных сферах деятельности человека.

ЛИРами занимается компьютерная и прикладная лингвистика.

История

Нет ЛИРов, которые можно было бы использовать многократно из-за стоимости создания и мнения 70-80-х гг. о целесообразности изучения лингвистических данных малого объема.

Интерес к созданию лингвистических данных большого объема появился в середине 80-х гг. Появился термин «лингвистическая индустрия».

В 1986 итальянскими учеными, в том числе Антони Замполи в г. Грассетта был проведен международный семинар по вопросам изучения лингвистических данных большого объема.

1992 – Замполи ввел термин «ЛИР»

Задачи этой области в это время:

1. сделать уже имеющиеся ЛР многозадачными и многократно используемыми

2. создание новых ЛР, направленных на многократное использование существующих и будущих систем

Основные положения ЛИР:

1. ЛИР – это базовая основа для создания мирового информационного пространства

2. носители всех языков заинтересованы в развитии ЛИР для самых различных целей

3. ЛИР – многогранное понятие, требующее привлечения специалистов различных областей

4. стратегию ЛИР необходимо разрабатывать для каждого языка отдельно

5. ЛИР не является прямым сложением национальных проектов

6. после разработки ЛИР, необходимо разработать требования по ведению и модификации ЛИР

7. необходимо выработать общие стандарты (общие критерии оценки) ЛИР

8. необходимо исследовать ЛИР как таковые (св-ва и хар-ки)

Для координации работ по ЛИР созданы 2 международные организации:

1. Консорциум по ЛИР, США

2. Европейская ассоциация по ЛИР

1995 – Европейская ассоциация предложила крупный проект: «Трансъевропейская инфраструктура ЛИР» (17 стран, включая Россию)

1998 – 1-я международная конференция, Гранада.

17. Основные составляющие лингвистических ресурсов. Нац. Лир.

Основные составляющие:

1. Корпус текстов (письм и текст массивы для разработки систем маш перевода, автом аннотир и реферир текста, создания ЛБД) – совокупность текстов, считающаяся достаточной и представительной для данного языка, диалекта или любого иного подмножества языка, предназначенная для различных типов анализа.

Примеры: Корпус Брауна (США, самый первый, нач. 60-х, 1 млн словоупотреблений, на основе худ. произведений США); АН (American Heritage Corpus, 5млн); корпус S (Великобритания); КТ Лондон ун-та (на основе староангл. поэзии, исслед. стихослож-я).

Материал для КТ – письменные источники и записи устной речи (полные тексты или фрагменты, кот. выбираются случайно либо целенаправленно).

Проблемы: большой объем инфо; большой объем доп. инфо, которая приписывается каждому словоупотреблению: грам, морф, синт, лексич. признаки, e.g. дом//N 1 1 1 (сущ., род, число, падеж итд);

2. ОДНОЯЗЫЧНЫЕ И МНОГОЯЗЫЧНЫЕ СЛОВАРИ – справочные книги, содержащие морфемы, слова, словосочетания, расположенные в определенном порядке с приписанной информацией о них. Используются в информац-поиск системах, системах маш. перевода, проверки орфографии, индексирования.

Классификация:

1. по лексикографической форме: а) для ед-ц больше слова (словосочет, цитаты), б) для ед-ц меньше слова (корней, морфем, н-буквенных сочетаний).

2. по содержанию: толковый, энциклопедический.

3. по лексике: тезаурус, диалект, язык писателя, неолог, иностранные слова итд.

4. по способу описания ед-ц: этимол, орфографич, словообраз. Итд

5. по расположению ед-ц: обратные, аналогические (по ассоциациям)

6. по эпохе: исторические

7. по цели: учебные, трудностей, ошибок.

Алфавитно-частотные – алф. список словоформ текста с указанием частоты употребления в тексте. Частотно-алфавитные – наоборот. Словари–словоуказатели – рядом со словом кол-во текстов, где оно встречается с номерами страниц и строк. Конкорданс – словарь словоформ с контекстом. Тезаурус – словарь с указанием семантических связей между ед-цами.

Автоматические переводные словари (АПС) – словарь в памяти компьютера.

Примеры: Lexis (первый, ФРГ, Фед. Бюро языков), Eurodicatom ( Бюро переводов европейского объединения угля и стали, офиц АПС ЕЭС, англ, ит, нем, дат, нидерл, фр яз); TEAM (2 млн, 4 языка)

Свойства: многоязычность, обратимость (возможность менять входной и выходной яз.), гибкость (набор лингв. и программных приемов, упрощающих пользование)

Задачи при построении АПС:

1. определяется способ представления входного и выходного словарей

2. определяются принципы отбора лексики для входного словаря

3. разработка принципов подбора переводных эквивалентов

3. ТЕРМИНОЛОГИЧЕСКИЕ СЛОВАРИ И БАЗЫ ДАННЫХ. (в системах научного документирования, системах порождения текстов)

Термин – слово/словосочетание со спец. значением.

Номен – географ названия, назв. приборов, фирм итд. (слова, словосочетания, буквенные символы, сочетания слов с букв симв, сочетания слов и цифр: IBM 486 итд)

Терминология – совокупность терминов, связанных друг с другом на понятийном, лексико-семантическом, грам. уровнях.

Терминоведение – научная дисциплина, предметом которой является терминология различных областей деятельности человека.

Терминография – наука, предметом которой является разработка принципов и методов составления терминологических словарей.

Виды: 1) по охвату лексики: многоотраслевые или политехнические, отраслевые или тематические, узкоотраслевые. 2) по цели: учебные, для специалистов, классификаторы (систематизированы названия объектов), рубрикаторы (создают перечни типовых рубрик), сборники рекомендуемых терминов 3) по охвату языков: одно-, дву-, многояз.

4. Фонет ресурсы/массивы устной речи. (комп сист. распозн-я и синтеза речи)

Текстовые базы данных устной речи: первые в США. 1 машиночитаемый корпус устной речи АмЕ, создан в нач. 60х в Бостоне Дэвисом Хаузом, 250 000 словоупотреблений.

Британские текстовые БД устной речи: крупнейшая BrE (общелитературная) - в Бирмингеме, 20млн словоупотреблений.

Нем. БД: Фрейнбургский корпус (архив магнитофон. записей нем устной речи); КТ устной речи Grunddeutsch (ФРГ, Швейцария, Австрия) – 600 000 словоупотреблений;

Национальные ЛИР

Если рассмотреть ЛР с точки зрения нахождения на территории некоторой страны, то можно говорить о нац. ЛР или о машинном фонде определенного языка.

В качестве самостоятельных подфондов машинного фонда русского языка выступают:

1. генеральный словник слов р/я

2. академический словарно-грамматический подфонд: а) словарь совр. лит. языка, истор. словарь р/я 19 века, , исторический словарь р/я 18 века, словарь древнерусского языка 11-17вв, словарь рус. нар. говоров, словарь фразеологизмов, антон, синон, словообразовательный словарь; б) грамматич. часть содержит грам. информацию для основных слов русского языка.

3. иллюстрационно-текстовый подфонд – полные авторские тексты крупных рус поэтов и писателей, подбор цитат, рус загадки, пословицы, поговорки.

4. лингво-статистич. база фонда – числовые характеристики языковых единиц.

5. программное обеспечение: программы проверки орфографии, автоматического морфологического анализа итд.

6. подфонд лингвистических алгоритмов – правила автоматического лингвистического анализа/синтеза, правила понимания текста.

В РБ: 1996 начато создание бел машин корпуса. Планируется:

- подфонд художественных текстов бел писателей

- подфонд исторических текстов

- подфонд этнографии и культуры

- авторских словарей и конкордансов

- многоязычных бел-иностр и иностр-бел словарей

Ведутся исследования только по последнему пункту. Создан англо-бел-рус словарь. Создается нем-бел-рус словарь.

Исследования в области фонетич. ресурсов, диалектологии, фонетики, лит. яз и террит. говоров. В комп вводятся бел устные тексты, отражающие диалекты, говоры районов Полесья.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]