Лаба 5
.docxЛабораторная работа №5
Практическая задача: «Конкорданс»
Обычной проблемой анализа текстов является определение частоты и расположения слов в документе. Эта информация запоминается в конкордансе, где различные слова перечислены в алфавитном порядке и каждое слово снабжено ссылками на строки текста, в которых оно встречается. Рассмотрим следующую цитату.
Слово "piper" встречается здесь 4 раза в строках 1, 2 и 3. Слово "pickled" встречается 3 раза в строках 1 и 3.
В этой задаче создается конкорданс для текстового файла следующим образом:
Вход: Открыть документ как текстовый файл и ввести текст по словам, отслеживая текущую строку.
Действие: Определить запись, которая состоит из слова, счетчика появлений и списка номеров строк, содержащих это слово. При первой встрече некоторого слова в тексте создать запись и вставить ее в дерево. Если слово уже есть в дереве, обновить частоту его появления и список номеров строк.
Выход: После ввода файла распечатать слова в алфавитном порядке вместе со счетчиками частоты и упорядоченными списками строк, где встречается каждое слово.
Таким образом,
файл concord.txt выглядит так:
Если выполнить программу с файлом concord.txt в качестве параметра, результаты будут выглядеть так:
Реализовать задачу и сформировать отчет по данной лабораторной работе.