Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Болгарчук Р. - Книга 3.0 Слушайте! 2017.pdf
Скачиваний:
66
Добавлен:
01.12.2019
Размер:
14.79 Mб
Скачать

Ст. 84 из 343 в разделе 55

Чем же все токи является распознанный и не распознанный текст? Извиняюсь, что приходиться останавливаться на данных очевидностях, однако, именно о них пойдет речь. Мне часто приходилось сталкиваться с людьми, которые далеки от понимания разницы. То ли в компьютере они используют только кнопку «ВКЛ\ВЫКЛ», то ли книги читают исключительно глазами, не чего с ними больше не делая. А что с ними еще можно делать? – возникнет резонный вопрос. Вот его и разберу ниже.

Одна из загвоздок в том, что распознанный и не распознанный текст, порой глядя на экран внешне практический не чем не отличается. И в том, и в том видны буквы, и тот и другой иногда даже можно разными способами скопировать. Да и некоторые форматы (файлы) могут содержать одновременно как текст, так и картинку текста. Но все же разница между ними существенна. Не распознанный текст — это просто картинка. Буквы, так сказать, в ней зафиксированы как на обычной фотографии. Что-либо дописать, а тем более изменить, в таком тексте (без доп. обработки) крайне сложно. Единственным его преимуществом есть то, что он безошибочно отражает все, что было сфотографировано или сканировано. Если это хорошее качество, то видны все галочки, точечки, отступы, рисунки, формулы и многое другое. Поэтому сканированный текст так важен, если в сканированной книге много разных сложных элементов. В принципе на этом преимущества сканированных картинок перед тем же, но распознанным текстом заканчиваются. Дальше идут одни недостатки. Это и больший размер документа (чем распознанный) и не удобство работы с ним и многое другое. Но опишу те же недостатки, в виде преимуществ распознанного текста перед не распознанным.

5 преимущества распознанного (так называемого OCRтекста):

От части те же преимущества были указаны и в подразделе «8 преимуществ которые дают цифровые книги.» поэтому просто напомню.

1 – малый размер,

2 – более простая возможность редактирования,

3 – удобное иногда автоматическое добавления закладок, 4 – поиск по тексту (который не возможен, если текст является картинкой),

5 – одно из самых главных преимуществ, которым многие пока не пользуются, является возможность прослушать текст с помощью синтезаторов речи. Я так переслушал массу книг. Конечно, на этом преимущества распознанных текстов не кончаются, но это для меня 5 основных.

Таким образом, чтобы проработать книгу мне не раз приходилось её либо сканировать или фотографировать, либо уже сканированные скачанные с интернета книги переводить в понятные компьютеру буквы, а не фотографии букв, видных лишь на экране. Хотя благо в интернете все больше появляется хорошо проработанных книг, в которых есть сам текст, а не только его фотография или изначально цифровых. Тем не менее, как уже писал, достаточно много людей не умеют, или не хотят пользоваться данными возможностями, не смотря на все их преимущества. Но это уже другая социальная проблема, которую уже рассматривал ранее, но постараюсь на ней еще остановиться. Так же в другой статье более подробно рассмотрю разницу между распознанным и не распознанным текстом, но уже так сказать глазами ЭВМ.

Код буквы и картинки – книга глазами ЭВМ.

В прошлой статье мною затронута тема удобства использования электронных книг. В этой для большего понимания возникновения таких преимуществ постараюсь, очень приблизительно, описать саму суть различий рисованного текста и распознанного. Как я это понимаю, но так сказать глазами ЭВМ.

Распознанный или набранный на компьютере текст, представляет совой векторные символы.

Грубо говоря, это линии как на графике, описанном какой-либо формулой. Но именно в данном случае наверно целесообразнее назвать его кодом, т.к. сами картинки линий в виде крохотных рисунков записаны отдельно и их роль не существенна, т.к. при каждой новой

03.12.2017

Книга 3.0 Слушайте!

Болгарчук Р.

Ст. 85 из 343 в разделе 55

букве, исходя из её кода, отображается один и тот же рисунок. Т.е. для того что бы отобразить все буквы «а» в тексте компьютер использует один маленький рисунок самой буквы «а». Один для всех букв (если её формат одинаков).

А сама буква записана в виде очень короткого кода в виде нуля и единиц. К примеру: буква «а» в таком коде будет представлять собой вот такую последовательность сигналов «11010000» в кодировке ISO 8859-5. Единица, как известно это присутствие сигнала, а «0» его отсутствие. И того получается, что бы компьютер понял одну букву ему достаточно 8 сигналов.

Теперь разберем растровые (точки) картинки.

-- тут уже для того что бы отобразить именно картинку той же буквы «а», понадобиться целый массив точечек. Если изображение черно-белое, то расположенных в определенной очередности черных и белых точек, которые и будут «рисунком» буквы. Причем на каждую нарисованную точку потребуется те же 8 сигналов. Но уже не на всю букву, а только на одну точку. Естественно одной черной точкой нарисовать букву «а» не получится. А какое минимальное количество точек нужно для прорисовки буквы вообразите сами (100 битов вместо 8). Но то, что не одна и не две или три это очевидно. Посему и картинки так много весят. К тому же, в отличие от кода, в котором компьютер как бы знает, что это та или иная буква, в случае с картинкой, ему абсолютно все равно, что нарисовано. Т.е. оперировать буквой как буквой он уже не может, а просто слепо копирует изображение, перенося каждую точку. Если в первом случае все буквы в тексте как бы одинаковы, то во-втором, приходится постоянно рисовать и каждую новую букву, (даже если она идентична предыдущей – «аа»), и рисовать всё вокруг букв. Получается если в обычном тексте (набранном в ворде) встречается, к примеру: 2000 букв – «а», то рисунок самой буквы используется только один (постоянно повторяется и не занимает место). Кстати количество букв в таком тексте можно увидеть в статистике. А вот если аналогичный текст, рисованный (не распознанный) то все 2000 букв «а» будут прорисовываться снова и снова и для каждой с них как бы будет 2000 картинок вместо 1. Они сами по себе занимают на много больше места, и кроме как отобразить их на экране с ходу с ними не чего не сделаешь (ни поиска по тексту, ни статистики, ни прослушки). Для ЭВМ это просто набор черных и белых точек, а не определенный код символов. Он может отобразить на экране любую картинку. Но картинка может быть слепо отраженными точками разного цвета либо конкретным знаком на экране, который отличается и понимается компьютером.

Вот поэтому с картинками текста и работать полноценно невозможно и места занимают они в десятки раз больше. Из-за чего, по возможности, (если книга сохранена как картинка), перевожу её в текст. После чего текст можно и послушать и закладки удобно сделать, и чтото выделить, и т.д. Но не все книги удается корректно перевести в текст. Поскольку даже самые лучшие программы для распознания текста, к сожалению, наверно еще долго будут требовать корректировки. Многие тексты содержат картинки, формулы, которые трудно распознать. Поэтому приходится сохранять текст вместе с изображением. Конечно, можно было просто распознать изображение текста и сохранить его оставив и картинку, но работать с такими двумя документами не удобно. Удобно, когда в одном документе можно и прочесть что-то - сделав закладку или прослушав и в нем же на той же странице посмотреть картинку. Вот, к примеру: результат такого сложного текста с картинкой иллюстрированный мною атлас. В тексте конечно ошибок много, тем не менее, мне удалось сделать закладки и сохранить расположение текста и добавленных мною цветных иллюстраций.

Еще кратенько по форматам и программам.

Формат это, образно говоря, способ сохранения текста или картинки в виде какого-либо файла. Способов сохранить есть масса, посему форматов и программ, которые работают с данными файлами так же много.

Для сохранения, в одном файле, текста и картинки используют в основном два формата djvu и pdf. Они самые распространенные.

03.12.2017

Книга 3.0 Слушайте!

Болгарчук Р.

Ст. 86 из 343 в разделе 55

Многим полюбился формат djvu. Но я его крайне не рекомендую использовать для сохранения книг. Да, конечно заманчивым преимуществом есть то, что фото (каковым зачастую, является djvu) имеет маленький размер. Многие попавшиеся мне в руки книги, в данном формате, просто испорченное время и бессмысленно потраченный труд. Т.к. в основном, изображения в этом формате навсегда утрачивает свое качество и буквы иногда не видно и иногда их невозможно распознать. Конечно, данный формат бурно развивается и уже допускает возможность добавления и ссылок и распознанного текста. А многие пользователи уже научились делать отличные книги в таком формате. Книги, в которых в хорошем качестве сохранено изображение, так же сохранен распознанный текст и даже могут иметься гиперссылки. Все-таки пока не встречал программы для данного формата, которая могла бы с легкостью добавлять примечания, пометки и многое другое. Как, например, PDF-XChange

Viewer

или FoxitReader

для

аналогичного

формата

- pdf.

Поэтому, сохранять книги в формат

djvu, все же, не

рекомендую т.к.

возможности таких файлов на данный

момент все еще

на очень

низком

уровне и работать с ним сложнее. Хотя места книги в формате djvu занимают немножко меньше чем pdf.

Помимо djvu и pdf книги, не имеющие больше количества картинок и с хорошо распознанным текстом лучше просто сохранять в формате вордовских документов (как обычный текст в ворде). Это наиболее удобный формат для редактирования и прослушивания текста. При экспорте с файнридера часто удается автоматический установить гиперссылки, из содержания в текст. Т.е. программа сама расставляет ссылки, и нажав на оглавление можно перейти на соответствующий раздел в тексте.

Зачастую распознанные книги мне приходиться сохранять даже в трех различных документах. 1 - pdf – Акробат ридер. 2 - docx – водр 3 - txt – обычный текстовый документ открывается блокнотом. Третий формат занимает пустяковый размер и очень удобен для прослушивания книг на смартфоне. Хотя его недостатком является полное отсутствие картинок и какого-либо форматирования.

П. с.

Помимо этих появляются много других перспективных форматов и программ. Например,

.fb2, .mobi, .epub и др. Но мне не приходилось ими пользоваться. Максимум перекодировал с них книги в привычный мне docx или txt. Хотя, по-хорошему, это уже будет считаться не формат книги, а формат документа. Но это уже тонкости и формальности…

Выводы и советы.

Надеюсь, данная информация пойдет на пользу обществу. И книг в плохом пережатом качестве с перекошенными не распознанными страницами, засунутыми вместе с разворотом в djvu будет встречаться все меньше. В интернете есть масса статей, как правильно распознать и сохранить книгу файнридером или ClearScan в формат pdf – (текст под изображением с добавлением гиперссылок в содержании) или в ворд. Поэтому на данных моментах останавливаться пока не буду. Хотя стоит отметить, что даже самая лучшая на сегодняшний день программа распознавания текстов не всегда справляется к примеру, с сложными химическими формулами и громоздкими таблицами. Из-за чего и приходиться сохранять поверх текстов изначально сканированные картинки. Однако, данная программа отлично распознает простые тексты, которые можно сохранить в ворд. Сэкономив в дальнейшем и время, и место на диске. В общем, работать еще есть над чем. Книги, в любом случае, для полноценной работы нужно распознавать, даже если они плохо распознаются, и распознанный текст имеет много ошибок. Так что очень надеюсь на дальнейшие разработки в данном направлении.

03.12.2017

Книга 3.0 Слушайте!

Болгарчук Р.

Соседние файлы в предмете Информационная технология в печатном деле