Например, есть текст:
Это пример того, как можно «найт軶
разрыв предложения на кавычках,¶
запятой, (тексте в скобках) ¶
что часто бывает нужно после OCR.
Еще пример:
Здесь – разрыв после пробела и тире – ¶
А здесь – разрыв после 2-х пробелов, минуса и пробела – ¶
Для поиска используется шаблон регулярных выражений:
"\‹[: alnum: ]+$|\‹[: alnum: ]+[)}\],»”\"":;]$|\‹[: alnum: ]+[)}\]\.,»”\"":;]+[)}\],»”\"":;]$|[: space: ]+ [-" amp; chr(8209) amp; chr(8211) amp; chr(8212) amp; "]$" amp; "|[: space: ]+[-" amp; chr(8209) amp; chr(8211) amp; chr(8212) amp; "][: space: ]+$"
Т.е. отлавливаются не только разрывы на запятых, скобках и словах, но и на минусе, тире и дефисах, слева от которых стоит 1 или более пробелов, а справа – ни один или множество пробелов (частая ошибка OCR).
Кнопка «Обработать» позволяем удалить разрыв предложения и вставить пробел.
В этом варианте поиска активируется выпадающий список знака пунктуации, который можно выбрать, и при нажатии кнопки «Вставить» он будет вставлен «на свое место».
Кнопка «Склеить» позволяет просто удалить разрыв, не вставляя пробел. Это полезно, т. к. часто при OCR (особенно в FR10) слово оказывается разорванным не как, например «по-¶шел», а «по¶шел». Поэтому «Склейка» склеивает разорванное слово.
Поиск вероятного недостающего пробела между словами
Ищет слова с вероятным отсутствием пробела между ними по знакам препинания, закрывающим скобкам.
Опция «Искать между цифрами» нужна для возможности включить/отключить поиск недостающего пробела между цифрами. Очень часто в книгах встречаются такие конструкции: 12,34, 1972:2010 и т. д. (В христианской литературе – это ссылка на стихи Библии, например, Ин. 3:16. В математических книгах и книгах по программированию – это указание на числовые диапазоны, просто дробные числа. И т. д.). В таких книгах, как правило, отсутствие пробела между цифрами – это не ошибка OCR, а норма. При вычитке инструмент часто находит такие цифры "без пробела", что утомляет. Чтобы пропустить эти «правильные» цифры и не тратить на них время нужно отключить опцию «Искать между цифрами».
Для поиска используется шаблон регулярных выражений: При включенной опции «Искать между цифрами»:
\‹[: alnum: ]+[)}\]({\[,!?…»”\"":;«“][: alpha: ]+|\‹[: alpha: ]+[: digit: ]+|\‹[: digit: ]+[: alpha: ]+
При выключенной опции «Искать между цифрами»:
\‹[: alpha: ]+[)}\]({\[,!?…»”\"":;«“][: alpha: ]+|\‹[: alpha: ]+[: digit: ]+|\‹[: digit: ]+[: alpha: ]+
При корректировании в этом режиме поиска программа сама определяет, где поставить пробел – слева или справа от найденного знака препинания, скобки или кавычек.
Часто требуется не автоматическая обработка текста, а ручная некоторых фрагментов. Данный набор инструментов может работать как с одним выделенным фрагментом текста, так и с несколькими выделенными областями текста. Если нет ни одного выделенного фрагмента, то инструменты могут обработать весь документ (появляется соответствующее окно с вопросом).
Выделять можно только Текст. Инструменты не работают с Врезками и Таблицами. Например, есть текст с обрывом абзацев (показаны скрытые символы):
В этом тексте есть и обрыв абзаца, и обрыв строки (тэг ‹BR› в html-файлах).
Делаем следующее:
1. Выделяем те строки, где есть разрыв строки:
Запускаем инструменты Ручная обработка абзацев, выбираем Режим обработки: Разрыв строки (\n) и Тип обработки: Склейка в 1 абзац (Замена обрыва строки \n на 1 пробел). После нажатия Обработать, получили следующее:
Теперь выделяем все строки, разорванные абзацев, причем в каждое выделение должны попасть только те строки, которые должны составить один целый абзац:
Для инструмента Ручная обработка абзацев, выбираем Режим обработки: Обрыв абзаца (¶) и Тип обработки: Склейка в 1 абзац (Замена обрыва строки \n на 1 пробел). После нажатия Обработать, получили следующее:
Что и требовалось. Разорванные строки 2-х абзаце мы склеили, каждые в свой абзац. Разобраться с остальными Типами обработки этих инструментов не сложно.
Пожалуй, самым нудным и утомительным в вычитке текста является обработка и создание сносок из примечаний. Это – постоянные «прыжки» по тексту – с места текста примечания, вырезая его текст в буфер – на «его» номер в главе, удаление этого номера, вставки сноски, потом вставка из буфера примечания… И так – «до умопомрачения».
Набор инструментов для работы со сносками созданы как раз, чтобы облегчить этот процесс в полуавтоматическом режиме. Доступ к ним – либо через меню OooFBTools, либо – через панель инструментов Генерация сносок или гиперссылок (иконки со временем могут измениться):
1. Генерация Сносок или Гиперссылок на примечания.
2. Вставка закладки для списка примечаний.
3. Вставка закладки для главы с № примечаний.
4. Преобразование № примечаний в верхнем индексе по шаблону.
5. Удаление всех служебных закладок.
6. Интерактивное преобразование номеров примечаний в верхнем индексе по шаблону.
7. Нумерация выделенных абзацев.
И инструмент Генерация сносок или гиперссылок и инструмент Преобразование № примечаний в верхнем индексе по шаблону активно используют работу с буфером обмена (Cut, Paste) и реальным положением видимого курсора экрана! Поэтому, пока программа не завершит работу, ничего не делайте ни с мышкой, ни с клавиатурой!
Инструмент Преобразование № примечаний в верхнем индексе по шаблону работает и с текстом, и с таблицами, т. е. цифра в верхнем индексе может преобразовываться в шаблонный вид и из ячеек таблиц. Врезки – игнорируются.
Инструменты Генерация сносок или гиперссылок и Нумерация выделенных абзацев работают только с текстом документа. Текстовые Врезки – игнорируются, т. к. OOoWrither не позволяет в них вставлять сноски. Таблицы тоже игнорируются (из-за сложности проверки выхода курсора за пределы Таблицы и некорректности получаемого результата).
Теперь – подробнее о каждом инструменте.
1. Генерация сносок или гиперссылок
Механизм работы Генератора Сносок и Генератора Гиперссылок одинаков. Различие состоит в том, что Генератор сносок перемещает текст примечания в сгенерированную сноску, а Генератор гиперссылок формирует из соответствующего места книги гиперссылку на нужное примечание, ничего не делая с самим текстом примечания.
Переключение между ними осуществляется с помощью «залипающих» кнопок.
А. Генератор сносок
Есть 2 основных режима генерации сносок: Простой и Сложный.
1.1. Простой режим генерация сносок (по шаблону)
Генерация сносок в этом режиме возможно в выделенных фрагментах текста (их может быть сколько угодно), либо во всем документе.
При запуске генерации сносок, если нет ни одного выделения в тексте, появится окно с вопросом, обрабатывать ли весь текст? Если нажать кнопку OK, то будет обработан весь документ. Если – Отмена, то работа остановится, и вы можете выделить нужные области текста. Если выделения есть, то программа ничего не запрашивает, а производит обработку всех этих выделений.