Изменить стиль страницы

Например, есть текст:

Это пример того, как можно «найт軶

разрыв предложения на кавычках,¶

запятой, (тексте в скобках) ¶

что часто бывает нужно после OCR.

Еще пример:

Здесь – разрыв после пробела и тире – ¶

А здесь – разрыв после 2-х пробелов, минуса и пробела – ¶

Для поиска используется шаблон регулярных выражений:

"\‹[: alnum: ]+$|\‹[: alnum: ]+[)}\],»”\"":;]$|\‹[: alnum: ]+[)}\]\.,»”\"":;]+[)}\],»”\"":;]$|[: space: ]+ [-" amp; chr(8209) amp; chr(8211) amp; chr(8212) amp; "]$" amp; "|[: space: ]+[-" amp; chr(8209) amp; chr(8211) amp; chr(8212) amp; "][: space: ]+$"

Т.е. отлавливаются не только разрывы на запятых, скобках и словах, но и на минусе, тире и дефисах, слева от которых стоит 1 или более пробелов, а справа – ни один или множество пробелов (частая ошибка OCR).

Кнопка «Обработать» позволяем удалить разрыв предложения и вставить пробел.

В этом варианте поиска активируется выпадающий список знака пунктуации, который можно выбрать, и при нажатии кнопки «Вставить» он будет вставлен «на свое место».

Кнопка «Склеить» позволяет просто удалить разрыв, не вставляя пробел. Это полезно, т. к. часто при OCR (особенно в FR10) слово оказывается разорванным не как, например «по-¶шел», а «по¶шел». Поэтому «Склейка» склеивает разорванное слово.

Поиск вероятного недостающего пробела между словами

Ищет слова с вероятным отсутствием пробела между ними по знакам препинания, закрывающим скобкам.

Опция «Искать между цифрами» нужна для возможности включить/отключить поиск недостающего пробела между цифрами. Очень часто в книгах встречаются такие конструкции: 12,34, 1972:2010 и т. д. (В христианской литературе – это ссылка на стихи Библии, например, Ин. 3:16. В математических книгах и книгах по программированию – это указание на числовые диапазоны, просто дробные числа. И т. д.). В таких книгах, как правило, отсутствие пробела между цифрами – это не ошибка OCR, а норма. При вычитке инструмент часто находит такие цифры "без пробела", что утомляет. Чтобы пропустить эти «правильные» цифры и не тратить на них время нужно отключить опцию «Искать между цифрами».

Для поиска используется шаблон регулярных выражений: При включенной опции «Искать между цифрами»:

\‹[: alnum: ]+[)}\]({\[,!?…»”\"":;«“][: alpha: ]+|\‹[: alpha: ]+[: digit: ]+|\‹[: digit: ]+[: alpha: ]+

При выключенной опции «Искать между цифрами»:

\‹[: alpha: ]+[)}\]({\[,!?…»”\"":;«“][: alpha: ]+|\‹[: alpha: ]+[: digit: ]+|\‹[: digit: ]+[: alpha: ]+

При корректировании в этом режиме поиска программа сама определяет, где поставить пробел – слева или справа от найденного знака препинания, скобки или кавычек.

III.2. Обработка выделенных абзацев (обрыв абзаца или строки)
Описание работы пакета OOoFBTools Создание книг FB2 i_128.png

Часто требуется не автоматическая обработка текста, а ручная некоторых фрагментов. Данный набор инструментов может работать как с одним выделенным фрагментом текста, так и с несколькими выделенными областями текста. Если нет ни одного выделенного фрагмента, то инструменты могут обработать весь документ (появляется соответствующее окно с вопросом).

Выделять можно только Текст. Инструменты не работают с Врезками и Таблицами. Например, есть текст с обрывом абзацев (показаны скрытые символы):

Описание работы пакета OOoFBTools Создание книг FB2 i_129.png

В этом тексте есть и обрыв абзаца, и обрыв строки (тэг ‹BR› в html-файлах).

Делаем следующее:

1. Выделяем те строки, где есть разрыв строки:

Описание работы пакета OOoFBTools Создание книг FB2 i_130.png

Запускаем инструменты Ручная обработка абзацев, выбираем Режим обработки: Разрыв строки (\n) и Тип обработки: Склейка в 1 абзац (Замена обрыва строки \n на 1 пробел). После нажатия Обработать, получили следующее:

Описание работы пакета OOoFBTools Создание книг FB2 i_131.png

Теперь выделяем все строки, разорванные абзацев, причем в каждое выделение должны попасть только те строки, которые должны составить один целый абзац:

Описание работы пакета OOoFBTools Создание книг FB2 i_132.png

Для инструмента Ручная обработка абзацев, выбираем Режим обработки: Обрыв абзаца (¶) и Тип обработки: Склейка в 1 абзац (Замена обрыва строки \n на 1 пробел). После нажатия Обработать, получили следующее:

Описание работы пакета OOoFBTools Создание книг FB2 i_133.png

Что и требовалось. Разорванные строки 2-х абзаце мы склеили, каждые в свой абзац. Разобраться с остальными Типами обработки этих инструментов не сложно.

III.3. Инструменты работы с примечаниями, сносками и гиперссылками

Пожалуй, самым нудным и утомительным в вычитке текста является обработка и создание сносок из примечаний. Это – постоянные «прыжки» по тексту – с места текста примечания, вырезая его текст в буфер – на «его» номер в главе, удаление этого номера, вставки сноски, потом вставка из буфера примечания… И так – «до умопомрачения».

Набор инструментов для работы со сносками созданы как раз, чтобы облегчить этот процесс в полуавтоматическом режиме. Доступ к ним – либо через меню OooFBTools, либо – через панель инструментов Генерация сносок или гиперссылок (иконки со временем могут измениться):

Описание работы пакета OOoFBTools Создание книг FB2 i_134.png

1. Генерация Сносок или Гиперссылок на примечания.

2. Вставка закладки для списка примечаний.

3. Вставка закладки для главы с № примечаний.

4. Преобразование № примечаний в верхнем индексе по шаблону.

5. Удаление всех служебных закладок.

6. Интерактивное преобразование номеров примечаний в верхнем индексе по шаблону.

7. Нумерация выделенных абзацев.

И инструмент Генерация сносок или гиперссылок и инструмент Преобразование № примечаний в верхнем индексе по шаблону активно используют работу с буфером обмена (Cut, Paste) и реальным положением видимого курсора экрана! Поэтому, пока программа не завершит работу, ничего не делайте ни с мышкой, ни с клавиатурой!

Инструмент Преобразование № примечаний в верхнем индексе по шаблону работает и с текстом, и с таблицами, т. е. цифра в верхнем индексе может преобразовываться в шаблонный вид и из ячеек таблиц. Врезки – игнорируются.

Инструменты Генерация сносок или гиперссылок и Нумерация выделенных абзацев работают только с текстом документа. Текстовые Врезки – игнорируются, т. к. OOoWrither не позволяет в них вставлять сноски. Таблицы тоже игнорируются (из-за сложности проверки выхода курсора за пределы Таблицы и некорректности получаемого результата).

Теперь – подробнее о каждом инструменте.

1. Генерация сносок или гиперссылок

Механизм работы Генератора Сносок и Генератора Гиперссылок одинаков. Различие состоит в том, что Генератор сносок перемещает текст примечания в сгенерированную сноску, а Генератор гиперссылок формирует из соответствующего места книги гиперссылку на нужное примечание, ничего не делая с самим текстом примечания.

Переключение между ними осуществляется с помощью «залипающих» кнопок.

А. Генератор сносок

Описание работы пакета OOoFBTools Создание книг FB2 i_135.png

Есть 2 основных режима генерации сносок: Простой и Сложный.

1.1. Простой режим генерация сносок (по шаблону)

Описание работы пакета OOoFBTools Создание книг FB2 i_136.png

Генерация сносок в этом режиме возможно в выделенных фрагментах текста (их может быть сколько угодно), либо во всем документе.

При запуске генерации сносок, если нет ни одного выделения в тексте, появится окно с вопросом, обрабатывать ли весь текст? Если нажать кнопку OK, то будет обработан весь документ. Если – Отмена, то работа остановится, и вы можете выделить нужные области текста. Если выделения есть, то программа ничего не запрашивает, а производит обработку всех этих выделений.