Изменить стиль страницы

Журнал PC Magazine/Russian Edition №08/2009

Новости

Новости и комментарии:

Раздел подготовил Максим Белоус, Олег Лебедев

Оруэллу и не снилось

Журнал PC Magazine/RE №08/2009 i_001.png

Лучшие антиутопии написаны в середине XX века. Их авторов всерьез беспокоила проблема сокращения личного пространства – такое сокращение неизбежно обусловлено техническим прогрессом. Контроль над частной жизнью, информационной средой и самими мыслями людей со стороны Большого Брата – тоталитарной власти – представляет непременный элемент «сеттинга» антиутопий. Однако в наши дни за звание Большого Брата с государством успешно спорят медийные корпорации и владельцы авторских прав.

Крупнейший онлайновый магазин Amazon славен среди прочего выпуском специализированных «читалок» серии Kindle для всевозможных электронных изданий. Именно «изданий» – не только «книг»: подписчикам информационных сервисов Amazon предоставляется доступ и к газетам и журналам, причем за вполне разумные деньги. А читать даже убористую газетную верстку с огромного 9-дюйм экрана Kindle DX, выполненного по технологии E-Ink, – одно удовольствие. Тем не менее продажи книг составляют наиболее значительную долю доходов Amazon. Чтобы еще более упростить транзакции для своих клиентов, компания снабжает «читалки» Kindle возможностью непосредственного доступа к ее сайту – правда, только на территории США. Радиомодуль, интегрированный в эти устройства, обеспечивает постоянную активность учетной записи владельца Amazon Kindle на сайте. При этом оператор сети 3G не взимает абонентскую плату – на сей счет у него есть договоренность с самой Amazon. Книжно-журнальный трафик действительно невелик в сравнении с видеотрансляциями и другими характерными для 3G плотными потоками контента. Зато владелец Amazon Kindle в любой момент может заглянуть в свой личный кабинет на сайте Web-магазина, просмотреть список новинок, выбрать что-нибудь для себя и тут же скачать, – оплата заказа производится по данным кредитной карты, уже вводившимся при регистрации учетной записи. Доступная память устройства – почти 4 Гбайт, так что компьютер в качестве промежуточного звена между книжным магазином и «читалкой» больше не нужен.

Однако удобство пользования таким каналом, как выясняется, обоюдное. В середине июля с некоторыми постоянными клиентами Amazon, владельцами Kindle, произошел вопиющий случай. Несколько оплаченных ими книг загадочным образом вдруг исчезли из памяти «читалок», куда были загружены. Позже выяснилось, что мистики не было: техническая служба Amazon через постоянно поддерживаемое 3G-соединение удалила вполне легитимно приобретенные файлы с этими книгами. Деньги за них, разумеется, были незамедлительно возвращены на счета покупателей. Дело в том, что на Amazon предлагались оцифрованные версии печатных книг, выпуск которых (именно в печатном варианте) не был когда-то согласован с правообладателями. Когда те обнаружили, что книги доступны в онлайновом магазине, их адвокаты связались с адвокатами Amazon – в результате и было принято решение скоренько замять инцидент, произведя откат к состоянию до начала продаж. Возмущение клиентов компании, которые расценили этот шаг как грубое вторжение в их частную жизнь, привело к тому, что Amazon официально пообещала: если в будущем подобная неразбериха с правами повторится, удаления книг с устройств клиентов не произойдет. Однако удовольствие от пользования плодами современных технологий владельцам Kindle, безусловно, подпортили. Ирония же заключается в том, какие именно книги оказались вовлеченными в Kindle-скандал. Это два наиболее известных романа Джорджа Оруэлла. Да-да, так и есть: «Скотный двор» и «1984». Добро пожаловать в дивный, новый мир, где некоторые пользователи высоких технологий более равны, чем другие.

Робот заменяет секретаршу

Компания Cognitive Technologies разработала подсистему «Понимание документов» для комплекса автоматизации документооборота «ЕВФРАТ-Документооборот». Несмотря на развитие цифровых технологий управления документами, самым узким местом в организации документооборота по-прежнему остается ввод данных. Глобальной системы электронной отчетности еще не построено, и организации обмениваются отчетами, справками, актами и т. д. в бумажном виде.

Казалось бы – ну и что? Технологии оптического распознавания сегодня почти достигли совершенства, у той же Cognitive Technologies имеется OCR собственной разработки (CuneiForm). Но есть один нюанс. Бумажный документ – так сказать, плоский, его структуру или атрибуты можно выделить разве что оформлением.

После цикла «печать на бумаге – ввод со сканера» содержимое документа и его атрибуты, как правило, приходится вводить руками, вовлекая в процесс человека – а это компонент, как известно, ненадежный и не слишком производительный (разумеется, если сравнивать его с автоматизированной системой).

«ЕВФРАТ-Документооборот» решает проблему. По словам разработчиков, это первая в России система электронного документооборота, где реализованы принципы смыслового анализа документов.

«ЕВФРАТ-Документооборот» способен самостоятельно, без участия человека, разбирать содержание документа и понимать его (под термином «понимание» подразумевается автоматическое распознавание смысловых частей, например, что это – название компании, дата, исходящий номер, список контрагентов или что-то иное?). Понятая таким образом информация автоматически заносится в регистрационную карточку документа для дальнейшей работы с ним в СЭД.

В основу подсистемы «Понимание документов» легли результаты НИОКР компании в области анализа информации (синтаксический разбор, структурная модель представления знаний о языке, описание структурных связей). Кроме этого был учтен опыт, полученный в ходе создания информационных систем с модулями понимания документов для Пенсионного фонда РФ и ОАО «ММК». Специалистами Cognitive Technologies создано XML-представление делового документа, на базе которого осуществляется обучение системы «пониманию».

Подсистема «Понимание документов» может обрабатывать электронные документы текстового и графического (после распознавания) форматов или поступившие в бумажном виде (после сканирования и распознавания). В настоящее время система обучена пониманию тех видов документов, которые требуют массовой регистрации и учета в организациях – входящей корреспонденции и договоров по различным видам деятельности.

Например, для договоров подсистема «Понимание документов» автоматически, с листа, заносит в «ЕВФРАТ-Документооборот» дату оформления, названия компаний, заключающих соглашение, предмет договора, срок его действия, количество страниц; кроме этого автоматически определяется наличие приложений и дополнительных соглашений и сответствующие файлы прикрепляются к карточке документа. Для входящей корреспонденции в карточку заносятся дата, информация о корреспонденте (название учреждения, ФИО, должность), адресат (название учреждения, ФИО, должность), краткое содержание, число страниц.