Е. А. Негуляев
Оценка усилий, необходимых для создания электронной библиотеки
Употребление словосочетания «электронная библиотека» в последнее время стало модным. Но сколько не говори «сахар», во рту слаще не станет. Российские библиотеки если и почувствовали привлекательность электронных библиотек, то в основном во время бесплатного доступа к западным ресурсам. А как же мы сами? А русскоязычные ресурсы? Что нужно сделать для того, чтобы в своей деятельности традиционные библиотеки стали использовать возможности, предоставляемые электронными библиотеками?
Основная мысль моего выступления элементарна: сейчас каждая библиотека, имеющая доступ к Internet, в состоянии создать свою собственную эффективно действующую электронную библиотеку. Понимающему, что он делает, работнику для начала будет достаточно всего двух часов. Всего один работник в состоянии пополнять и администрировать библиотеку. (Сделаю необходимое отступление: этот работник должен многое знать от основ html-кодирования до принципов составления библиотечных классификационных систем; если такого нет в вашей библиотеке, то необходимо делить функции между несколькими сотрудниками; но общее количество трудозатрат я оцениваю именно таким образом).
Как это сделать?
Сделаем небольшой шаг в сторону и бросим взгляд на функции любой библиотеки. Их всего две хранение (для этого необходимо иметь объект хранения это может быть книга, микрофиша и т. п.) и восстановление в нужный момент для пользователя необходимой ему информации (точнее, материальных носителей этой информации, нашего объекта хранения). Все библиотечные службы (карточные и электронные каталоги, абонементы и читальные залы и т. п.), любые используемые классификационные схемы работают лишь на выполнение этих двух фундаментальных задач.
Соответственно электронная библиотека должна обеспечить электронное хранение и электронное восстановление.
Рассмотрим проблему под этим углом зрения. Итак, что мы можем хранить в электронном виде сейчас, а не в далеком или близком будущем? Можно хранить графические образы книг (т. е. сканированные страницы, являющие копией оригинала, записанные в одном из графических форматов), можно тексты. Оба варианта подпадают под понятие «электронной библиотеки» и «электронного хранения». Французы уже сейчас хранят в виде графических образов чуть меньше 20 миллионов страниц («Gallica»; http://gallica.bnf.fr), англичане чуть больше 20 миллионов (Early English Books Online, 14731700; http://www.chadwyck.co.uk), причем речь идет преимущественно о старых изданиях. С этим подходом все ясно, он имеет свои очевидные преимущества и недостатки, но вряд ли каждая российская библиотека в состоянии организовать у себя такую службу. Раз подход не согласуется с главным тезисом выступления, то отбросим в сторону хранение графических образов и далее будем вести разговор только о текстах, причем о тех, которые когда-то имели материальную основу, т. е. были напечатаны на бумаге.
Повернемся в сторону Internet, где электронные библиотеки стали привычным явлением. Потрудились ли на этой ниве публичные, вузовские или иные традиционные библиотеки? Вывод неутешителен, как правило, нет. (Впрочем, нет правил без исключений делаю реверанс в сторону тех, кто все-таки что-то сделал).
Даже беглого взгляда на Internet-библиотеки достаточно для осознания простого факта: сейчас они уже пережили пору становления и представляют собой очень серьезное явление. Электронные библиотеки Рунета (т. е. русскоязычной части Internet) являются порождением стихийного творчества масс, в подавляющем своем большинстве они возникли без правительственных распоряжений, программ и т. п. В этом их преимущество, в этом их недостаток. Не удивляйтесь, что увидите сочинения Никколо Макиавелли в разделе «античная литература».
Что можно найти в Internet-библиотеках? Буду краток и приведу лишь несколько примеров:
Названные проекты как раз и причисляют себя к электронным библиотекам, но серьезные публикации можно найти на других сайтах:
Существует несколько проектов, призванных объединить сведения о многочисленных Internet-библиотеках. Более удачный «Архивариус» (http://books.yis.da.ru/searchengine.html) и менее удачный «Букинист» (http://bukinist.agava.ru/) обеспечивают поиск по содержимому сразу нескольких электронных библиотек.
Имеются также указатели самих электронных библиотек или отдельных произведений, среди которых хочется отметить «Чернильницу» (http://kulichki.rambler.ru/inkwell/).
К сожалению, всем этим богатством пока что не слишком удобно пользоваться. Электронные публикации разбросаны по различным сайтам, не на всех существует поиск. Некоторые электронные тексты могут оказаться в совершенно неожиданных местах (например, сочинения Г. Р. Державина на сайте «Тамбовские литераторы в сети Интернет»). Невозможно решить элементарную, казалось бы, проблему: найти все публикации, в названии которых употребляется слово «женщина» (во всех словоформах).
Список можно продолжать, но сейчас это не наша задача. Книжных текстов в Сети, причем текстов «серьезных», много, работа по их переводу в электронную форму уже выполнена, их количество увеличивается с каждым днем, а взять их очень просто.
Истина в спорах о том, что такое Internet, как обычно, лежит посредине: это не «коллективный разум» и не «информационная помойка». Но уже сейчас в Сети находится достаточно много текстов, необходимых исследователям самого различного профиля. И в этих условиях одной из задач традиционной библиотеки является учет и использование ресурсов Internet.
Мы определились с ответом на вопрос: «что можно хранить в нашей электронной библиотеке»? Далее поговорим о том, как хранить и как восстанавливать.
Для этого необходимо программное обеспечение, удовлетворяющее набору критериев:
позволяющее работать с большим количеством текстов;
Сейчас я могу назвать такое программное обеспечение это система управления электронными архивами документов «Cros» (разработчик фирма «Cronos», г. Москва; http://www.cronos.ru). Это единственная программа, которая удовлетворяет всем перечисленным критериям (кроме поддержки работы через Internet, но поддерживается работа в локальной сети). Моя уверенность базируется не на чтении технической документации, а на реальном опыте работы с «Crosом».
Система изначально проектировалась для работы с большими текстовыми массивами, она «понимает» основные текстовые форматы (html (Unicode, KOI и windows-1251), rtf, текст DOS, текст Windows, различные модификации документов Microsoft Word, включая Word-2000). Принцип работы заключается в том, что система индексирует массив файлов на локальном или сетевом диске, создавая при этом сжатый индекс. Всегда сохраняется возможность извлечь из индекса файл в первоначальном виде. Реализован полнотекстовый поиск, а также возможность самостоятельно создавать особые зоны поиска (по терминологии «Crosа» атрибуты документа). Для нужд электронной библиотеки это позволяет записать информацию об авторе, названии произведения, ключевых словах, классификационных индексах и т. п., после чего выполнение поисковых запросов вида «термин "двоеверие" в сочинениях Карамзина или Ключевского» становится элементарным.
Реально была проверена работа «Cros» с текстовым массивом около 20 тыс. страниц (более 15 тыс. файлов) на компьютере класса 486-DX-120/16Mb/1Gb, что даже ниже рекомендуемых параметров (Pentium-133/16Mb), и результаты тестирования можно признать вполне успешными. У создателей программы на Pentium II-350 «Cros» успешно управляется с индексом 3,6 Gb (более 1,8 млн. файлов) (объем исходных данных свыше 6 Gb).
Желающие почерпнуть более подробную информацию могут придти послезавтра на мастер-класс «Использование программного обеспечения "Cros" для организации электронных библиотек», где каждый своими руками сможет создать электронную библиотеку.
Предлагаемое решение, несомненно, является промежуточным. Будущее за более продвинутыми форматами разметки текста (XML) и более совершенными системами поиска. Но всего этого еще нужно дождаться, причем ждать придется несколько лет. По предлагаемой методике любая традиционная библиотека сейчас в состоянии создать свою собственную электронную библиотеку. Если подойти к делу по-умному и предусмотреть необходимые шаги, то в будущем содержимое библиотеки, работающей под «Cros», можно будет с минимальными усилиями экспортировать в любую другую программную среду. Первоосновой всегда будет являться текст документа, а «Cros» умеет восстанавливать из своего индекса файлы в первоначальном виде.
Поддержка актуальности электронной библиотеки решается достаточно легко. Можно использовать подписку на рассылки новостей, программы слежения за обновлениями сайтов и т. п.
Каждая библиотека при таком подходе способна сама определять круг произведений, которые будут включены в библиотеку. Ориентация на Internet не обязательно должна быть единственной. Возможно пополнение электронной библиотеки текстами, поступившими из других источников, или введенными (сосканированными) самостоятельно. Но именно имеющиеся сетевые публикации позволят решить нашу задачу быстро.
Наверняка найдется множество скептиков, возопящих, что электронные библиотеки нарушают авторские права создателей произведений. Не имея возможности сейчас ввязываться в дискуссию, выскажу только краткие тезисы:
проблема авторских прав подразумевает перед собой целый комплекс вопросов. Во-первых, электронная библиотека не нарушает основного права, а именно права того или иного человека считаться автором произведения;
Успех мероприятия зависит от нас самих.