Е. А. Негуляев,
Главный библиотекарь
Научной библиотеки
Уральского государственного университета
Цифровые коллекции в Научной библиотеке УрГУ:
итоги двухлетней работы
Почти два года назад, в январе 2001 года в Научной библиотеке Уральского государственного университета была начата работа по созданию своих собственных цифровых ресурсов. Прошедший срок — достаточно весомый для того, чтобы порассуждать об итогах и возможных перспективах этого направления работ в нашей библиотеке.
Первичная цель этой работы определялась прежде всего реальными проблемами, вставшими перед библиотекой. Одной из основных стала повышенная эксплуатация некоторых видов изданий. В связи с изменением стандартов образования увеличилась выдача книг, изданных во второй половине XIX — начале XX вв., что заставило вплотную задуматься над проблемами их физической сохранности. Оцифровка изданий представлялась как один из возможных способов одновременного решения проблем расширения доступа и физической сохранности, в том случае, если большинству читателей будет предоставляться цифровая копия издания, а не физический экземпляр.
До 2001 года НБ УрГУ не принимала участия ни в каких проектах по оцифровке изданий и, соответственно, не имела никакого опыта в этом деле. Первым делом мы попробовали оценить уже выполненные в России проекты. К сожалению, среди них не нашлось такого, который мог бы стать прототипом для нашей цифровой коллекции. Мы также провели анализ ряда западных проектов, который оказался очень полезным с точки зрения определения некоторых общих направлений проектов оцифровки. В итоге, не найдя удовлетворяющего нас решения, мы взялись за самостоятельную разработку технологического процесса. Прич¨м в первую очередь подготавливаемая схема должна была учитывать наши реалии — от имеющегося оборудования до квалификации занятых в проекте исполнителей.
Первичные технологические звенья были определены ещ¨ в январе-феврале 2001 года. Основа их сохраняется и до настоящего времени. Главными требованиями являлись простота и эффективность технологического процесса. Бессмысленно говорить об оцифровке, если подразумевается обработка всего лишь сотен страниц или одной-двух тысяч, такими черепашьими темпами проблему не решить. Необходимо, чтобы общая производительность технологического процесса по оцифровке достигала как минимум (!) десятков тысяч страниц, а в идеале и сотен тысяч страниц в год на одного работника.
Первой нашей находкой стало использование специализированных графических форматов. Свой выбор мы остановили на формате DjVu (дежа вю), разрабатываемом в настоящее время американской компанией LizardTech, а также сообществом независимых разработчиков. Формат DjVu позволяет достичь беспрецедентно большого сжатия изображений высокого разрешения и идеально подходит для представления отсканированных изображений страниц. Основные преимущества этого формата:
Единственным, но весьма ощутимым недостатком такого решения было то, что страница в DjVu -формате является изображением и, соответственно, не позволяет использовать какой-либо поиск. Точнее говоря, сам формат DjVu позволяет сохранять внутри себя текстовую информацию после процедуры OCR , но это пока не реализовано для русского языка. Нам же для организации поиска необходимо было провести над отсканированными страницами процедуру оптического распознавания символов (OCR ), получить распознанный текст, который хранится отдельно от изображения. В нашем случае проблема усугублялась тем, что мы работали с изданиями в дореформенной орфографии, которые распознаются с большим количеством ошибок. Кроме того, для эффективного поиска тексты должны быть переведены в современную орфографию, в противном случае большинство пользователей просто не сможет написать верный поисковый запрос. Нам удалось найти решение и этой проблемы, над которой мы работали с апреля по июнь 2001 года.
Используемые программные средства сейчас позволяют нам распознавать тексты, переводить их в современную орфографию и корректировать ошибки распознавания, — вс¨ это автоматически! — обеспечивая на финале около 90% верно воспроизвед¨нных слов. Мы считаем, что 90%-ый рубеж обеспечивает приемлемую для реального поиска точность. Некоторые издания после этого проходят ещ¨ ручную корректорскую обработку, во время которой исправляются все оставшиеся ошибки распознавания, после чего в тексте остается не более 1% неверных слов. Этот этап достаточно трудо¨мкий, и нам удалось привлечь для его выполнения студентов. К сожалению, пропустить через ручную корректировку мы можем только десятую часть распознанных текстов.
Все распознанные тексты конвертируются в HTML формат и индексируются с помощью локальной поисковой машины, после чего становится возможным полнотекстовый поиск.
Все найденные и используемые решения оказались очень эффективными и экономичными.
В результате за два года нам удалось самостоятельно изготовить цифровых версий изданий общим объемом около 30 тыс. страниц и добиться ежемесячного пополнения наших цифровых коллекций в объеме около 1 тыс. страниц. Причем этого уровня нам удалось достичь при 50% занятости всего одного штатного работника (студента нашего университета). Сам технологический процесс был разбит на простые операции, достаточно л¨гкие для освоения, поэтому мы смогли привлечь к этой работе студентов, проходивших летнюю практику в университете.
Все процессы по созданию цифровой коллекции нам удалось организовать внутри библиотеки без привлечения сторонних технических специалистов. Более того, нам удалось сделать вс¨ на уже имеющемся оборудовании, понадобились лишь небольшие вложения в покупку специализированного программного обеспечения. До сего момента нам потребовалась покупка всего одного компьютера и только лишь потому, что компьютер должен был быть установлен в читальном зале для пользователей. С одной стороны, это предмет нашей гордости, но гордости печальной. Мы понимаем, что специализированное (и очень дорогое) оборудование обеспечивает гораздо большую производительность труда: специализированный книжный сканер снимает страницу всего за несколько секунд… К сожалению, мы до сих пор не изыскали возможность приобрести такой сканер, в противном случае объ¨м нашей коллекции был бы уже на порядок выше.
Сейчас можно выделить следующие источники пополнения цифровых коллекций нашей библиотеки:
1. Самостоятельная оцифровка монографических изданий из собственных фондов. Пока используются издания XIX — начала XX вв. из фондов Отдела редких книг. Основным критерием отбора выступает не раритетность, а востребованность изданий. В основном представлены издания по истории России и истории права, присутствуют также литературоведческие сочинения. Среди них классические сочинения, которые, мы уверены, востребованы в библиотеках большинства гуманитарных ВУЗов: это тр¨хтомник «Начала русского государственного права» А. Д. Градовского, «Акты исторические», издававшиеся Археографической комиссией и множество других изданий.
2. Оцифровка авторефератов диссертаций, прошедших защиту в диссертационных советах УрГУ. Так как эти материалы подпадают под действие закона об охране авторских прав, то цифровые копии создаются только после подписания с автором договора о передаче неисключительных прав на распространение цифровой копии издания. По возможности мы стараемся получить от автора электронный вариант автореферата, что позволяет избежать этапа сканирования и распознавания текстов. Цифровые копии авторефератов в цифровой коллекции представляются в форматах DjVu или PDF.
3. Получение от издательств и обработка материалов компьютерной в¨рстки современных изданий. Пока что это направление основывается только на личных контактах работников библиотеки с авторами и издателями. В настоящий момент представлены цифровые копии двух книг («Книга резного художества» и «Старый Екатеринбург: Город в воспоминаниях современников»), изданных екатеринбургским Историко-геммологическим обществом «Lithica» (http://heritage.eunnet.net/lithica/). Пут¨м нескольких автоматических преобразований материалы компьютерной в¨рстки переводятся в DjVu -формат, без сканирования мы получаем абсолютно точную копию книги. Сам процесс оказывается очень производительным, обработка одного издания занимает не более 1 часа. Мы также готовы предоставлять цифровые копии таких изданий в PDF формате.
4. Включение в цифровую коллекцию изданий нашей библиотеки. Мы испытываем определ¨нные трудности при печатании своих собственных изданий, часто они выходят мизерными тиражами. В этом случае наличие цифровой копии хотя бы частично снимает проблему, позволяет ознакомить с нашими изданиями более широкий круг заинтересованных лиц. Изготовлена цифровая копия аннотированного каталога книжной выставки «Эпоха Наполеона глазами…», подготовленного совместно Научной библиотекой УрГУ и Свердловской областной универсальной научной библиотекой.
5. Включение материалов, изготовленных по заказам электронной доставки документов или по индивидуальным заказом на сканирование и распознавание текстов изданий из нашей библиотеки. Выполненные заказы сохраняются, при необходимости доделываются оставшиеся страницы.
6. Обмен цифровыми копиями с другими библиотеками. В качестве примера можно привести взаимовыгодный обмен с Челябинской областной универсальной научной библиотекой. Благодаря этому обмену мы смогли восстановить лакуну в собственных фондах и получить цифровую копию первого тома «Дополнений к Актам историческим».
7. Заимствование свободно доступных цифровых копий изданий, изготовленных другими библиотеками. Мы отбираем издания, представляющие интерес для читателей нашей библиотеки и необходимые в учебном процессе. Из зарубежных ресурсов мы заимствуем в первую очередь справочные издания (энциклопедии, словари), из российских особый интерес представляют издания, отсутствующие в фондах нашей библиотеки. Пока мы отбираем только издания, представленные в виде графических копий, и пут¨м автоматической обработки создаем их DjVu -версии. Заимствование — технически достаточно простой процесс, самое главное — определить круг материалов, которые необходимы библиотеке. У нас объ¨м ежемесячного заимствования составляет несколько тысяч страниц в месяц, но пока это преимущественно издания на иностранных языках. В качестве примера можно привести 45-томный биографический словарь Л. -Г. Мишо (Louis-Gabriel Michaud ), изданный в середине XIX века во Франции и являющийся очень ценным биографическим и библиографическим ресурсом. В результате заимствования мы получаем также издания, необходимые для внутренней работы библиотеки. Первой заимствованной книгой стал словарь французских анонимных изданий А.-А. Барбье (Antoine-Alexandre Barbier ), необходимый сотрудникам Отдела редких книг нашей библиотеки.
Тематически оцифрованные издания представляют две специализированных коллекции: «Правовая история России» и «Авторефераты и диссертации». Сейчас начато формирование коллекции учебных изданий.
Доступ к цифровой коллекции организован по интернет-технологиям. Свободно доступные копии изданий связаны с записью в электронном каталоге (используется 856 поле стандарта MARC 21), поэтому читатель от каталожной записи может перейти непосредственно к просмотру издания. Часть изданий представлена на условиях ограниченного доступа, они размещены на защищ¨нном Web -сервере, связаться с которым могут компьютеры только с определ¨нными IP-адресами. Читателям представляется возможность работать с оцифрованными изданиями прямо в читальном зале. Работа с оцифрованными изданиями на этих рабочих местах бесплатна, но дополнительные услуги (распечатку, запись на дискету или CD-R) читатели обязаны оплатить. В нашем случае цена копирования изображения страницы в виде графического файла на носитель заказчика в 3 раза меньше цены обычного ксерокопирования и в 12 раз меньше, чем если бы е¨ сканировали по специальному заказу.
Немаловажным итогом наших работ стало налаживание контактов с другими библиотеками и сотрудничество в рамках библиотечных ассоциаций. Прежде всего следует назвать Российскую государственную библиотеку, с которой мы сотрудничаем по двум направлениям: создание цифровой коллекции авторефератов и диссертаций и создание цифровых копий книг XIX в. В результате этого сотрудничества читатели и нашей библиотеки и РГБ смогут получить доступ к большему количество оцифрованных источников. Мы также пытаемся налаживать контакты и с другими библиотеками и надеемся, что в будущем обмен цифровыми копиями между библиотеками станет более активным.
В Ассоциации Российских библиотечных консорциумов (АРБИКОН) сотрудники НБ УрГУ работают над общей проблемой — организацией единой точки доступа к оцифрованным ресурсам. Важность этой работы трудно переоценить, т. к. она позволит объединить при поиске цифровые ресурсы, описанные в 140 библиотеках России.
Другой стороной сотрудничества является распространение нашего опыта и технологий. Это направление нашей работы возникло почти сразу: первый обучающий семинар для участников проекта «Consensus Omnium: Корпоративная сеть библиотек Урала» был проведен еще в мае 2001 года. Несколько библиотек Екатеринбурга стали заниматься созданием своих собственных цифровых коллекций — это Центральная научная библиотека Уральского отделения РАН, Научная библиотека Уральской горно-геологической академии, Свердловская областная межнациональная библиотека. В декабре 2002 года будет проведено два полномасштабных двухдневных тренинга, в которых примут участие около 30 человек не только из Екатеринбурга, но и других городов России.
Важным шагом было также распространение нашего опыта за пределами Екатеринбурга. Сотрудники нашей библиотеки приняли участие в нескольких российских и международных конференциях, где их доклады встречались с неизменным интересом.
С нашей стороны мы полностью удовлетворены результатами работ по созданию цифровой коллекции. Более того, мы не ожидали, что всего за два года работы нам удастся создать такой серь¨зный информационный массив. Уже сейчас коллекция решает внутрибиблиотечные задачи. Объ¨м книговыдачи в Отделе редких книг за сч¨т оцифрованных изданий сократился почти на 10%, при этом мы физически сохраняем книги и уменьшаем нагрузку на библиотекарей на самых трудо¨мких операциях — выдаче и расстановке книг. Цифровая коллекция выгодна и нашим читателям: они получают услуги (например, полнотекстовый поиск, возможность л¨гкого и деш¨вого копирования), которые не реализуются другими способами.
В то же время библиотека ВУЗа должна думать и о решении общевузовских задач. Поэтому в ноябре 2002 года мы вышли на Ученый совет университета с докладом о наших результатах и с предложением разработать концепцию по развитию цифровой библиотеки УрГУ, в разработке которой должны принять участие все заинтересованные службы университета.
В конце доклада хочу констатировать, что, занимаясь цифровыми коллекциями, наша библиотека достигла предела своих внутренних ресурсов. Дальнейший успех этого направления работ связан с общей политикой нашего университета в области создания и использования цифровых ресурсов и с сотрудничеством с другими библиотеками и библиотечными ассоциациями.