Пятая Всероссийская научно-практическая конференция
"Университетская библиотека: проблемы и решения"
[02.12.2002 - 06.12.2002]

М. А. Акоев,
Зав. сектором автоматизации библиотеки УГТУ-УПИ

О. Г. Васильев,
Зав. информационно-библиографическим отделом
библиотеки УГТУ-УПИ

Систематический рубрикатор Электронного каталога

Аннотация

В докладе рассматривается возможность создания систематического рубрикатора к электронному каталогу, позволяющему повысить точность и полноту поиска по электронному каталогу книг и статей. Описывается опыт разработки такого рубрикатора в библиотеках Института экологии растений и животных и УГТУ-УПИ. Рассматривается возможность применения его для целей комплектования, построение картотеки книгообеспеченности и создание тематической подборки ссылок на электронные ресурсы по дисциплинам читаемым в ВУЗе.

В предыдущее десятилетие библиотеками накоплен большой массив библиографических записей в электронных каталогах, что снизило для читателей затраты времени на поиск литературы по сравнению с традиционными карточными каталогами. Для повышения качества поиска документы описываются по все большему количеству поисковых элементов, назначается большее число ключевых слов.

Как показывает опыт использования информационно-поисковых систем в разных библиотеках, с ростом количества записей снижается полнота (отношение релевантных в запросе к релевантным в базе) и точность (отношение релевантных в запросе к результату запроса) поиска по ключевым словам [1, 2].

Это происходит по следующим основным причинам:

Во-первых, за счет разнообразия индивидуальных подходов составителей библиографических описаний и разнообразия формулировок понятий и терминов в описываемых документах (вольно или невольно принимаемых составителем описания). При традиционном поиске по ключевому слову это приводит к тому, что часть информации будет пропущена, так как написание ключевых слов в поисковой форме и в библиографической базе различны. Налицо многообразие форм ключевых слов, описывающих одно и то же, по сути, понятие, и этого многообразия невозможно избежать даже при поиске с учетом словоформ. Проблема наблюдается как при вводе информации, так и при формулировке поисковых запросов.

Во-вторых, за счет синонимии поисковых терминов, относящихся к разным тематическим областям. Например: "напряжение" - термин, используемый в электротехнике, механике, психологии.

В-третьих, за счет отсутствия обобщающих понятий в списке ключевых слов библиографического описания. При желании найти более общий объект, например все статьи по биоразнообразию беспозвоночных, при поиске необходимо – либо перечислять в запросе все возможные варианты (насекомые, паукообразные, черви и т.п.), что, несомненно, невозможно, либо смириться с тем, что найдены, будут только статьи общего характера, посвященные биоразнообразию беспозвоночных в целом.

Бороться с этим явлением, можно уточняя поиск, используя следующие стратегии:

Формулировка при вводе записи всех возможных вариантов написания ключевых слов с учетом обобщающих понятий практически не реализуема. Даже каталогизаторы библиотеки УГТУ-УПИ, вводя до 50 ключевых слов в одной записи, при этом не могут охватить всех вариантов возможных ключевых слов. С другой стороны, наличие большого числа обобщающих и синонимичных понятий, при поиске приводит к снижению полноты.

Использовать поиск по предметной рубрике, в том виде, как их сейчас указывают при описании, не позволяет уточнять запрос, так как назначение рубрик происходит по обобщающему принципу, таким образом, что предметная рубрика является просто видом ключевого слова. Это не приемлемо с точки зрения обеспечения полноты и точности поиска.

Уточнение по фасетам [3]: хронологическим, географическим, персоналиям не разрешает синонимии при тематическом поиске.

Использование универсальных классификаций, с одной стороны требует специальной подготовки от читателей, с другой отражает универсальный подход к классификации, при котором особенности предметных областей нивелируются, для отражения максимальной общности, а отдельные разделы недостаточно подробно разработаны для поиска в узких предметных областях.

Формулировка запроса на основании дополнительной информации о предметной области требует наличия у пользователя представления о предметной области на уровне эксперта и при этом четкого представления обо всех этапах самой операции поиска. Либо потребуется создание экспертной системы для каждой из предметных областей, дополненной базой правил здравого смысла [4] и базой знаний о технологии поиска.

Всех перечисленных проблем можно избежать двумя путями:

Рубрикатор - нечто большее, чем совокупность предметных рубрик объединенных в словарь. Это иерархически организованная система рубрик, отражающая, с одной стороны, системность предметных областей, а с другой - интересы организации, для которой он создается, и массив описываемых документов. То есть примерно так, как это делалось в бумажных систематических каталогах и особенно в картотеках. Таким образом, рубрикатор есть вариант использования универсальных классификаций, привязанный к нуждам конкретной библиотеки, по необходимости дополненный, переработанный и расширенный в ряде разделов. Проблема ссылок между разделами рубрикатора решается путем приписывания ключевых слов к каждой из рубрик, при этом рубрики, содержащие одинаковые ключевые слова, являются связанными.

Что дает рубрикация: во-первых, возможность увидеть и оценить спектр информационного наполнения библиографической базы (картотеки, каталога) в интересующей пользователя области; во-вторых, пользователь может, введя ключевое слово, например - «грызуны», он получает список рубрик, внутри которых встречается это ключевое слово - из разных разделов рубрикатора:

    Биологическое разнообразие млекопитающих

        Грызуны (биоразнообразие)

    Млекопитающие

        Грызуны

    Тяжелые металлы в органах млекопитающих

        Грызуны мышевидные (загрязнение тяжелыми металлами)

И т.д.

Выбрав в качестве результата поиска одну или несколько рубрик, он либо получает все описания документов соотнесенных с данной рубрикой, либо имеет возможность уточнить поиск одним из следующих способов:

Для создания рубрикатора была разработана БД под управлением свободно распространяемой СУБД FireBird 1.0 и приложения написанного на Delphi 5. Созданный рубрикатор можно экспортировать в формате XML, что позволяет использовать его в разных программах.

Существует два пути создания подобного рубрикатора:

Путь создания рубрикатора по существующей схеме систематического каталога и алфавитно-предметного указателя был выбран в библиотеке УГТУ-УПИ. За три летних месяцы студенты, работая в рамках практики в библиотеке, ввели всю схему систематического каталога, и сейчас заканчивают ввод АПУ. К каждой рубрике приписываются индексы УДК и ББК (для каждой рубрики они уникальные), существует также возможность проставлять расстановочный индекс для плавного перехода к новой индексации разделов, например, по вычислительной технике (переход от 681.3 к 004). Сейчас рубрикатор находится в процессе правки, к моменту его завершения планируется использовать его для поиска в электронном каталоге доступном на сайте библиотеки УГТУ-УПИ.

Как планируется соотносить описания документов с предметными рубриками? Каждая книга имеет проставленные индексы УДК/ББК, по которым книгу относят к предметной рубрике, которая имеет наиболее длинный индекс являющийся префиксом индекса документа. Если книга имеет несколько проставленных индексов, то она будет ассоциирована с несколькими рубриками. Одновременно можно контролировать степень наполнения рубрик (рубрика, в которой более 100 названий, не эффективна) и принимать решение о дроблении рубрик, и удалении рубрик, в которых документы отсутствуют.

Для статей ситуация несколько сложнее, в библиотеке уже существует электронный рубрикатор бумажной картотеки статей, но он не позволяет автоматически привязывать статью к рубрике по причине отсутствия индексов УДК/ББК в значительной части разделов, с другой стороны деление верхних рубрик в нем не совпадает с делением систематического каталога книг, и не все статьи имеют проставленные индексы. Планируется отказаться от существующего рубрикатора статей и перейти к использованию вновь созданного рубрикатора, для единообразия, привязывая все вновь введенные записи к разделам рубрикатора по словарю. Для статей, у которых проставлены индексы УДК/ББК, процедура привязки эквивалентна процедуре для книг. При заполнении рубрики до определенного количества статей, ее разбивают и переиндексируют ссылки внутри, таким образом рубрикатор достраивается и изменяется в зависимости от содержания электронного каталога, отражая интересы организации.

Для существующего корпуса статей, у которых не выставлены индексы УДК/ББК, планируется применить процедуру полуавтоматической расстановки: каждая запись, в соответствии с правилами Consensus omnimum (корпоративная сеть библиотек Урала") соотносится с рубрикатором (около 40 разделов), по установленной рубрике статью относят к одному из верхних уровней деления рубрикатора, а затем, используя ключевые слова и информацию из других полей записи (название, реферат), статью соотносят с рубрикой более низкого уровня в выбранной.

Все вышесказанное относится к электронной картотеке статей. При этом мы не можем отказаться от использования существующей бумажной картотеки статей, так как, в ней накоплен большой объем информации, по которому выдаются справки читателям. Важно понимать, что информация в разделах по химии, металлургии и т.п. устаревает очень медленно, и часто новые исследования только дополняют существующие результаты. Следовательно, отказаться от бумажной картотеки можно только при условии ретроспективного ввода записей бумажной картотеки статей в электронную картотеку, что практически не реализуемо в нынешних условиях. Ни один центр генерации библиографической информации не собирается проводить ретроввод.

Путь создания рубрикатора по ключевым словам из существующего электронного каталога документов, был выбран в библиотеке Института экологии растений и животных УрО РАН (ИЭРиЖ). Были взяты все предметные и географические рубрики и ключевые слова из библиографической БД ИЭРиЖ. Рубрикатор составлялся исходя из наличных записей в электронном каталоге и потребностей поиска специализированной аудитории (ученых-экологов), поэтому деление на рубрики и наполнение их ключевыми словами не является попыткой создания более подробного раздела УДК или иной универсальной классификации, а отражает спектр направлений деятельности ИЭРиЖ и накопленного корпуса записей. Наличие большого количества синонимов и вариантов написания названий рубрик и ключевых слов объясняется необходимостью учета информации в накопленном массиве описаний документов.

Автоматизировать процесс создания подобных классификаций невозможно, по причине необходимости учесть целевую аудиторию, многоаспектность понятий и невозможность построения естественной классификации [5]. Важно понимать, что создание подобного рубрикатора с нуля сложная задача, которая в приемлемые сроки решается лишь для узких предметных областей (например, для создания первоначального рубрикатора ИЭРиЖ с делениями до седьмого уровня потребовалось пять месяцев высококвалифицированной работы). Также необходимо учитывать, что рубрикатор, без привязки рубрик к индексам УДК/ББК, не может быть использован для автоматической классификации записей электронного каталога, и как следствие, сложнее принимать решения о его развитии.

В данный момент, экспортированный рубрикатор был загружен в библиографическую БД ИЭРиЖ работающую под управлением СУБД UDB2 7.1 фирмы IBM, и проходит тестирование, и посмотреть на его работу можно будет в начале 2003 года на сайте ИЭРиЖ http://ipae.uran.ru.

Дополнительные возможности для использования рубрикатора.

В большинстве ВУЗов недавно прошла аттестация. Один из параметров, который используется при лицензировании, это показатель книгообеспеченности учебных дисциплин и специальностей. Для нужд лицензирования в библиотеке УГТУ-УПИ в 2001 году были выбраны книги, попадающие под критерии лицензирования: для учебной литературы последние 5-10 лет и вся дополнительная литература. Летом 2001 года студенты на практике для каждой книги ввели количество экземпляров, гриф, организация, поставившая гриф, вид литературы (учебник, монография и т.п.), тип литературы (опубликованное, аудиовизуальное и т.п.). Для лицензирования в УГТУ-УПИ была создана БД по аттестации, в которую были загружена вся информация из данного каталога, с сохранением связи между записью о книге в БД и электронном каталоге (по номеру записи электронного каталога, поле 035а).

Далее, читающие кафедры должны были связать читаемую дисциплину с книгами из электронного каталога, результат показан в таблице. При этом показатель «количество книг на одного студента» получался недостаточным для лицензирования, хотя известно, что книг в фонде библиотеки достаточно. Для того чтобы найти, какие еще книги кафедры не связали с дисциплинами, был использован следующий метод: каждая книга электронного каталога была связана с разделами рубрикатора (так, как описано выше), для каждой дисциплины были соотнесены разделы рубрикатора, и затем выбраны все книги, ассоциированные с выбранными рубриками, результат в таблице.

Таблица обеспеченности литературой дисциплин кафедры иностранных языков

No

дисциплина

выбрали названий

выбранных экземпляров

всего
названий

Всего
экземпляров

1

Второй иностранный язык

1

1

61

878

2

Гуманитарный спецкурс

9

17

373

1646

3

Деловая корреспонденция

6

42

206

2622

4

Деловое общение

98

2176

2205

18303

5

Деловые переговоры в международном бизнесе

3

28

132

2439

Как видно из таблицы, для дисциплин No 1, 2, 3, 5 в библиотеке существует больше книг, чем выбрали кафедры, при этом были найдена не только учебная и учебно-методическая литература (выбор которой и был основной задачей кафедр), но и дополнительная литература. Для уточнения списков литературы по дисциплинам кафедрами формируются списки литературы по каждой дисциплине, с последующей отправкой их по кафедрам на проверку. Таким же образом можно будет отследить неиспользуемую литературу для последующего ее списания. Для отдельных дисциплин подобный метод не срабатывает, так для дисциплины No2 помимо книг собственно по деловому общению, кафедрой были выбраны учебники делового английского языка, что привело к тому, что были отобраны книги всего раздела Ш13 «Частное языкознание. Языки мира / Отдельные языки». Для того чтобы в дальнейшем избежать подобных проблем, планируется предварительно выбирать, какие рубрики следует учитывать при расширении списка литературы, а также дробить разделы систематического каталога с целью более точного выделения предметной рубрики. Для тех дисциплин, для которых подобный поиск с последующей проверкой кафедрами, не пополняет список литературы, будут создаваться разделы систематического каталога с целью отображения новых направлений деятельности ВУЗа, для последующего комплектования по этим разделам.

Систематизация электронного каталога, привязанная к учебным дисциплинам, в дальнейшем позволит создать в библиотеке УГТУ-УПИ полноценный электронный тематический план комплектования. С каждой рубрикой будут связаны дисциплины и специальности, приписанные к книгам данной рубрики. По каждой дисциплине и контингенту студентов можно определить, для каких дисциплин ощущается нехватка учебной литературы и привлекая кафедры, определить, действительно ли имеется нехватка и принять решение о доукомплектовании, а также выяснить сразу вопрос о неиспользуемой литературе. Можно будет получить любую статистику по дисциплинам: степень новизны, распределение по видам литературы, по издательствам, выпускающим книги по данному направлению и книготорговым организациям. При принятии решения о покупке литературы, используя поиск по АПУ можно найти разделы рубрикатора к которым относится данная книга, выяснить в каких дисциплинах она может использоваться, и в соответствии с нормами комплектования данного раздела рубрикатора, а также по результатам консультаций с читающей кафедрой принять решение о приобретении. Также подобный рубрикатор позволит избежать проблем с недостаточным комплектованием: при заказе книг с кафедры возможность их использования для преподавания другими кафедрами можно будет отследить, сверяясь по рубрикатору.

Еще одна область, где рубрикатор может быть полезен, это создание каталога электронных ресурсов. Не секрет, что все больше документов становятся доступными в электронной форме, некоторые доступны только в электронной форме и их количество будет только расти. При традиционном наполнении каталога библиотеки (а только так до читателей можно донести информацию о доступных ресурсах) электронные ресурсы выпадают из сферы деятельности библиотеки, но при этом могут являться единственным источником информации для ряда областей. Поэтому предполагается в дальнейшем все собираемые электронные ресурсы соотносить с разделами рубрикатора, что позволит в дальнейшем включать в показатели книгообеспеченности. С другой стороны можно будет принимать решение о целесообразности закупок БД или доступа к ним, так как это было описано выше для книг.

Работа выполнена при поддержке гранта РФФИ No 01-07-96504.

  1. Сэлтон Г. Автоматическая обработка, хранение и поиск информации. - М.: Cов. радио, 1973. - 560 с.
  2. Автоматизированные Информационно-Поисковые Системы / ВИНИТИ. - М., 1988. - 167 с. - (Итоги науки и техники. Сер.: Информатика ; Т. 12 / ВИНИТИ)
  3. Ранганатан Ш. Р. Классификация двоеточием. Основная классификация. Пер. с англ. / Под. ред. Т.С. Гомолицкой; ГПНТБ СССР. - М., 1970.
  4. Черняк Л. Библиотека знаний Cyc // Открытые системы. - 2002. - No 11. - C. 18-21.
  5. Шрейдер Ю. А., Шаров А. А. Системы и модели. - М.: Радио и связь, 1982. - 152 с.