Е. В. Шутько,
Зав. сектором справочно-библиографического отдела
Научной библиотеки
Уральского государственного университета
Аналитическая обработка текстовой информации и смысловой поиск в электронных базах данных: проблемы противоречий
В условиях перехода человечества к информационному обществу, компьютеризации учебного процесса, увеличения в числе и объеме сетевых источников информации и создания корпоративных информационных баз данных возникает необходимость формирования у будущего специалиста информационной культуры, заключающейся, в частности, в активном и эффективном взаимодействии с современными информационными технологиями. Это является одним из традиционно сложившихся направлений информационно-библиографической работы библиотеки высшего учебного заведения. Целью работы в этом направлении должна стать подготовка квалифицированного пользователя, который легко ориентируется в справочно-поисковом аппарате библиотеки, имеет навыки информационного поиска и способен получать необходимые сведения в интерактивном режиме. Все это предполагает свободную ориентацию специалиста в мировом информационном пространстве.
Между тем, с развитием информационных технологий, особенно сети Интернет, на первый план выступают проблемы организации информационного обслуживания. Они обусловлены, в первую очередь, противоречиями непосредственно между уровнем подготовленности информационных работников и пользователей. В частности, на стыке противоречивых тенденций в развитии лексического обеспечения баз данных оказались электронные каталоги крупных научных библиотек, к которым в разных условиях предъявляются следующие требования:
Электронный каталог это автоматизированная информационно-поисковая система (ИПС), база данных, поиск информации в которой производится в соответствии с информационно-поисковым языком (ИПЯ). В современных ИПС распространены два варианта создания записи:
Информационно-поисковый тезаурус это нормативный словарь ИПЯ с зафиксированными в нем парадигматическими отношениями лексических единиц [9]. Словари типа «тезаурус», или идеографические, чаще имеют расположение слов по смысловой близости. Примерами информационно-поискового тезауруса могут являться Библиотечно-библиографическая классификация (ББК) или Государственная автоматизированная система научно-технической информации (ГАСНТИ). Основное назначение тезауруса обеспечивать индексирование документов для ввода в ИПС, служить основным терминологическим пособием.
В плане работы над концепцией лексического обеспечения корпоративных библиотечно-информационных систем интересен опыт ГПНТБ России [22], [23]. Был проведен анализ результатов индексирования документов ключевыми словами в крупных массовых библиотеках городов России. Анализ показал, что выбор ключевых слов и формы их представления в поисковом образе документа производится бессистемно и не имеет более или менее согласованных правил. В результате один и тот же документ, проиндексированный разными сотрудниками, содержит совершенно несопоставимые поисковые образы. С целью устранения указанного недостатка в ГПНТБ России была начата работа по «мягкому» нормированию составления ключевых слов: произведен сбор, анализ и обработка словарей ключевых слов для последующей разработки на их основе согласованных в системе словарей с целью перехода на полностью нормированную тезаурусами лексику [22; с. 88].
Безусловно, одним из бесспорных достоинств работы с использованием информационно-поискового тезауруса является упорядоченность терминосистемы, что обеспечивает однозначную формулировку термина или понятия. Однако на практике использование тезаурусов представляется проблематичным, поскольку это априори не ориентированная ни на конкретного пользователя, ни тем более на текст конкретного документа система, с помощью которой должна производиться смысловая индексация. Кроме того, для индексирования необходим очень полный словарь терминов при том, что статус слова в качестве нормативного термина достаточно изменчив. Разработка тезаурусов работа трудоемкая, нуждающаяся в оперативном редактировании, а поиск информации в свою очередь может оказаться неудовлетворительным. Поэтому разработчики ИПЯ сегодня больше предпочитают бестезаурусный ввод документов в ИПС.
Бестезаурусный режим ИПС это работа на естественном языке. Специфика бестезаурусного ввода информации заключается в том, что поисковые образы документов представлены в виде комплекса ключевых (поисковых, смысловых) слов, выбранных из текста конкретного документа. На данный момент действительно нет единого принципа отбора ключевых слов к документу. Так, ГПНТБ России считает, что список ключевых слов должен, в первую очередь, наиболее полно отражать те части содержания документа, которые представляют наибольший читательский спрос или интерес. Список ключевых слов может быть не упорядочен и не зависеть от их роли и характера отношений между ними в содержании каждого конкретного документа [22; с. 89]. Однако за время работы с базами данных в корпоративных системах библиографы пришли к выводу, что в качестве ключевых слов должны выступать прежде всего понятия, называющие отрасль знания, и слова, состоящие с этими понятиями в ассоциативной связи и в родовидовых отношениях [26; с. 73].
Проблемы противоречивых подходов к принципам лексического обеспечения библиотечно-информационных систем побудили к необходимости разработки и апробирования на практике интеллектуальных технологий смыслового анализа, индексирования и поиска библиографической информации в электронных базах данных. В некоторых публикациях особое внимание уделяется формированию метаданных (т.е. информации об информации или информации, формируемой создателями электронных ресурсов и представляющей собой обязательный минимум сведений, который позволяет их использовать при каталогизации и при поиске информации). При этом отмечается, что сама организация информации в ИПС, как и в электронных полнотекстовых базах данных, должна учитывать поведение пользователей при проведении поиска [1; с. 15], [5; с. 30].
В основе идеи свертывания первоисточников информации на базе ключевой лексики лежит представление о том, что фразы текста, особенно научно-теоретического, выполняют не только внетекстовую функцию (фраза как отражение некоторой экстралингвистической реальности о ч¨м и что говорится), но и внутритекстовую грамматико-стилистическую (фраза как способ отражения этой экстралингвистической реальности в виде некоторой целостной композиции имеющей свою логику и структуру). В рамках аналитико-синтетической обработки информации выделяют три основных направления: статистический, позиционный и индикаторный. Статистические методы основаны на использовании статистических параметров для оценки информативности различных элементов текста (слов, предложений) прежде всего по частоте встречаемости полнозначных слов в тексте. В результате ранжирования лексики в том или ином документе по степени частотности употребления слов они определяют в тексте слова с высокой частотностью и по этому показателю оценивают информативность данного текста. Позиционные методы опираются на предположение о том, что информативность предложения находится в зависимости от его позиции (места) в тексте документа; однако они «работают» относительно удовлетворительно на строго структурированных документах: стандартах, патентных описаниях и т.п., а в остальных случаях применяются лишь в сочетании с другими методами, поскольку в чистом виде не обладают необходимой репрезентативностью результатов [5; с. 33].
Индикаторные методы, или методы атрибутного индексирования (по ГОСТу-96 координатного, [9]), основаны на функциональной идентификации фраз первичного документа с помощью индексации их специальными словами, образующими лексический аппарат данного документа. Совокупности таких фраз, определенным образом упорядоченных, и образуют комплекс ключевых слов к документу основного средства информационного обслуживания. Под ключевым словом здесь понимается единица текста слово, словосочетание, предложение, единые синтаксические целые и т.п., обладающие смыслом и имеющие самостоятельное значение вне контекста документа, из которого они извлечены. Соответственно, комплекс ключевых слов является своего рода лексической моделью научного текста. Функциональная значимость ключевых слов определяется тем, что они являются одним из наиболее оптимальных способов классификации, хранения и передачи информации. Отражая развитие и терминодинамику определенной научной отрасли, комплекс ключевых слов представляет собой еще и систему отслеживания и распространения современной терминологии.
Каждый описываемый источник имеет свою логическую организацию материала. Например, статья в научно-теоретическом журнале может строиться по следующей модели:
С точки зрения лексической организации материала, практически в каждой статье содержатся определенные синтаксические конструкции (фреймы), вводятся словесные клише, штампы, уточнения, связки и прочие метаинформативные элементы. Таким образом, большинство фраз текста не только номинативны, но и функциональны, причем определенным синтаксическим конструкциям, «выполненным» из лексики внетематического (неключевого) слоя, соответствуют определенные типы фраз, которые относятся к различным содержательным аспектам или выполняют модально-оценочные функции [5; с. 3334].
В библиографической практике сущность понимания текста и формирования его поискового образа заключается в сведении содержания текста к коротким и существенным формулам, определении в каждой формуле центрального по смыслу понятия, связывании понятий между собой и образовании в итоге единой логической цепи идей. Следовательно, в смысловом плане комплекс ключевых слов к такому документу укладывается в следующую схему: Субъект; Качественные характеристики, свойства; Действия, способы, технологии; Области деятельности (применения) [15; с. 18].
Серьезные ограничения при использовании методов атрибутного индексирования связаны со следующими обстоятельствами:
По определению терминологического словаря «Библиотечное дело», ключевое слово ( это «слово или словосочетание естественного языка, выбираемое из текста документа и используемое для его индексирования» или «слово или словосочетание из текста документа или запроса, которое несет в данном тексте существенную смысловую нагрузку с точки зрения информационного поиска» [4; с. 54]. Другими словами, под ключевым (поисковым) словом понимается лексическая единица, которая должна обеспечивать однозначность поиска.
В современных информационно-поисковых системах индексирование документов заключается в анализе их содержания и усечении этой информации до набора ключевых слов. Пользователь же в процессе поиска информации выполняет эту процедуру в обратном порядке: от ключевых (поисковых) слов к документам. Основная проблема здесь заключается в том, что пользователь может задавать только те поисковые параметры, которые предусмотрены создателями записи заранее. Поэтому современный уровень подготовленности пользователя пока требует наличия словарных баз данных и их интерактивного использования при поиске, то есть возможности осуществления навигации и прямого поиска по словарю, отбора словарных элементов и перенесения этого запроса в базу данных. Для пользователя более предпочтительна работа в каталогах с открытыми поисковыми словарями, прежде всего потому, что поиск в закрытых поисковых системах часто не приводит к отбору интересной для него информации и отсеву неинтересной. Кроме того, пользователь может обогащать свой запрос, используя поисковый словарь. Практика показывает, что при поиске с помощью словаря ключевых слов пользователю действительно удается найти большее число релевантных документов, чем при поиске в закрытых информационно-поисковых системах. Причина этого кроется не только в сложности для пользователя формулирования своего запроса в виде списка слов, составляющего поисковый образ. Недостаточно эффективно и само использование создателями библиографической записи элементов текста документа для включения их в поисковый образ. Данная поэтапная модель смысловой обработки документа (на примере данной статьи) предлагается для того, чтобы помочь создателям электронной библиографической записи эффективно и правильно выбирать ключевые слова.
Выбор ключевых слов
Процесс аналитической обработки информации и определения ключевых слов к документу включает этапы, которые осуществляются в указанной ниже последовательности:
Часть I. Подготовка и первые шаги.
Следует внимательно прочитать текст статьи и определить тематику публикации. Особое внимание нужно обратить на ту часть документа, где описана проблема или основной тезис статьи. Это наиболее информативная часть документа. Кроме этого, анализу подлежат: заглавие, продолжение заглавия, предисловие к статье, аннотация или реферат, резюме. Прочитав текст, следует определиться, для какой темы читательского запроса подходит данная статья и сформулировать основной тезис (проблему).
Далее следует выписать наиболее значимые слова или понятия в тексте, которые несут основную смысловую нагрузку текста, обозначают признак предмета, состояние, процесс или действие. При создании первоначального списка слов учитывается то, что разным читателям интересны различные аспекты проблемы: одному будет интересно узнать новые научные факты, другому выяснить специфические термины, и т. п.
Часть II. Оцените ваши результаты.
Построить из выписанного перечня слов смысловые ряды и дополнить список более широкими понятиями, которые в статье могут и не встретиться, но состоят с выписанными словами в определенных парадигматических отношениях. Смысловые ряды могут начинаться с комплекса клишированных ключевых слов, которые в дальнейшем будут использоваться при росписи статей с аналогичным содержанием. Например, статья «К вопросу о критериях художественности» посвящена рассмотрению эстетических категорий на материале художественной литературы. В этом случае смысловой ряд ключевых слов следует начинать со слов ТЕОРИЯ ЛИТЕРАТУРЫ, ХУДОЖЕСТВЕННОЕ ПРОИЗВЕДЕНИЕ, ЭСТЕТИКА ХУДОЖЕСТВЕННОГО ПРОИЗВЕДЕНИЯ, ЭСТЕТИЧЕСКИЕ КАТЕГОРИИ, ХУДОЖЕСТВЕННОСТЬ ЛИТЕРАТУРНОГО ПРОИЗВЕДЕНИЯ (КАТЕГОРИЯ). Далее, в конце смыслового ряда, можно указать жанры и названия конкретных художественных произведений, на анализе которых построена данная статья. В нашем случае достаточно придерживаться только общих терминов и понятий.
Если в статье встречается принципиально новое понятие (термин), то его также следует использовать в качестве ключевого слова, даже если оно окажется не очень удобочитаемым и на момент создания базы данных не описано ни в справочных изданиях, ни в других базах данных. При этом нужно иметь в виду, что комплекс ключевых слов не должен содержать информацию о смысле и значении этих слов. Это поисковые слова, их основное назначение способствовать поиску библиографической информации о документах, где дается подробное толкование и описание этих понятий и (или) явлений.
Часть III. Сузьте круг.
Наконец, из полученных логических цепочек слов или словосочетаний нужно выявить те, которые составляют доминанту данного текста. При этом необходимо учесть, что современные ИПС в большинстве случаев предполагают поиск не только по отдельным полям библиографической записи, но и по всем полям одновременно. Поэтому при окончательном отборе следует избегать полного дублирования заглавия, продолжения заглавия и названий основных и (или) предметных рубрик.
Таким образом, должен получиться набор из 48, максимум, 10 ключевых слов.
Схематически процесс определения ключевых слов к документу выглядит следующим образом:
В качестве примера приведем комплекс ключевых слов к данной статье:
ИНФОРМАЦИОННОЕ ОБСЛУЖИВАНИЕ
ИНФОРМАЦИОННО-ПОИСКОВЫЕ СИСТЕМЫ
ЭЛЕКТРОННЫЙ КАТАЛОГ (ПОНЯТИЕ)
ДОКУМЕНТ (ПОНЯТИЕ)
СМЫСЛОВАЯ ОБРАБОТКА ДОКУМЕНТА
ИНДЕКСИРОВАНИЕ ИНФОРМАЦИИ
АТРИБУТНОЕ (КООРДИНАТНОЕ) ИНДЕКСИРОВАНИЕ
ПОИСКОВЫЙ ОБРАЗ ДОКУМЕНТА
КЛЮЧЕВОЕ СЛОВО (ПОНЯТИЕ)
Основными особенностями предлагаемой модели смысловой обработки информации и формирования поискового образа документа являются максимальная полнота индексирования информации, возможность описания сферы интересов пользователя в виде перечня основных понятий (ключевых слов), которые предметно независимы и могут быть не регламентированы тезаурусами и другими формами нормативных словарей. Наконец, данная технология представит значительный интерес для информационных служб, поскольку она универсальна, ориентирована на пользователей как локальных, так и глобальных телекоммуникационных сетей и призвана способствовать повышению качества смыслового поиска.
Список использованной литературы: