计算机文献检索论文
计算机文献检索论文
电子计算机文献检索系统是指广泛利用电子计算机和现代化通讯技术,进行文献加工、检索和远距离传递的自动化系统。下面是学习啦小编为大家整理的计算机文献检索论文,供大家参考。
计算机文献检索论文篇一
专利文献计算机检索技术的最新发展
[摘要]通过对近年来计算机科学、人工智能、专利文献加工等领域的发展进行总结,从多语言混合检索、分类检索、语义检索、图像检索以及辅助技术五个方面介绍专利文献计算机检索技术的最新发展。机器翻译技术和多边共同分类体系的完善有助于提高计算机检索效率、消除语言障碍,而语义检索、图像检索和文献自动处理技术的发展有望使面向不同层次用户的计算机智能化检索系统得以实现。
[关键词]专利文献 计算机检索 语义检索 图像检索
[分类号]G352
1 前言
近年来,计算机技术、语言学以及人工智能技术的发展促进了整个信息检索技术领域的发展,专利文献的计算机检索技术正成为情报检索领域研究的热点。下文拟从多语言混合检索、分类检索、语义检索、图像检索以及辅助技术五个方面介绍专利文献计算机检索技术的最新发展。
2 多语言混合检索
专利文献是由各国、各地区专利局或世界知识产权局出版的官方文献,因此一般以各局官方语言出版。虽然大部分专利文献是英语文献,但是仍然存在大量日文、中文、德文、法文及其他语种的文献。出版语言的多样性给专利文献的检索和利用带来了极大的障碍,要实现多语言混合检索,机器翻译是必不可少的技术。目前一些专利局在其官方网站上推出了机器翻译系统,例如我国国家知识产权局提供有汉英机器翻译,日本特许厅提供有日英机器翻译,韩国知识产权局提供有韩英机器翻译等,上述网络机器翻译系统对其他国家的用户阅读方便和使用本国专利文献起到了帮助作用。
随着计算机技术的发展,机器翻译的技术也迅速发展,从传统的基于规则的机器翻译扩展到了基于实例或模版的机器翻译、统计机器翻译等。尤其是近年来语言学和人工智能技术的发展,以语义描述或以知识描述为特征的智能机器翻译系统正逐步成为研究的热点。专利文献作为一种特殊的科技文献,由于其具有特定的句法和语言结构,同时例如权利要求书等具有法律公示性文件的作用,这对翻译的准确性提出了更高的要求,已有研究者通过在机器翻译系统内集成多个翻译引擎、对不同特点的内容使用不同引擎翻译的方式来提高翻译质量。
已有的机器翻译系统基本局限于单篇文献的机器翻译,无法实现真正的多语言混合检索。多语言混合检索系统不仅可以允许混合语言的检索式,而且同一个检索式还可以对不同语言的专利文献进行检索,其实现方式主要有如下三种:翻译检索式、翻译文献或者两者相结合的混合式。翻译检索式的工作量小,比较适合于因特网检索,但由于检索式通常缺乏语境,翻译难度较大;翻译文献的方式虽然有利于提高翻译质量,进而有利于文献检索,但存在的主要问题是翻译量太大、翻译时间长。
3 分类检索
分类号一直是专利文献检索的重要手段。目前除了基本涵盖各国专利文献的国际专利分类(IPC)之外,美国专利商标局、日本特许厅和欧洲专利局各自都有自己的分类体系,分别是UC、FI/FT和ECLA。IPC虽然通用,但存在分类标准不统一、分类条目不够完备、文献分类更新不及时等缺陷,导致使用IPC检索的效果欠佳。UC和FI/FT分别只能检索美国和日本的专利文献,ECLA虽然能够检索到多国的文献,但仍然不能有效地检索日本、韩国、中国等国的专利文献。
为改善这种局面,美国、日本和欧洲自2000年即开始了“三边分类和谐计划”,该计划旨在推进ECLA、UC和FI三个分类体系的融合以增强分类号检索的功能,同时对现有IPC分类体系提出改进建议。依据2009年召开的第27次三边会议,韩国知识产权局已经加入上述计划,而中国国家知识产权局也以观察国的身份参与这项工作。此外,近年来美国专利商标局、日本特许厅、欧洲专利局、韩国知识产权局和中国国家知识产权局五局积极开展合作,其中一个重要的合作项目是“共同的分类”。该项目的实施将有利于提高分类的一致性,扩展或细化部分技术领域的分类,进而提高检索的效率和质量。
不管是美日欧三方开展的“三边分类和谐计划”,还是五局共同开展的“共同的分类”项目,都必将推进专利文献分类体系的进一步发展,实现真正意义上的“基于检索的分类”,进一步增强分类号在专利文献计算机检索中的作用。
4 语义检索
当前专利文献检索的主要手段为关键词和分类号检索,而由于一词多义、一义多词,专利文献撰写、加工和翻译质量不一以及关键词的机械匹配等问题,本质上决定了其查全率和查准率受限制。随着计算技术、人工智能、自然语言处理等技术的发展,搜索引擎的智能化有望从根本上提高现有检索系统的检索质量。
搜索引擎的智能化具体表现为语义检索,也称为知识检索或概念检索。语义检索是对检索条件、信息组织及检索结果显示赋予一定语义成分的一种新的检索方式。语义检索的本质在于以语义为对象进行搜索,而不是对字符串进行简单的机械匹配,因此可避免关键词匹配检索中由于词和义不对应所导致的问题。
语义检索过程一般包括对被检索的文档以及输入的检索式进行语义分析和匹配处理。这种语义分析处理依赖于词汇的语义描述技术以及分别用于词义鉴别和词汇过滤的语义识别技术和词汇链算法。可以通过诸如WordNet等语义词典对词汇实现较完备的语义描述,保证人和机器对词汇的理解一致。
最新发展的潜在语义索引通过将文献搜索过程中的向量空间模型和奇异值分解相结合,可以揭示文档中的词间关系,因而适于构建专利文献搜索引擎”…。利用语义进行检索还可以将专利文献中的非技术性信息考虑在内,例如将特定的技术概念和申请人、发明人等信息进行语义联系。此外,语义检索还可以从用户角度出发,考虑用户的检索需求,从而为诸如查新、侵权等不同目的的检索提供相应的结果。
近年来国内一些开发商也纷纷提供具有语义检索功能的专利文献检索系统,例如东方灵盾开发的专利检索系统和Patenticst网站。Patentics网站除了可以实现传统的关键词检索功能,还支持语义检索,仅通过输入检索所针对的专利文献号,即可自动对其进行语义分析、文献检索,并对结果进行相关度排序。当前专利文献检索领域还未广泛应用语义检索,但随着研究的深入,相信未来的搜索引擎不仅能利用语义技术提高检索的效率,还有望能对检索结果进行分析、评价,甚至自动生成检索报告。
5 图像检索
根据对图像检索所使用方法的特征可以分为基于文本的图像检索法(TBIR)和基于内容的图像检索法(cBIR)。专利文献一般都带有大量的附图,包括机械结构或化学结构式附图、电路图、方框图、流程图或曲线图等。与传统的关键词检索和分类号检索相比,CBIR更加直观、快速,而且可以克服因文字表述差异而导致的漏检,因此它正在成为专利文献检索领域的研究热点。专利文献的附图都是黑白二元图像(本文
所称专利是指发明和实用新型专利,不包括外观设计专利),不存在颜色和纹理等特征,因此专利文献的图像检索主要是基于形状和区域的图像特征。
虽然目前还没有成熟的专利文献图像检索系统,但一些研究机构已经开发出若干可专门用于专利文献的图像检索原型系统,例如IIT Kanpur的PATseek、Informatics and Telematics Institute的PatMediat以及LTUtechnologies公司的ImageSeeker等。PATseek专门针对美国专利文献进行图像检索,而PatMedia网站上的试验系统仅针对欧洲专利局的专利文献,这两个图像检索系统都可实现直接输入待检索的图像,系统自动进行相似度匹配,直接提供专利附图,同时还可以进行基于文本的图像检索。
典型的专利图像检索系统包括专利文献处理部分和图像检索部分,如图1所示:
文献处理部分又进一步包括文献预处理和视觉、文本元数据提取和索引两部分。前者是找出文献中的图形和对应的文字描述;后者则是进一步进行图像特征分析和文本分析,分别提取基本的图像特征以及能够表示图形含义的高层语义特征的关键词,由此分别形成索引后的图形特征矢量库、图像库、文本描述关键词库和知识库。在图像检索部分,基于上述提取的元数据,进行图像相似度匹配,同时还可以基于文本进行图像检索。与一般领域的图形检索相比,由于专利文献中每幅图形一般都对应有文字描述,即使不再进行人工标注或自动标注,都能提取到较好的高层语义特征,这对提高专利文献图形检索的准确性非常有帮助。
目前因特网上最新版本的PatMedia专利文献图像检索系统不仅提供有图像输入的检索方式,还提供有文献号、关键词输入的检索方式;此外,对于检索结果还可以进一步使用文本过滤、类别过滤等功能。下面示例性地给出了利用PatMedia进行图像检索的结果(见图2、图3),输入如图2所示的图像,该系统可以检索出如图3所示的结果(仅列出部分结果)。
目前专利文献图像检索系统仅处于试验阶段,只能对数量非常少的特定专利文献进行检索,且检索结果相关度还不是很高,但由于图像检索具有其他任何检索方式都不具备的优点,相信随着人们对专利文献图像检索技术的进一步研究以及语义检索技术的进一步发展,实现高精度的图像检索必将成为现实。
6 辅助技术
高质量的专利文献是提高检索质量的基础。专利文献分类、标引和摘要改写是专利文献加工的主要内容。传统的专利文献加工方法主要依赖于人工,其成本高且速度受限制,质量不统一。随着人工智能和计算机技术的发展,开始出现对专利文献进行自动分类、自动标引、自动摘要和自动聚类。
专利文献自动分类已经在欧洲、美国、日本得到了广泛的研究和尝试。例如欧洲专利局已经利用自然语言处理的相关技术实现了专利文献的自动初分类;对日本专利文献自动分类研究表明,对于使用K临近算法进行自动分类的情况下,先将专利文献按部分结构化为语义单元可以提高74%的效率。
PATExpert代表了目前较先进的专利文献自动处理技术的发展,通过基于语义网的语义处理技术实现了面向内容的专利文献自动处理,其中的一个主要技术是利用一定的语义表示结构实现专利文献知识层面的表达。该系统可以执行的处理任务包括:专利文献内容和元数据的自动抽取;全文、图像、相关性搜索引擎;专利文献的自动分类和聚类;面向多语言的辅助理解工具;专利价值自动评估等。
国内有一些研究机构开展了大量的基于IPC体系的专利文献自动分类的研究,这些研究大部分集中在统计分类技术。近年来随着人工智能技术的兴起,基于人工智能或语义的专利文献自动分类发展迅速,例如上文提到的Patentics试验系统也开始尝试对专利文献进行自动分类。
中文专利文献的自动处理仍处于研究阶段,虽然国外专利文献自动处理已经积累了许多宝贵经验,但由于中文表述的特殊性,许多技术还待消化和开发,例如汉语词汇之间的分词技术是制约自动标引质量的一个障碍。随着信息处理自动化相关技术的发展,专利文献的自动分类、自动标引、自动聚类和自动摘要正在逐步由半自动走向全自动化,这给搜索引擎的发展带来了极大的便利。同时,利用语义技术实现基于内容的自动处理将是未来的发展主流,也是提高专利文献自动处理质量的主要手段。
7 结语
专利文献计算机检索是一个涉及了多学科的研究领域,其中以语义检索为核心的技术推动了搜索引擎、机器翻译、图像检索等相关技术的发展,而由于专利文献的特殊性,分类体系和文献自动处理技术也在其中占据了重要地位。随着研究的进一步深入,现存的语言障碍和检索效率低下等缺陷在不久的将来必将逐渐被克服,不同层次的用户有望借助于智能化的自动检索系统便利地实现专业化检索。
计算机文献检索论文篇二
熟悉文献检索工具 学会检索文献资料
摘 要:在学术研究和论文写作中,我们经常需要检索查找资料数据,但是在浩若烟海的文献中,如何快速准确地找到所需要的文献,这就要求我们对文献检索的知识和技术有一定的了解,在本文中,介绍了文献检索的一些基本知识,主要针对的是手工文献检索的方法、步骤、途经和方法。
关键词:文献检索; 检索工具
中图分类号:G250 文献标识码:A 文章编号:1006-3315(2012)07-144-002
德国柏林图书馆的大门上,刻有这样一句话:“在这里是人类知识的宝库,如果你掌握它的钥匙的话,那么全部知识都是你的。”这把钥匙就是图书馆各种类型的检索工具和检索工具书。
一、了解图书馆目录组织,掌握目录的检索方法
大学生在校学习期间,由于年级的不同,利用图书馆学习所使用检索文献资料的工具也有所不同,低年级时最常使用的是图书馆的目录,而到了高年级,除了使用其目录(手检或机检)外,就是利用文献检索工具书和计算机检索所需文献。
图书馆的目录,也称藏书目录,是按一定规则而组成的。它是向读者揭示、宣传馆藏图书内容,帮助读者迅速而准确地查找文献资料,提供检索途径的重要工具,也是读者利用图书馆,发掘知识宝库的入门钥匙。
图书馆的目录,对读者而言也称读者目录,它的种类较多,按文字分,有中文、西文、日文、俄文目录;按查找途径分,有分类、书名、著者、主题等目录,按文献类型分,有图书、期刊、资料、声象资料目录等。
1.图书目录
1.1分类目录。馆藏图书是根据各馆使用的图书分类法,按图书内容的科学体系进行分类组成的目录,来揭示一个图书馆的藏书。所以,读者要想了解某学科或专业馆藏图书的情况,或者想查找到某类的图书,就可通过分类目录进行检索。
1.2书名目录,是按书名的汉语拼音或笔画、字母顺序等方法排列组成的目录,它是从图书名称方面来揭示一个图书馆的藏书。如果读者已知书名,便可利用书名目录检索所需图书。
中文图书目录,是按汉语拼音字母顺序加笔画排列的目录,也就是先将同音汉字(包括声调)排在一起,然后对音同字不同的汉字再按笔画顺序和笔形顺序排列。
日文书名目录,以汉字为起始的,先按《日本实用汉字表》(也有用汉语拼音字母顺序)的笔画顺序排列,同笔画的按笔形的顺序排列。书名是以日文假名起始的,则按日文五十音图顺序排列。
西文和俄文的书名目录,都是按原文字母的顺序排列而组成的目录,但应注意,西文图书书名前头的冠词,在组成书名目录时是省略的。
1.3著者目录,是按著者姓名汉语拼音字母顺序或笔画、字母顺序排列而组成的目录。它是从图书著者方面揭示馆藏图书的。如果读者想知道馆藏某一作者都有哪些图书或想借到某作者的图书,就可利用著者目录进行检索。
但利用西文、俄文著者目录时要注意,欧美人的习惯是名在前,姓在后,所以在查找时要倒过来才能查到。
1.4主题目录,也称标引目录,它是用扼要的、经过规范的词汇,揭示图书所研究的对象或所论述问题的基本内容。这种目录的特点,使凡研究对象相同的图书,都给以同样的主题,予以集中。这种目录的排列,是按主题词的字母或笔画的顺序而组成的目录。如果读者要查找某一专题比较完整的图书资料,就可利用主题目录进行检索。
另外,图书馆还编制有书本式馆藏目录,藏有一些图书馆书本式馆藏目录。这样,读者还可通过馆藏书本式目录查找所需图书,或者经查找本馆无馆藏时还可通过其他馆书本式目录进行检索,查找到后便可通过馆际互借或其他途径借到所需图书。
2.期刊目录
期刊是连续出版物,种类相对比较稳定。期刊目录的排列是按刊名和分类组成两种目录。它是揭示馆藏期刊方面的目录。中文期刊刊名目录,是按刊名的汉语拼音字母或笔画顺序排列的。外文期刊刊名目录,一般是按文字字母(省略刊名前边的冠词)顺序排列的。分类目录,是按各馆使用的图书分类法进行分类,组成分类目录。
另外,各馆还编制有书本式馆藏期刊目录,藏有地区性和系统的期刊联合目录。如果读者通过上述两种途径经查找本馆不藏此种期刊时,还可通过查找联合目录,查到哪个馆藏有所需期刊,这样便可通过馆际互借或其他方式借到或复制方法得到所需文献。
至于资料、声象资料的目录组织基本与书刊目录组织大同小异,在这里就不一一介绍。据调查,一个了解图书馆目录组织、熟练掌握目录检索方法的学生,仅用2分钟左右就可查到所需图书;相反,不了解目录排列规则,不掌握目录检索途径的学生,要花上l一2个小时才能查找到所需图书。所以大学生在校学习期间,一定要了解图书馆目录组织,熟练地利用目录检索所需书刊资料,将终身受益。
二、熟悉文献检索工具书,学会检索文献的途径、方法与步骤
为了使科学技术工作者及时、有效地利用文献资料,图书情报文献工作者相继编辑了许多文献检索工具书。在当代信息社会中,大学生熟悉文献检索工具书,学会检索文献的途径与方法,不仅对独立获取文献进行自学和培养自学能力十分有益,而且还可大大增强情报意识,不断获取情报信息也有着重要作用。
1.熟悉查找国内外文献的工具书
利用文献检索工具书检索文献,首要一点就是要选准文献检索工具书。
1.1查找国内文献的工具书。查找国内文献资料的工具书主要有:《全国总书目》《全国新书目》《全国报刊资料索引》《国内内部期刊索引》《内部期刊篇名目录》、《国内科技资料目录》《科学技术译文通报》以及其他检索工具书如文摘等等。
1.2查找国外文献的工具书。查找国外文献资料的工具书主要有:《科技文摘》《国外科技资料索引》《国外科技资料馆藏目录》《专利文摘》和《专利目录》《国外报刊目录》《北京图书馆外文新书通报》等等。
另外,国外版的检索工具书主要有:《化学文摘》《生物学文摘》《科学文摘》《伍利希国际期刊目录》《科学文摘杂志》《科学技术文献速报》《工程索引》《地理学文摘》等等。
计算机文献检索论文篇三
文献分类与检索
【内容提要】索引的研究、编制与文献流通形式变化息息相关。以 计算机为主体的新技术在文献流通领域广泛 应用,对索引理论研究及编制形成冲击,同时也带来变革的要求。10年来我国索引编制研究的起伏波动,说明索引研究应顺应 社会文献流通需要而变革的重要性。书目编制、数据库建设及文献标引、检索 语言方面等研究的 发展趋势,也说明新技术运用对于文献整理带来的新特点、新要求。索引理论研究和编制要适应新形势、新情况,使索引编制更好地为社会服务。
索引是利用文献的工具,与文献流通形式的变化息息相关。10年来在索引编制理论研究方面发生了波动,说明我们关于索引编制的理念正随着文献整理现代化进步而发生深刻地变化。以往文献以纸质载体为主,索引编制靠人工,编排技术百多年没有发生多大改变,理论研究相对稳定。自从计算机及其相关电子技术应用于文献领域并成为新流通载体后,索引编制手段及索引形式发生了巨大变化,对传统理念产生很大冲击,这是造成索引研究波动的根本原因。本文就10年(1993-2002)来索引研究的状况进行剖析,以求得一二看法,为索引研究深入发展筹谋。
1 索引理论研究低落,相关研究发展强劲
我国很早就有索引的编撰和理论研究。上世纪二三十年代,现代索引编制理论和方法传到我国,曾掀起索引编制和研究的高潮,成果辉煌。新中国建立后,安定的社会 环境,先进的 政治制度,为学术研究提供了良好氛围,索引的理论研究和编制才真正掀起高潮。虽然 “”影响了索引事业的发展,但拨乱反正后,索引研究与编制又蓬勃兴起。尤其是80年代末期中国索引学会成立,领导索引研究, 组织索引开发,开展学术交流,使我国索引事业走向规范化道路。
20世纪90年代初,是我国学术界研究索引理论的高峰期,1996年以后研究数量相对减少。《全国报刊索引(哲社版)》报道的信息显示了这种趋势(见表1)。但这种滑动并不表明我国索引研究衰退,而只能说明传统理论研究在减少,这是索引研究走向成熟的转折。能说明问题的是与索引研究相关学科或索引应用理论研究走向强劲。
表1 索引编制理论研究情况(按《全国报刊索引》报道时间 统计)
年 代 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 共计
总 共 38 44 36 25 20 31 29 0 1 2 226
传统编制 37 42 32 25 20 29 28 0 1 2 216
自动化编制 1 2 4 0 0 2 1 0 0 0 10
1.1 书目的编制研究
书目编制在我国历史悠久,从汉代刘向著《七略》麇集众书始,书目便成为人们查检文献的重要工具。其六分群书并以此编排的方法,虽然有些幼稚,但已开索引先河。书目对保存文献并提供文献利用的功能,在两千多年历史中影响巨大。书目功能虽然主要不是用于文献查检,可在漫长岁月中人们主要靠书目来检索文献,以至许多学者将索引理论在中国的不完善归咎于书目的影响。直到现在关于书目编制的研究一直不衰。论述书目编制和数据库的文献就非常之多(不包括目录学理论、各种目录研究、图书馆编目及目录组织等文章,见表2)。尤其是运用自动化手段编制书目的研究逐渐增强。
表2 书目编制理论及数据库研究状况(按《全国报刊索引》报道时间统计)
年 代 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 共计
总 共 25 17 32 10 27 51 49 36 56 51 374
书目编制 11 6 11 2 5 16 4 9 12 12 88
传统编制 11 5 10 2 4 8 4 6 8 6 64
自动化编制 0 1 1 0 1 8 0 3 4 6 24
数据库研究 3 5 10 6 17 49 41 18 32 27 208
1.2 书目数据库建设研究
数据库是计算机技术应用于文献存储后的文献形态,大多数数据库就是电子版的书目。其多种检索途径又使它成为一部多功能索引。对它的研究90年代初期较少,而末期达到高峰,至今不减(见表2)。
1.3 文献标引研究
文献标引是揭示文献的途径,书目和索引的编制都离不开它。书目标引在于揭示群书篇目,索引标引所揭示的包括文献提名在内的各种知识点。在标引技术上没有本质区别,对它的研究一直是常见的选题。10年来研究文章比较多(见表3,不包括图书馆分类、编目所涉及的标引问题)。计算机技术大规模运用书目和索引编制以来,讨论自动化标引技术的文章越来越多,说明我国文献处理技术的研究已跟上世界发展的趋势。
表3 文献标引研究情况(按《全国报刊索引》报道时间统计)
年 代 1993 1994 1995 1996 1997 1998 1999 20
00 2001 2002 共计
总 共 28 39 34 26 46 64 48 28 50 39 402
传统理论 22 36 29 21 42 49 36 16 33 29 313
自动化标引 6 3 5 5 4 15 12 12 17 10 89
1.4 文献检索语言研究
检索语言是人与文献对话的媒介,没有这种语言就无法做到文献规范化处理,就无法与文献沟通。特别是计算机技术运用以后,检索语言成为人机对话的途径。检索语言是具有一定规范标准的人工语言。例如《中国图书馆图书分类法》、《汉语主题词表》、以及各种形式的“关键词表”、“著者号码表”等。如今人们又提出用自然语言标引和检索计算机整理的文献,研讨热烈,有许多文章颇有见地,代表了检索语言的方向。如何在网络环境下进行文献检索的探讨日益见多(见表4,数据不包括图书馆日常使用的分类法、主题法等)。
表4 文献检索语言研究状况(按《全国报刊索引》报道时间统计)
年 代 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 共计
总 共 15 37 25 16 41 29 25 35 37 19 279
传统理论 15 35 24 15 38 25 21 27 29 11 240
自动化语言 0 2 1 1 3 4 4 8 8 8 39
相关学科研究的强劲势头,是索引研究和编制的必然结果,是索引研究实用化的反映,也是索引科学与各学科交叉和融合的结果。它告示我们对应用科学理论的探讨更应注重于实践。
2 索引研究发展曲线描述了电子技术应用文献流通领域的历程
10年中,关于索引编制、书目编制、书目数据库、文献标引、检索语言等研究,都经历了低→高→低的波动。驼峰从1995年开始至1999年,峰顶在1997-1998年。这正是以计算机为主体的现代电子技术在文献出版、存储、流通各环节普遍应用时期。计算机网络已成为人们实际使用的文献形式。其功能齐全、传播速度快、存储量大、收藏丰富、检索方便,准确率高,都是纸质文献所不及,有替代书本式文献之趋势。在人们心理(接受新生事物)、生理(适应并掌握操作技术)上产生了解、掌握、运用的欲望,因此关于新技术运用的研究探讨是必然现象。这种研究的热化,势必对传统理论形成冲击。但也要经历由浅入深、由一般介绍到深刻研究的进程。随着新技术的普及和运转稳定后,该方面研究就会减少,因而形成曲线。这个曲线记录着计算机及其网络技术在文献流通领域应用的历程。
2.1 计算机技术应用对传统索引理论研究的冲击
1994年研究索引理论的文章最多,随之逐渐减少(见表1)。与研究数据库建设、文献标引技术和检索语言的文章从1997年逐渐增多形成反差。形成这种反差的原因,就是学术界对计算机技术在文献流通领域普遍应用的反映与研究探讨。1994-1996年是这类研究的酝酿、写作、发表周期。传统理论逐渐减少合乎学术研究发展趋势,但“0”发展不正常,重视一种研究而忽视其他研究的倾向不可取。传统索引编制理论是一切新索引编制和索引形式的理论基础,对其研究不可轻视。
2.2 书目数据库研究的发展曲线(见图1),明显表明计算机及其网络在图书馆和其他文献传播行业中运用的过程
关于数据库研究的文章始见于80年代末90年代初,主要以介绍其功能作用为主。随着计算机在文献流通领域普及速度加快,文章数量开始增多,探讨数据库编制、检索以及制作技术等方面内容。1995年以后研究文章开始骤增,标志着计算机在以图书馆为主体的文献流通领域大规模应用。之后的三四年是计算机及其网络技术普及应用的高峰,至90年代末基本稳定,于是研究的文章相对减少。
附图
图1 文献标引、检索语言、书目数据库研究情况示意图
2.3 文献标引的研究与检索语言的研究相依共存,都是揭示文献的方式和手段
检索语言是人与文献载体(印刷体、电子形式等)沟通的语言,通过这种语言或代表这种语言的标识符号,把文献主体概念及其他有检索意义的特征表示出来,作为文献存储和检索的依据。没有检索语言,标引无法做到。不进行标引,检索语言便毫无用处。这是索引编制的重要途径。尤其是计算机技术应用于文献整理后,这两方面的研究尤为需要。从图1可以看出,研究的高峰恰恰也在计算机技术普遍应用时期,表明了学术界对文献标引及其检索语言编制的重视,同时也反映出这些学者与时俱进的学风和进取精神。计算机应用是索引理论研究史上最重大的事件,它不仅随着文献载体转变而变换其形态,而且关系到编制方法、操作过程等环节的改革与创新,更重要是索引编制的观念必须改变。这是索引编制史上一场重大的革命。
3 索引理论研究步伐不大但视野开阔
索引研究在众学科中是小字辈,成果相对较少。研究内容大都属于功能介绍、编制方法等探讨。随着科学研究深入 发展,人们对文献需求广泛,索引理论研究便向着多元化、专深化发展。特别是新型文献载体的出现,开阔了索引理论研究的眼界。人们从多角度多方面探求揭示文献的途径,10年来总体研究步伐迈得不大,但研究视野比以前开阔了许多,这本身就是索引理论研究的进步。
3.1 总体趋势是传统理论研究在减少,但反映的是对新形势下索引研究的呼唤
索引理论研究在90年代还很稳定。表1中1993-1999年间研究文章数量起伏不大,而且较多。说明我国学术界中有一批学者在关心索引事业的发展。在这较好的氛围中,中国索引学会功不可没, 组织学术研究,与国内外学界交流互通,做了许多 工作。在90年代中期,中国索引学会编辑了《索引研究论从》丛书,包括《索引的昨天与明天》、《索引技术和索引标准》、《论索引和索引方法》、《报纸索引和新闻数据库》、《索引编制自动化》5个分册,共收 论文114篇,聘请相关专家撰写了有关索引编制原理及自动化编制技术、文献标引及自动化标引技术、检索 语言编制及 计算机语言识别技术、书目数据库技术等方面的论文,论及问题之深,引用资料之多,学术见解之新,是索引理论研究多年未曾有过的,为中国索引理论发展起了导航作用。但近几年研究文章骤减的状况应该引起学术界注意,反思以往的研究是否适于新形势、新局面的需要,如何尽快改变传统观念,建立起新技术研究体系等,为 网络 环境下索引事业的发展奠定基础。
3.2 索引研究视野逐步扩大,适应了科学技术发展的大趋势
10年间报刊上共 发表研究索引编制理论的文章203篇(这个数字是按原始文献发表时间 统计),内容包括索引编制的一般理论、自动化编制、国外索引编制、各种类型索引研究、索引史研究、对著名索引学者和编制机构研究、索引专著研究、各种检索工具索引编制、古籍和现代著作索引编制等(见表5)。一般理论研究只占31.5%,其他专门研究占2/3还强。在64篇理论文章中谈功能作用类27篇,编制原理类26篇,论索引事业发展8篇,对中外索引编制理论进行比较研究的3篇。从各种角度来研究索引编制,反映出索引研究的生命力,能够适应科学技术进步而发展。
表5 1993-2002索引理论研究分类状况(按原始文献发表时间统计)
项 一般 自动 国外 索引 学者 索引 索引 检索 古籍 现代 总
目 研究 化 索引 类型 机构 史 专著 工具 索引 著作 共
数量 64 12 13 62 6 7 22 10 3 4 203
3.3 索引类型的研究数量较多,表明了索引学仍是一门实用科学
只要社会需要文献就有使用索引的要求。不论什么时候索引都是使用文献最便捷的途径。研究各种类型索引编制的文章62篇,几乎占1/3,论述了10多种索引的编制(见表6)。虽然平均文章不多,但反映出学术界给予的关注。这些索引功用不同,但都是人们所需要的。
表6 类型索引研究情况(按原始文献发表时间统计)
附图
3.4 计算机技术趋于稳定后,自动化方面的研究会减少,而研究索引类型、为学术著作编制索引会增多
新文献载体出现,文献利用形式发生变化,对这方面的研究必然要出现,但一旦普及并趋于稳定后,介绍或说明性文章就会减少,而逐渐转向深层次探讨,文章数量就要下落。研讨数据库文章逐渐减少就是例证。而在书目编制、文献标引、文献编排、检索语言等领域自动化研究逐渐增多则表明人们正在摆脱一般理论的研究,转向实用理论、专门编制方法的探讨。这也是计算机技术从应用到理论研究进展的过程。因此研究计算机应用于具体领域的文章会逐渐增多,逐步加深。
3.5 对索引史、索引研究与编制方面有贡献的学者或机构的研究逐渐减少,而对索引著作和检索工具索引编制研究的增多,反映出学术界更重视索引应用理论的研究,重视索引检索功能的探讨
虽然近3年这方面研究出现空白,但是暂时现象,是由于文献载体变换中出现的调整期。当计算机技术运行稳定后,由于机编速度快、抽词准确、编排规范等优点,节省大量编制成本和人工,势必会出现编撰索引的高潮。包括为古今中外各种学术研究而编制索引。索引成果不一定是印刷型,但功能一样。
只要文献功能没有消失,索引作用就不会消亡。从索引功利性能上讲,计算机在文献领域里广泛运用,为索引编制开辟了无限光明的前景,以往可望不可及的鸿篇巨著的索引编制,如今可能在俄倾之间,轻松愉快之中成就。文献使用步入了崭新的时代。
4 走出“理论”的困惑,建立大索引观,放眼于索引的实际应用
索引是“完备文献”的重要组成部分,“完备文献”应该是既有原始文献又兼有检索工具,使用起来非常方便。索引就是检索工具,依附于文献而存在。如今文献形态发生了巨大变化,索引研究也要洗心革面,使其适应新形势下人们对文献的需求。就索引研究的现状有几方面应引起我们重视。
4.1 应突破传统观念的束缚,树立创新思维
深刻研究当今人们利用文献的特点,研究计算机及其网络发展对文献传播的影响,网络环境下人们对文献使用的需求,以使索引编制适应人们未来利用文献的需要。索引理论研究既要适应文献形式变化,也应符合人们对所用文献的了解认知、心理适应和使用习惯。不能固守传统理论不放,理论与实用脱节,而失去指导实践的意义。建立创新思维,不能指望在短时间建立一套完备的新理论,应该树立新的思维方式方法,敢于创新,敢于超前,以社会需求为研究目的,充分发挥索引在揭示文献上的作用,为文献利用提供快车道。
4.2 冲破“太平研究”的藩篱,增强其理性探索
现在许多研究是以发表文章为第一需要,所以在理论探讨上,都愿说“套话”,打“贯腔”,生怕新东西叫不准,新提法不被编辑认同,因此众云亦云,以求太平。还有个倾向,不论什么样内容都把它写成“理论”型,带有“理论”味,把特征、规律、功能等大谈一番。这实不可取。理论研究就是为了解决实际问题,不要拘于一定的形式,内容深浅皆可,只要论述明白一个问题就是好文章。索引是一门实用科学,应注重编撰技术的研究与探讨。可在10年中关于书目、索引编排技术(不包括图书馆目录组织)的研究只有44篇(见表7),这个数量是讨论索引编制和书目编制理论314篇文章(见表1、2)的14%,占这次在《全国报刊索引》查阅1 247条信息的3.5%,表明对编制技术方面的忽视。重“理论”,轻技术,是理性不足的显现。反映出业界习惯于约定俗成的运作,不善于开发与创新。
表7 关于书目索引编排技术研究(按《全国报刊索引》报道时间统计)
年代 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 共计
总共 4 2 5 5 3 6 2 6 2 9 44
传统 3 2 3 4 2 3 0 4 1 2 24
自动化 1 0 2 1 1 3 2 2 1 7 20
4.3 相当研究人员对先进技术了解不足,对索引未来发展认识模糊
表1中研究传统理念数量与研究自动化编制之比为216:10,不能不说明学术界对新技术反映生疏。许多选题和论述,都不谈计算机运用于文献整理后产生的影响,而谈那些已被许多人谈过的问题。这是因为对新技术运用不甚了解,自然就不会对未来发展有清醒认识。90年代初期计算机在我国应用较少,而西方先进国家已大规模使用,这时理论界就应有个介绍的高潮,可实际上这种文
章很少。说明我国索引界对新技术应用反映不够,学术研究相对滞后。这种局面必须改变,不然的话我们索引研究与编制就会落伍,就会影响国家和民族科学文化事业的发展。
4.4 首先要深刻了解日新月异的新技术带来的挑战,需要我们不时地更新、探索、追求,才能跟上时代的步伐,才能为文献充分服务于社会保驾护航
要根据新形势下社会对文献的需要,开发出实用性强的索引产品,为社会服务。索引研究和编制要因时、因书、因人、因社会需求而宜,真能如此,社会怎不认同。
4.5 理论研究要与时俱进,与实践相结合,以社会实际需要为前提
对于原理的讨论是必须的,而专门编撰理论的研究更为重要。索引编制不顺应时代,脱离实际需求,就分文不值。要形成良好的研究氛围,建立需求→研究→新需求→新研究的机制,研究有针对性也就有了生命力。编制方法有了科学性,索引成果就会产生很大的社会效益。
4.6 树立大索引观,开阔研究领域,为振兴国家的科学、技术、文化及经济建设服务
一不能把眼光局限于印刷型文献,虽然电子型文献目前人们不常见,但它终会成为文献主流载体,所以要加强数据库检索方式方法研究的力度,使电子文献更科学的为人们服务。二不能只重视社会科学方面文献的索引编制,要把眼界扩展为流通于整个社会的文献,比如经济建设、工业生产、商业服务业等方面,凡是能通过整序而流通于社会的文献,或者说通过整序后有利于社会流通的文献,都应该纳入我们的视野。比如产业名录、商品名录等。三要注重与索引研究交叉学科的研究,这些学科间研究目的相近,技术相关,功能相连。诸如文献的分类、编目、标引、校仇、考证以及数据库制作技术等。虽然整理目的不同,但许多技术相近,可以相互利用,共同完成文献的揭示与整理。
4.7 中国索引学会应加强力量引导学术研究
除组织学术活动外,更应该在索引理论研究方向上起导向作用,介绍世界上先进的编制技术和索引研究动态,引进成果,翻译有影响的学术著作,加强学术交流,使社会各界了解索引的新发展。学会也应吸收工商界有关技术人员参加,使索引研究更加实用化,直接与工农业生产和国家的经济建设挂钩,更好地服务于国民经济建设。
总之,10年来索引研究有喜也有忧,忧中也有喜。喜,研究成果颇丰。忧,后几年传统研究滑坡。滑坡的原因是社会对新技术广泛应用的关注,人们要有个了解熟悉的过程。在这个过程中,人们会对传统技术进行重新审视、评价、借鉴并与新技术融会。后几年传统研究减少就是新旧技术融会调整的时期。今后定会出现个新理论蓬勃发展期,因此忧中又有喜。让我们做好理论准备,迎接新索引编制高潮的到来。
【参考文献】
1 《全国报刊索引(哲社版)》,1993-2002年
2 侯汉清主编.索引技术和索引标准.北京:北京图书馆出版社,1997
3 葛永庆主编.索引的昨天今天和明天.中国索引学会出版.1994
4 葛永庆主编.论索引和索引法.中国索引学会出版,1994
5 葛永庆主编.索引工作自动化.中国索引学会出版,1994
6 葛永庆主编.报纸索引和新闻数据库.中国索引学会出版,1999
有关计算机文献检索论文推荐: