范文写作网 > 计算机网络毕业论文 > > 谈论引文分析方法的网络化发展和应用(2)
计算机网络毕业论文

谈论引文分析方法的网络化发展和应用(2)

摘要:由于这种排序思想主要建立在网页链接分析的基础上,不仅独立于网页的和内容,而且不需要人工干预就能自动发现Web上的重要资源,因而提供了一种衡量网页质量的有效方法。 PageRank算法的研制和应用不仅为Coogle赢得
关键词:谈论,引文,分析,方法,网络化,发展,应用,论文,关键词,引

皇后进宫演员表,精凌岭,美少女特攻队下载


  由于这种排序思想主要建立在网页链接分析的基础上,不仅独立于网页的和内容,而且不需要人工干预就能自动发现Web上的重要资源,因而提供了一种衡量网页质量的有效方法。
  PageRank算法的研制和应用不仅为Coogle赢得了巨大的成功,而且迅速催生了一系列类似的排序算法,例如用于博客搜索结果的PeopleRank算法、在网络自由分类法使用过程中的UserRank算法、TagRank算法和FolkRank算法等。其中,PeopleRank算法主要基于博客用户之间的联系(具体联系方式包括好友链接或朋友列表、博文阅读、回复与评论等)来自动发现重要的博客用户,并依此作为博客搜索结果排序的一个重要因素;UserRank算法的提出,主要用在基于自由分类法的检索结果显示时,要求按照提出被认可标签的数量多少对用户进行排序;而TagRank算法则是基于UserRank的标签排序;至于FolkRank算法的排序机制,则又整合了UserRank和TagRank,认为由重要用户标注的重要标签下的资源是重要的(且用户和标签拥有同等地位),并以此作为自由分类法检索结果的排序依据。所有这些衍生的排序算法,其基本思想(或出发点)都与PageRank算法是一致的,只不过应用场合不同,链接分析的对象也由网页换成了博客用户、标签用户、标签等。
  
  4、网络引文索引工具的研制与使用
  
  随着学术研究、信息交流与等活动的日益网络化,传统的引文索引工具已无法适应e-Science时代引文分析的研究需求。为此,各种网络化引文索引工具的编制逐渐被提到议事日程,并在当前的引文分析研究工作中逐步获得应用。
  1998年,第一个网络引文索引CiteSeer开始研制,并于1999年正式投入使用。2004年,CiteSeer更名为CiteSeer.IST。作为一个主要面向和信息科学领域学术资源的网络引文索引与检索工具,CiteSeer主要基于自动引文索引(Autonomous Citation Indefing,简称ACI)技术编制而成。其主要编制步骤是:①使用多个搜索引擎,基于关键词对网络中的学术性文献资源(主要是PostScript和PDF 2种格式的学术论文)进行自动搜索和下载,并通过检查是否存在参考文献或书目来确认其是否为学术性文献;如是学术性文献,则对其进行文本转换和识别,建立全文索引。②从文献中自动识别、抽取引文信息,包括引文(即上下文)、引文子字段等,特别是对以不同格式标注的相同引文进行归类处理。③采用多种文献相似性测度方法,对相关文献和相似文献进行自动识别。在运用ACI先进技术的过程中,CiteSeer的编制还充分借鉴、结合了传统引文分析研究中对文献之间引用和被引用关系的揭示方法,因此在为网络用户提供访问和检索使用时,CiteSeer不仅能够返回一个与检索请求相匹配的结果文献列表,而且对列表文献中包含的引证与被引证关系建立了全面的关联链接,以方便用户对检索结果以及文献引用与被引用数据的查看和跟踪。
  针对网络学术论文的特点,CiteSeer主要提供以下3项特色的文献引文服务功能:①引文上下文(con-text)信息显示,把文献中引文出现位置前后的若干词组或句子以粗体字标注出来,使用户不需阅读原文就能直接获知引文被引用的上下文环境。②相关文献揭示,具体包括基于语句分析的相似文献、基于文本分析的相似文献、动态相关文献书目(Active Bibliogra.phy)和基于共引关系的相关文献(Related Documentsfrom Co-citation)等不同方式。③引文图,以图形方式直观地显示文献被引用的时间分布状况。
  目前,CiteSeer可在线查询和获取的学术资源数量已接近100万。与SCI、SSCI等传统引文索引数据库相比,CiteSeer在全文可获得性、全面性、及时性、费用等方面都具有明显优势。例如,一旦有学术性文献在网络上出现,就能自动进行搜索和索引,并把包括预印本、技术报告、会议录等不同类型学术文献的引证关系考虑进来;提供免费的网上服务,极大地发挥了引文索引的文献检索和评价功能;一些附加的网络服务(如论文修正(correet)链接功能等)可以链接到讨论区,及时查看相关的评论、综述以及新的研究成果等。
  除了秉承E,Garfield博士引文分析思想编制的CiteSeer引文索引工具外,2004年由著名搜索引擎Coode推出的学术搜索服务——Coogle Scholar,也成功引入了引文分析方法。其中,它提供的一大功能亮点——引文链接服务,就主要建立在引文分析基础上:通过自动分析和摘录学术文献的引文信息,并将它们作为搜索结果的一部分单独组织;当用户查看搜索结果中的相关文献记录时,点击“Cited by”功能即可搜索到其所有的引用文献信息,而且这些引用文献信息不仅来自各种数据库的存储内容,还包含了在图书和各类非联机出版物中的引用文献信息。
  与传统的引文索引数据库系统(SCI、SSCI等)相比,Coogle Scholar在多个方面拥有创新性功能。首先,在收录范围与文献类型方面,它不仅收录普通网页中的学术论文,还广泛包括来自学术出版商、专业学会网站、预印本库、机构库等提供的同行评议论文、学位论文、图书、预印本、文摘、技术报告等多种文献,内容覆盖、学、学、计算机科学等多个学术领域。此外,Open Archives Initiative中OAIster所包含的上百万篇论文也可通过Google,SiC Scholar进行查询,并可提供CrossRef链接服务。其次,在学术文献引用与被引用关系的揭示方面,Google Scholar不仅能反映学术期刊文献之间的相互引用关系,还能广泛反映学术期刊、书籍、预印本库、机构库、各类非联机出版物等多种类型文献之间的相互引用关系,使得文献相互引用关系网络覆盖的范围大大拓展。
  通过上述对CiteSeer和Google Scholar的分析不难看出,在当前的网络化数字科研时代,传统的引文分析研究工作急需突破和拓展,相应地,传统的引文分析工具也亟待完善。根据国内学者以Web of Science(SCI、SSCI和A&HCI的集成系统)和Google Scholar分别作为引文分析工具进行的实证研究和结果对照,未来的引文分析研究再单纯依赖传统的Web of Science等工具,将越来越难以获得全面、真实的引文数据,并会导致引文分析结果的严重偏差。特别是,随着网络环境下学术交流渠道的日益多样化和开放访问运动的蓬勃发展,这样的偏差将会越来越大。因此,可以说,当前以CiteSeer和Google Scholar为代表的新型引文分析工具的出现,一方面可看作是传统引文分析思想的网络化实践与应用;另一方面它们也为未来引文分析研究工作的开展提供了新的思路和工具基础。不过,在目前的状态下,不论是CiteSeer还是Google Scholar,要完全取代Web of Science,或者作为一种权威性的引文分析工具来使用,都还为时尚早。它们面临的困难或障碍主要有:①收录范围不明确;②覆盖的学术资源领域受限;③回溯年代短;④各学科开放访问运动发展的不平衡;⑤ACI技术与网络搜索技术的缺陷等。所有这些困难和问题,都需假以时日不断克服或予以解决。
  
  5、结语
    本文主要从三个方面分析讨论传统引文分析方法的网络化发展和应用。这些发展和应用成果不仅充分体现了引文分析思想的研究价值,也为未来引文分析工作的深入开展提供了新的探索方向和工具基础。作为一种独具特色的研究方法,期望网络环境下的引文分析能够日益完善,并不断获得理论上的创新和应用中的突破。