当前位置: 首页 > 系统教程 > SEO教程 > 详细页面

检索技术之文本转换中的解析器与停用词去除

时间:2017-08-11 11:48来源:W.Bruce Croft 作者:admin

检索技术之解析器

解析组件负责处理文档中的文本词素序列。以识别文档中的结构化元素,如标题、图表、超链接、和首页文字等等。词素切分是该项处理的第一个重要步骤。有时候,词素和词是等同的。文档和查询中的文本必须以同样的方式转换为词素,这样它们之间可以相互比较。对于一个词素会得到多种结果,这会潜在地影响到检索,因此词素切分是一项很有意义的任务。例如,词素的简单定义是由空格分开的字幕与数字构成的字符串。然而,这并没有告诉我们如何处理那些特殊的字符,如大写字母、连接符和单撇号。“apple”和“Apple”是一样的吗?“on-line”是一个词还是两个词?“O’Connor”中的单撇号可以看作和所有格是等价的吗?在有些语言中,词素切分的问题更加有趣,如中文、中文里没有像英文那样明显的词之间的分隔符。
文档结构通常由HTML、XML等标记来指定。HTML是用来指定网页结构的缺省标记语言。XML相对来说更加灵活,是许多实际应用系统中使用的数据交换格式。文档解析器使用标记语言中的句法知识来识别文档的结构。
HTML和XML都使用标签来定义文档的元素。例如:<h2>search</h2>定义“Search”是HTML文档中的二级标题。词素切分时,标签和其他控制序列必须进行相应的处理。其他的文档类型,如电子邮件和讲稿,由指定的句法和方法来规范文档的结构,但大部分对这种文档的处理是在转换组件中删除或简化。、

检索技术之停用词去除

停用词去除组件具有简单的任务,从那些成为索引项的词素序列中删除常用词。最常用的词是一些典型的功能词,这些词有助于构成句子的结构,但对于描述文本所涵盖话题的贡献很小,如the、of、to、for。中文类似 这个、那个、的、了、呢、吗。由于它们用的太普遍,去除这些词可以相当大程度地减少索引的大小。排序取决于所采用的检索模型,但停用词去除对搜索引擎的效果没有任何影响,甚至可能会有所改善。尽管停用词去除有这些潜在的优点,但很难确定停用词表中应该包含多少个停用词,一些研究中使用的停用词表包含几百个停用词。使用停用词表的问题是,用户如果提交查询“to be or not to be”,搜索引擎不可能返回搜索结果。为了避免这样的问题,搜索引擎系统在处理文本的时候,可以使用一个很小的停用词表(可能仅含有一个停用词),但在对于查询文本进行处理的时候,则用一个较大的停用词表。

上一篇:SEO教程之文本采集的概念

下一篇:没有了