英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料
基于主题的智能爬虫
Hossein Shahsavand Baghdadi和 Bali Ranaivo-Malanccedil;on
马来西亚多媒体大学信息技术学院,马来西亚Cyberjaya
摘要:网络已经在增长,现在它是世界上最重要的信息来源。然而,搜索Web是一个重要的问题,在许多领域,如Web挖掘。基于主题的智能化爬虫是一个集中的爬虫,将相关页面下载到种子页面上。如果他们主题相似,页面将被认为是相关的。TIC是一个具有识别能力的爬虫页面的主题自动地决定它们之间的相似性。一个完整的周期这个过程包括四个主要阶段。首先,我们需要识别与种子页关联的集线器页。之后,我们应该清理种子和它的集线器来提取纯文本信息。第三步是识别。每个页面和最后一个活动的主题是找到与种子页面类似的主题的集线器。
关键词:HTML;爬行;话题
1介绍
虽然Web的发展在信息技术领域出现了许多问题,但它也意味着人类的几个问题。网络上大量的信息需要特殊的手段。搜查。因此,不熟悉该媒体的用户和应用简单方法查找他们的需求可能不容易满足。在这项工作中,我们打算提供更好的搜索和易于使用的工具爬网。
基于主题的智能爬虫(此后称为TIC)是一种允许用户使用的集中爬虫。基于主题相似性,从种子页面下载并分类相关页面。鉴定主题是自动完成的,因此用户只需提供一个种子页面,并将在处理相似的页面。在这篇文章中,我们用“话题”这个词来表示内容。文本的主题不同于标题,它也是一个术语序列,而代表一个名称。工作并没有必要代表这项工作的内容。
根据页面标题查找页面之间的相似性不是一个精确的方法,因为页面的标题是并不总是代表它的内容。因此,更准确地处理文档的主要主题为确定这种关联性。另一方面,网页主题的识别也存在一些问题。首先我们正在处理的问题是清理HTML并从中提取明文。
今天,大多数网页都是HTML格式的,包括许多不同的部分,如主文本,链接、广告等。因此,识别页面主题所需的唯一部分是主文本。自从那里对于一个文本文档,通常不止一个主题是相当重要的,我们需要执行一个算法。确定每个网页的主要主题。认清主要话题是我们应该解决的第二个问题。地址。虽然有几种可用的方法来识别一般文档的主题,但是他们在HTML页面上为了识别主题需要进行一些修改。
爬行相关页面是一个很好的任务,可以帮助那些正在爬行的人。为特定的目的而工作,需要收集特定区域中的相关页面。TIC提供它们这样的设施和收集类似的网页通过考虑他们的主题。正如前面提到的,主题代表文档内容,可以作为文档相似性确定过程参与。因此,首先可以识别文档主题,然后根据它们的相关性来决定它们的相关性识别主题。
在TIC中,我们通过去除不相关的标签和提取来启动种子页的爬行周期。主要信息为纯文本格式。HT2X[mL][1]是我们用来清理HTML文件的工具。在清洗种子后,我们尝试用改进的陈算法识别种子主题[2]。然后我们对所有种子的集线器页执行相同的过程,并提供种子主题列表以进行比较。在语义相关方面,使用LSA技术。最后,我们存储了类似的主枢纽主题是枢纽的主要话题。
本文的其余部分结构如下。在第二节中我们调查了一些相关的作品。TIC的部分。第三节包括我们来开发TIC的方法。在第四节中我们解释了关于TIC实现的细节,在第五节中我们解释了TIC的评价和我们的结果实现。在第六节中,我们提出了一些提高电流的可靠性和准确性的方法版本的抽搐。最后,第七部分是对本论文的总结和总结。
2相关作品
正常爬虫对用户确定的关键词敏感,基于那些关键词。如果链接到Sead页的页面包含这些关键字,则它们将被下载。如果他们不这样做,他们就会被拒绝。这种方法是不准确的,错过页面包括一些反义词或相关语义。另一方面,确定有效的关键字并不总是一个简单的任务,不能由所有的用户来完成。
针对特定目的创建了焦点爬虫,并且尝试不下载无关页面。聚焦爬虫在目标和方法上都是不同的。然而,几乎所有的聚焦爬虫都在寻找对于相关的页面,这种关联有着不同的含义。
实例,提出了[3]聚焦爬虫。他们被称为“鲨鱼应用年算法搜索算法”,是一个改进版本的鱼搜索算法提出的[4]。他们用话题相似性研究向量空间模型[5] 并为URL创建参数订购过程。他们做了比较主题关键词和网页内容,并确定它们之间的相似性。事实上,如果下载了带高重量相似页面,页面及其嵌入URL将评估与该主题相关的内容。这个相似性权重由两个部分组成:内容相似性,来自网页和锚的内容。与页面URL相关的文本相似度及其与页面主题的相似性。
3 TIC的步骤
TIC有一个完整的爬行循环的主要步骤。这些步骤描述如下:查找具有正则表达式的当前页面集线器。
爬行过程从HTML种子开始。在将其视为当前页之后,TIC尝试提取其集线器。为了做到这一点,我们使用正则表达式(RE)。在HTML中,所有URL都以嵌入式的形式嵌入。属性通过“HREF”名称和使用RE使得我们能够提取所有的“HREF”属性。通过使用这个过滤器,我们能够识别包括链接的所有标签。所以这个部分的输入是一个HTML文件和输出将是HTML中所有嵌入的链接。在提取这些URL之后,我们将它们保持在队列中在下一步骤中使用。
3.1用HT2X[mL]清理HTML文档
为了识别页面的主要主题,我们需要每个页面的纯文本。HTML标记了数据,而不是提供纯文本。因此,我们需要清理HTML以提取纯文本。HT2X[mL][1],是复杂的HTML转换器将HTML标签转换成XML和纯文本格式。就产量而言格式,HT2X[mL]有两种不同的输出格式:XML和纯文本。因为XML是一个完全结构化的格式,适用于需要结构化数据,特别是数据迁移的目的。这里我们需要用明文来确定每个句子中最重要的部分。HT2X[mL]让用户选择他们需要的任何标签。它有很多可能的标签,用户只需要选择哪些标签感兴趣。此外,它还提供了自动选择重要标签的选项。在这种情况下,选择最有可能携带主要信息的TAG标签。标签如lt;Pgt;,lt;agt;或lt;bgt;这些标签的一些例子。在TIC中,我们设置HT2X[mL]来使用这个选项。
3.2用改进的陈算法识别话题
确定页面的主题是TiC项目中最突出的问题。有很多方法确定文档的主要主题。他们用不同的方法来解决这个问题,他们得到了各种各样的东西。结果基于他们的技术。陈算法[2]是最精确和最合适的方法之一。已用于抽搐。虽然该算法已提出识别一般文件,我们执行一些修改,以推动其准确性,使其适合我们的工作。[6]
通过HT2X[mL]清理HTML页面后,纯文本可用,我们可以执行修改后的陈算法。该算法有不同的步骤,需要一些工具。句子分隔符,Stemmer,斯坦福解析器是我们在主题识别步骤中需要开发的工具。
3.3文档相似性与LSA
TIC中的第二个问题是确定所识别的页面主题之间的相似性。这种相似性是用于对集线器选择部分中页面的相关性作出决策。LSA是技术我们曾经认识到这种相似性我们在LSA中创建最终的矩阵并选择它们的页面主要主题在这个矩阵中具有最大的价值。图1说明了TIC中的数据流。
4 TIC的实现
是微软的编程平台,创造新的应用程序。NET是一个可视化编程语言,让程序员使用各种各样的视觉组件来创建一个正确的界面与终端用户进行有效的互动。另一方面,它提供了安全的能力。
通过模块通信,实现不同的软件体系结构模型。
VisualStudio.NET是一个编程平台,支持多个编程语言的语法。Visual Basic,C和java。实际上,.NET有一个中间代码,并将所有输入语法转换成这个代码。然后将其转换成机器语言。TIC由于其强度在VB.NET语法中被编码字符串处理与所有由.NET开发的软件一样,TIC也可以在微软上运行Windows操作系统。
图1中TIC的数据流
主要架构已用于开发TIC,是分层架构。TiC有三个主要层分离不同种类的任务。这三层是UI(用户界面),与用户交互,BOL(业务对象层)执行主要计算、例程和实用程序,它们被用作一个伟大的工具。图书馆要做一些具体的工作。
UI层是用户和BOL之间进行正确交互的接口。所有输入和设置应该由这个层设置。此外,可以通过UI监视输出。BOL层包括所有处理与爬行过程、主题识别和确定相似性相关联的例程。这个BOL由四个独立的类组成:C处理器、C TopICIX识别器、C LSA和C变量。通用层由两个主要引擎组成。第一个是一个HTML分析器,它接受它的URL作为输入。结果将是一组解析的节点。这一层的第二部分是NLP工具,包括一个区块、标签、语句分隔符和斯坦福解析器。该模块通过API技术调用Antolope DLL文件。图2说明TIC中的层模块和体系结构。
5 TIC的评价
主题标识符是TIC中最突出的模块之一。主题标识符代表所有函数,模块和数据类型创建了一个用于标识网页主题的部分。事实上,主题标识符应该能够确定一个术语流作为任意网页的主题。我们的方法
用于评价主题标识符是人为结果对机器结果。我们随机选择了200个维基百科的页面,并通过TiC比较浮雕主题和识别主题。通过这种比较我们发现,在20%的情况下,这两个主题是完全匹配的。66%,他们是部分匹配的。在14%页的主题是不同的。图3显示了本实验的结果。细节
实验可在以前的出版物中获得。〔6〕[6]
主题识别失败主要有三个原因。
5.1文件格式问题
通过对监视网格的简短观察,我们可以立即观察到大多数故障发生。对于一些不支持标记页的URL。TIC作为网络爬虫提取嵌入的所有链接在种子页面内部,将它们视为集线器页。但是,它们中的一些没有链接到页面。标记代码(.HTM,.html,.asp,.php),并携带其他文件,如PDF或PNG文件的地址。在这些情况下,TIC无法提取任何文本信息,将不会有主题。
5.2语言问题
主题识别失败的第二个原因是网页语言。英语就是工作这个版本的TIC语言。因此,TIC中的所有模块和功能都在英语下运行。语言并不能识别其他语言的页面主题。添加语言未来的识别器模块,可以识别任何语言的页面主题。
图2层内部体系结构和模块间的交互
图3自动主题识别算法不同结果的百分比[6]
5.3HTML结构问题
主题识别部分失败的第三个原因是网页的结构。这是以前该主题代表了在文档中携带文本语义的术语流。如果网页不包含任何文本呢?为了说明这一点,有些页面没有段落文本。包括一些图片和链接,或者只是一个单词列表。在这些情况下,将没有正文文本来提取和确定他们的话题。
在时间分析方面,一页的平均处理时间为15742.5毫秒。从200个随机页面获得。正如前面所提到的,许多因素影响着时间间隔。时间网页中嵌入文本的数量和互联网连接质量是最显著的。可以改变抽搐间歇时间的因素。
6 讨论与未来工作
作为所有其他应用程序,TIC都有一些限制,降低了它的可用性。这些约束条件中的一些前一章已经讨论过。显然,消除所有这些问题或某些问题可以改善TIC的可靠性,使其更适用于用户。以前,我们提到了三个主要限制TIC:语言问题,结构化的HTML问题,同义词问题。
当前版本的TIC只能处理英文页面。这种限制是从NLP工具中出现的。只能处理英文文本。为了解决这个问题,我们考虑了两个问题。在第一方法,我们可以使用能够用其他语言处理的模块。关于电流的下一个问题TIC是结构较差的HTML文件。HTML有一个标准来指示标签和它们的用法。根据这个标准,例如,每页的正文都应该嵌入到lt;pgt;标签中。表示段落概念。所有HTML作者都应该遵循这个标准来创建他们的网页;然而,有时他们不这样做。在这种情况下,我们将面对HTML页面。浏览器预览但不能通过TIC处理。同义词是另一个问题,它减少了TIC的准确性和可用性。正如前面章节所描述的,在确定主要主题之后对于种子和集线器页,TIC试图确定所标识的主题之间的相似性。本版本TIC基于话题之间的共同词汇做出决定。然而,有时话题没有任何共同的词,但它们具有相同的语义。这个问题可能是由同义词引起的。到说明它,动词“买”和动词“购买”有着完全相同的意思,但TIC无法识别。它们之间的同义词。为了解决这个问题,我们可以使用一个词汇数据库,这样我们就能找出答案。词之间的同义关系。
7结论
TIC是一个重点爬虫,它将帮助用户尽可能轻松地抓取相关页面。唯一用户需要提供的东西是第一个网页的URL作为种子页面。抽搐决定主题(不是标题)的种子和所有枢纽页链接到种子页。然后下载所有相关的页面主题相似性研究。
为了达到这个目的,TiC利用了一些工具和技术。它首先提取关联的URL。通过正则表达式使用种子页面,然后尝试通过HT2X[mL][1]删除不相关的标签,这是一个复杂的HTML转换器。在提取纯文本信息之后,TIC尝试识别Page的主题通过改进的陈算法[2]。这种新的算法是基于加权块和45将大多数加权块确定为网页的主题。在识别种子和所有轮毂的主题之后Page、TIC通过LSA确定与种子主题相关的最重要主题的集线器页面并将它们存储为输出。这个过程是一个完整的爬行循环,可以按照用户想要的迭代次数。考虑以前的集线器页面作为一个新的种子。
在.NETFramework中实现了TIC。HTML解析器是用C语言和其他语言开发的。部分采用VB.NET语言实现。层架构已被用于三个组成的TIC主要层。用户界面(UI)、业务对象层(BOL)和实用工具是TIC中的主要层。
我们改变了选择的元素是陈的算法,选择了NPS而不是名词和头动词代替动词。在这一部分中,我们实现了86%个匹配(用于全部和部分匹配)200个来自维基百科的随机页面。
8参考
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[23707],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。