【资料】通过模式发现从半结构化网页中自动提取信息
2021-03-16 12:13:18 Author: mp.weixin.qq.com(查看原文) 阅读量:39 收藏

【摘要】

毫无疑问,现在万维网是最丰富,最密集的信息源。然而,其结构使得难以系统地利用该信息。本文提出了一种用于快速生成信息提取器的模式发现方法,该方法可以从半结构化Web文档中提取结构化数据。包装感应的先前工作目的是从用户标记的训练示例中学习提取规则,但是,在某些实际应用中这可能会很昂贵。本文介绍了IEPAD(Information Extraction based on PAttern Discovery首字母缩写),该系统无需用户标记的示例即可从网页中发现提取模式。IEPAD应用了多种模式发现技术,包括PAT树,多个字符串对齐方式和模式匹配算法。由IEPAD生成的提取器可以在同一Web数据源中看不见的页面上进行概括。作者根据经验评估了IEPAD在从14个实际Web数据源进行的信息提取任务中的性能。实验结果表明,借助从单个页面中发现的提取规则,IEPAD可以实现96%的平均检索率。

信息提取的问题是将文档的内容转变为结构化的数据,从网页提取信息的问题是将信息提取应用于网页。信息提取产生的结果化数据可以用于后续处理,这对于文本挖掘的许多应用是至关重要的。因此,从网页提取信息是实现内容挖掘和许多其他网络智能应用的关键

上图包含了来自搜索引擎关于“基因组”的搜索结果,目标是将这个网页的内容提取成结构化的数据记录,如图中的方框所示。在这个例子中,这个网页有四条记录,每条记录包含三个数据属性:标题、内容和URL。然后,这些结构化的数据可以输入到其他应用中。

半结构化网页布局对于不同的网站来说是独一无二的,几乎没有一个通用的语法可以描述所有可能的布局格式,因此我们可以对所有的半结构化网页有一个提取器。因此,每种格式都可能需要一个特定的提取器,这使得手工编程提取器不切实际。

之前游戏快速生成提取器的方法,利用机器学习技术为每个网页数据源生成一个专门的提取器。但是提取器的生成需要人工标注/注释作为训练样本,并且对于每个新的网站,必须收集一组新的标注训练样本。

本文设计了一种模式发现算法,它可以应用于任何半结构化的网页,而无需训练实例。这个大大降低了提取器的构建成本。

【作者】

张家辉

台湾国立中央大学计算机科学与信息工程系

电话:+ 886-3-422-7151分机35302
传真:+ 886-3-422-2681

徐春南

中国科学院信息科学研究所

吕少成

中华电信实验室

原文PDF文档和翻译已上传知识星球


文章来源: http://mp.weixin.qq.com/s?__biz=MzI2MTE0NTE3Mw==&mid=2651121470&idx=1&sn=fd7f27ba7feb482ddae6f1bc86c055d0&chksm=f1ae9004c6d91912201eff9dbe78c5e7040391730a9d87b5e92826032058efd17dd4ac5be57c#rd
如有侵权请联系:admin#unsafe.sh