文 | 标点符 利用计算机将大量的文本进行处理,产生简洁、精炼内容的过程就是文本摘要,人们可通过阅读摘要来把握文本主要内容,这不仅大大节省时间,更提高阅读效率。但人工摘要耗时又耗力,已不能满足日益增长的信息需求,因此借助计算机进行文本处理的自动文摘应运而生。近年来,自动摘要、信息检索、信息过滤、机器识别、等研究已成为了人们关注的热点。 自动摘要(Automatic Summarization)的方法主要有两种:Extraction 和 Abstraction。其中 Extraction 是抽取式自动文摘方法,通过提取文档中已存在的关键词,句子形成摘要;Abstraction 是生成式自动文摘方法,通过建立抽象的语意表示,使用自然语言生成技术,形成摘要。由于自动摘要方法需要复杂的自然语言理解和生成技术支持,应用领域受限。,抽取式摘要成为现阶段主流,它也能在很大程度上满足人们对摘要的需求。 目前抽取式的主要方法:
2007 年,美国学者的论文《A Survey on Automatic Text Summarization》(Dipanjan Das, Andre F.T. Martins, 2007)总结了目前的自动摘要算法。其中,很重要的一种就是词频统计。这种方法最早出自 1958 年的 IBM 公司科学家H.P. Luhn 的论文《The Automatic Creation of Literature Abstracts》。 Luhn 博士认为,文章的信息都包含在句子中,有些句子包含的信息多,有些句子包含的信息少。"自动摘要"就是要找出那些包含信息最多的句子。句子的信息量用"关键词"来衡量。如果包含的关键词越多,就说明这个句子越重要。Luhn 提出用"簇"(cluster)表示关键词的聚集。所谓"簇"就是包含多个关键词的句子片段。 上图就是 Luhn 原始论文的插图,被框起来的部分就是一个"簇"。只要关键词之间的距离小于"门槛值",它们就被认为处于同一个簇之中。Luhn 建议的门槛值是 4 或 5。也就是说,如果两个关键词之间有 5 个以上的其他词,就可以把这两个关键词分在两个簇。下一步,对于每个簇,都计算它的重要性分值。 以上图为例,其中的簇一共有 7 个词,其中 4 个是关键词。因此,它的重要性分值等于 ( 4 x 4 ) / 7 = 2.3。 然后,找出包含分值最高的簇的句子(比如 5 句),把它们合在一起,就构成了这篇文章的自动摘要。具体实现可以参见《Mining the Social Web: Analyzing Data from Facebook, Twitter, LinkedIn, and Other Social Media Sites》(O'Reilly, 2011)一书的第 8 章,python 代码见github。 Luhn 的这种算法后来被简化,不再区分"簇",只考虑句子包含的关键词。下面就是一个例子(采用伪码表示),只考虑关键词首先出现的句子。 类似的算法已经被写成了工具,比如基于 Java 的Classifier4J库的**Summariser模块、基于 C 语言的OTS库、以及基于 classifier4J 的C#实现和python 实现。 参考文章:
TextTeaserTextTeaser原本是为在线长文章(所谓 tl;dr:too long; didn't read)自动生成摘要的服务,其原本的收费标准是每摘要 1000 篇文章付费 12 美元或每月 250 美元。巴尔宾称 TextTeaser 可以为任何使用罗马字母的文本进行摘要,而且比同类工具如 Cruxbot 和 Summly(在 2013 年 3 月被 雅虎斥资 3000 万美元收购)更准确。其创造者霍洛巴尔宾(Jolo Balbin)表示,在"发现一些扩展问题,特别是 API 中的问题后",他决定将 TextTeaser 代码开源。 TextTeaser 开源的代码一共有三个 class,TextTeaser,Parser,Summarizer。
其中打分模型分为四部分:
开源版本:
自己尝试这个调用 Python 版本。主要:不要使用 pip install textteaser 进行安装,该安装方式安装的是这个项目: https://github.com/jgoettsch/py-textteaser,该项目并非算法实现,而是 API 实现。直接下载代码即可:https://github.com/DataTeaser/textteaser 下载完成后在 Windows 下运营 test.py 会报错,报错信息如下:
|
|
声明:文章版权归原作者所有 部分文章转自互联网 如有侵权请联系
[邮箱地址] 删除
|