View Code? Open in Web Editor
NEW
papers
License: Apache License 2.0
papers-for-text-summarization's Introduction
Papers-For-Graduation-Project
1. LCSTS: A Large-Scale Chinese Short Text Summarization Dataset 论文地址
- 爬取并过滤了240W+条微博蓝V发布的[摘要,短文本],这是本系统所采用的语料。
- 本文提出了word-based和character-based(为了改善UNK问题)两种数据处理的方法,并给出了RNN和RNN+context两种模型做baseline。
- RNN+Context+Char组合表现最好,ROUGE-1:0.299 ROUGE-2:0.174 ROUGE-L:0.272
- 本文的主要贡献就是提供短文本摘要的训练集,并给出了baseline。我之前用tfidf提关键句ROUGE-1达到了0.28,没干过他。感觉长文本和短文本摘要还是有一些区别的,可能短文本摘要要更注重句子压缩,长文本摘要更注重信息提取。暂时不做短文本了,如果毕设需要使用该数据集就回头再看。
2. The Automatic Creation of Lierature Abstracts 论文地址
- TFIDF计算关键词->通过关键词的密集程度计算关键句->通过关键句形成摘要
3. TextRank:Bringing Order into Texts 论文地址
- 使用Textrank方法提取文本中关键词/句
1. ROUGE: A Package for Automatic Evaluation of Summaries 论文地址
- 一种自动评价摘要的方法,包括ROUGE-N、ROUGE-L、ROUGE-W、ROUGE-S、SOUGE-SU。
papers-for-text-summarization's People
Contributors
Watchers
papers-for-text-summarization's Issues