TextRank_Algorithm

TextRank的简单实现

切分文章：把给定的文本使用标点或者空格切分成若干个句子； Text = [S₁, S₂, ... S_n]
保留关键词：对于每个句子，进行分词和词性标注处理，并过滤掉停用词，只保留指定词性的单词，如名词、动词、形容词，即，其中是保留后的候选关键词。 S_i = [W₁, W₂, ... W_n]
选择共现窗口大小n；
根据共现窗口，重新生成Text内的所有句子的关键词列表
[W₁,W₂,...W_n], [W₂,W₃,...W_n+1],...
计算每个词之间的共现度，也就是置信度。
初始化词共现方阵M与均值矩阵U U = [1/n，1/n，... 1/n] U_n = α (M * U_n-1) + (1-α)U₀
根据上面公式，迭代传播各节点的权重，直至收敛。
对节点权重进行倒序排序，从而得到最重要的N个单词，作为候选关键词。在原始文本中进行标记，若形成相邻词组，则组合成多词关键词。例如，文本中有句子“中国人民站起来了”，如果“中国”和“人民”均属于候选关键词，则组合成“中国人民”加入关键词序列。

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
data		data
README.md		README.md
n01_text_rank_angorithm.py		n01_text_rank_angorithm.py

Provide feedback