Skip to content

基于行块分布函数的通用网页正文抽取,C#版本

Notifications You must be signed in to change notification settings

chrislinan/cx-extractor

Repository files navigation

cx_extractor

基于行块分布函数的通用网页正文抽取 由于本人做网络爬虫的时候使用过这个方法的java版本,现在自己把java版本的改成了C#版本,希望对大家有用。基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关。原版本的作者为哈工大的陈鑫,代码放在google code上。https://code.google.com/p/cx-extractor/

About

基于行块分布函数的通用网页正文抽取,C#版本

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages