阅读 71

海量文档查同或聚类问题 Locality Sensitive Hash 算法

考虑一下这个场景
,
使用网络爬虫高速爬取大量的网页内容
,
如果想把这些网页进行实时聚类
,
并从中提取每个网页聚类的主题
.
我们应该怎么样去做

对于普通或常见的聚类算法
,
比如
K-means,

Hierarchical
聚类
,
无法适用于这个常见
,
对于这些聚类算法无法进行
incremental

聚类
,
即在聚类开始前必须知道整个数据集
,
而这个场景中的数据集是随着爬虫不断增多的
.
而且这些聚类算法的
performance
不够高
,
比如对于
K-means
需要不断的
partition
以达到比较好的聚类效果
.
所以向来聚类算法在我的印象中是低效的
,
而面对这样一个需要实时数据递增处理的场景
,
我们需要一种
one-shot
的高效算法
,
接收到网页内容
,
迅速判断其类别
,
而不用后面不断地
revisit

recluster.

首先介绍下面这个聚类方法


文章分类
代码人生
版权声明:本站是系统测试站点,无实际运营。本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 XXXXXXo@163.com 举报,一经查实,本站将立刻删除。
相关推荐