08-15 10:10 阅读 71

海量文档查同或聚类问题 Locality Sensitive Hash 算法

考虑一下这个场景
,
使用网络爬虫高速爬取大量的网页内容
,
如果想把这些网页进行实时聚类
,
并从中提取每个网页聚类的主题
.
我们应该怎么样去做

对于普通或常见的聚类算法
,
比如
K-means,
或
Hierarchical
聚类
,
无法适用于这个常见
,
对于这些聚类算法无法进行
incremental

聚类
,
即在聚类开始前必须知道整个数据集
,
而这个场景中的数据集是随着爬虫不断增多的
.
而且这些聚类算法的
performance
不够高
,
比如对于
K-means
需要不断的
partition
以达到比较好的聚类效果
.
所以向来聚类算法在我的印象中是低效的
,
而面对这样一个需要实时数据递增处理的场景
,
我们需要一种
one-shot
的高效算法
,
接收到网页内容
,
迅速判断其类别
,
而不用后面不断地
revisit
或
recluster.

首先介绍下面这个聚类方法

推荐资源

高薪游戏开发架构师-Cocos Creator全栈项目课程涵盖数据库+服务端+客户端附带源码点金手丰年直播投放课，如何进行正确的付费流量选择妙味重磅课程：Node+TS+Koa+vue 商城全栈（前后端）开发恋上数据结构与算法全三季强烈推荐价值6800元【区块链实战】Golang公链项目实战视频教程淘宝虚拟另类项目-壁纸店，细节玩法，让你稳定做出淘宝皇冠店，价值680元 Java核心技术面试精讲(MP3+HMTL+PDF完结) PR国外电影大师的实战剪辑教程10节高阶UI设计视频教程实战高级UI设计技术全程实战讲解共92讲含代码及课程课件 HA整合DRDB实战余大数据快速迁移案例 7课