阅读 64

基于网页内容聚类

基于网页内容的聚类系统设计

  • 根据给出的一组网页地址,然后对指定的网页按内容聚成3类
  • 网页地址如下所示
    1
    2
    3
    4
    5
    6
    7
    8
    9

实现步骤

1、抓取指定网址的源码;
2、解析网页文章内容;
3、对文章内容进行分词,并转换成向量表示(词袋法或TF.IDF);
4、选取合适的距离公式和聚类算法进行聚类,要求聚成3类。(可以用欧式距离或余弦距离等。聚类方法可以考虑用K-means方法等。)

具体要求

1、显示解析后的网页文章内容;
2、显示文章对应的向量;
3、显示文章向量与三个类的类中心距离;
4、显示最终的分类结果,即哪些网址分为一类。

原文:https://www.cnblogs.com/FireTim/p/14966995.html

文章分类
代码人生
版权声明:本站是系统测试站点,无实际运营。本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 XXXXXXo@163.com 举报,一经查实,本站将立刻删除。
相关推荐