博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
自动取词,并提取大文本的关键字
阅读量:5874 次
发布时间:2019-06-19

本文共 408 字,大约阅读时间需要 1 分钟。

hot3.png

本人用QQ机器人记录QQ群的信息,并通过每个人的对话自动获取大家关注的话题,从而知道群友喜欢讨论什么。于是实现了本程序:http://www.oschina.net/code/snippet_1180874_23462

不过在自动组词的时候用的算法颇有爆力的感觉,需要很多地方进行优先。但是本人用c/c++的多,python用得少,不知道哪位仁兄帮我实现一个更好的版本!

程序具体功能是:

1、自动从一大段文本中提取可能组成的词语。
2、通过输入多个文档,通过tf-idf算法自动提取各种文档的关键字。
3、通过提取关键字可以得到不同的QQ群讨论的主要内容。
关于第一条的原理说明请参考《互联网时代的社会语言学:基于SNS的文本数据挖掘》http://www.matrix67.com/blog/archives/5044

转载于:https://my.oschina.net/dancing/blog/150000

你可能感兴趣的文章
css 样式(checkbox开关、css按钮)
查看>>
PS打造油画般的风景人像
查看>>
JS_高程3.基本概念(2)
查看>>
Leetcode 俄罗斯套娃信封问题
查看>>
二维正则表达式v0.1
查看>>
面向空实现类继承
查看>>
Java中MVC详解以及优缺点总结
查看>>
5——PHP逻辑运算符&&唯一的三元运算符
查看>>
学习HTML5+CSS3的第一天
查看>>
只打开一个子窗体
查看>>
Linux下Makefile的automake生成全攻略
查看>>
顶级域名和二级域名共享cookie及相互删除cookie
查看>>
深入理解PHP Opcode缓存原理
查看>>
微服务部署:蓝绿部署、滚动部署、灰度发布
查看>>
探究操作系统的内存分配(malloc)对齐策略
查看>>
水仙花算法
查看>>
Java基础-IO流(13)
查看>>
递归法----整数划分问题
查看>>
CentOS 7 安装VirtualBox
查看>>
【转载】使用缓存的9个误区(上)
查看>>