本人用QQ机器人记录QQ群的信息,并通过每个人的对话自动获取大家关注的话题,从而知道群友喜欢讨论什么。于是实现了本程序:http://www.oschina.net/code/snippet_1180874_23462
不过在自动组词的时候用的算法颇有爆力的感觉,需要很多地方进行优先。但是本人用c/c++的多,python用得少,不知道哪位仁兄帮我实现一个更好的版本!
程序具体功能是:
1、自动从一大段文本中提取可能组成的词语。 2、通过输入多个文档,通过tf-idf算法自动提取各种文档的关键字。 3、通过提取关键字可以得到不同的QQ群讨论的主要内容。 关于第一条的原理说明请参考《互联网时代的社会语言学:基于SNS的文本数据挖掘》http://www.matrix67.com/blog/archives/5044