郑昀@玩聚锐推榜 20090222 (follow @zhengyun)

1、我要follow谁

twitter    作为一个各种 memeTracker 工具制造者,我(@zhengyun)一直想知道Twitter上什么样的人值得follow、对我的胃口,当然他得是中文用户,说的事儿怎么着也得跟中国有点儿关系。

    我总结了一下自己的需求:

    1:发布频率至少一周一两次(follow 哪些一年半载推特一下的名人会不必要地增加全球碳排量,so,可以无视);

    2:相对来说,和我(@zhengyun)的Twitter以往历史比较接近。不要光凭followers多就推荐给我,譬如虽然@bookhotel拥有高达1,190个followers,但显然我不可能follow这个疑似Spammer的机器人;

    3:我已经 follow 过的就不必再向我推荐了;

    4:他/她/它的 Tweet 对我来说足够有趣。“有趣”,多么含混的需求啊。

2、Twitter 用户评价体系

    看上去我们需要一个 Twitter (中文)用户评价体系。

    followers/friends 的维度不足以作为这个 Twitter 用户是否有趣的判断依据,就像Google的PageRank不会单纯靠inbound links来判断网站是否有用一样。哪有什么依据呢?   

    譬如,你可以根据一个Twitter用户名被其他用户提及多少次来判断他的流行程度。当然,如果有一群用户拿Twitter作为群聊聊天室,那么这群人的名字(如@zhengyun)必然被常常提及,所以这个维度只能是复杂公式中的一个变量。所以这个维度要被你有多么个followers以及你推特的频率等维度呈正比地抵消。

    看上去,要估算出这么一个 Twitter 用户评价体系,比想象中的复杂哦。

    whoshouldifollow 貌似推荐的还不错,不过不知道它的技术细节,它只说是“finds interesting people to follow based on who your friends are, and who they follow.”。

    twellow 是依据你的Twitter Profile中的关键词来对你分类的;wefollow 应该也是类似原理,并且允许你在Twitter里发表格式化好的tweet来主动向 @wefollow 声明自己的标签和分类。它们俩的分类,也可以作为一个参考维度。

    Twitalyzer 的五项衡量指标倒是有指导意义,但毕竟我们不是为了评估某个Twitter用户的影响力,而是为了尽量准确地个性化推荐 twitter 用户。

3、Rank可以参考的变量

    这个需求要多少个变量来计算呢?我姑且列出一些供参考的老外统计方式:

    1:Ryo Chijiiwa的 TwitterRank (ZDNet、Mashable都给出了正面的评价)。

    2:可以统计你有多少时间浪费在 Twitter 上的 Tweetwasters 。

    3:可以给出某一个地区Twitter用户排名的 Twitterholic (只是根据Twitter中你设置的Location字段汇总的,排名因素是你的Followers和Friends数量)。

    4:Twitalyzer 给出的一个用户的五项指标。

    5:twellow或wefollow对一个用户的分类和标签,假如有的话。

4、Rank可能涉及的变量

    据此,可以总结出一个公式,来帮你匹配到值得你follow的最有趣的中国Twitter用户。

    变量A : 仿照 Tweetwasters 给出的 your total tweets*30 seconds/per tweet ,用户消耗在Twitter上的时间。

    变量B: 用户的 TwitterRank 数值,Float类型。

    变量C : 用户的 followers 数量;

    变量D : 用户的 friends 数量;

    变量E : 用户被 retweet 的数量;

    变量F : 用户被人提及的次数;

    变量G : 用户的Location。系统应该自动映射不同的Location名字为一个地名。譬如,映射“北京”和“Beijing,china”为“Beijing”。

    变量H : 用户发言频率,即 your total tweets/timespan your account joined 。

    变量I : 用户 retweet 他人的次数。

5、公式

    略。

6、mashup一下

    看了上面列出的变量,你就知道,这注定是一个 mashup 应用,因为它所引用的数据都来自于其他站点,包括twitter。

     

twitter 

#附录A:

疑问1:

是否必须引入自然语言处理来判别Twitter用户的软分类呢?即判断用户的发言百分之多少科技成分、多少娱乐成分等等。而不只是像 twellow 一样只根据用户Profile来计算分类。

这么做的好处:

可以按照分类目录寻找有趣用户;

更容易基于某一个给定用户推荐相似分类的用户群。

坏处是:

一条Tweet字数太少。分类未必会准。

疑问2:

是针对每一个发言做分类判别,还是针对所有发言呢?

需要测试看看。

疑问3:

需要对两两用户进行文本相似性计算吗?

不用这么复杂吧?

 

郑昀@玩聚锐推榜 20090222 (follow @zhengyun)