2.3应用谱聚类在SNS中挖掘兴趣圈子
正像上文所述,大规模SNS用户中挖掘兴趣圈子的问题可以进一步抽象为用户兴趣图的一个图切割问题,我们通过对谱聚类处理大规模数据进行了技术改进后,使得这项技术可以在多机并行环境下较快地处理上亿规模数据的图切割,在兴趣圈子自动挖掘方面既实现了较好的挖掘效果,又能够使得算法处理真实世界的大规模数据,使其在现实中可行而非仅仅停留在小规模数据处理的学术研究阶段。
下面给出三个使用上述技术在新浪微博平台挖掘出的兴趣圈子,因为实际的兴趣圈子很大(大部分包含几十到几百个节点),所以只列出了兴趣圈子的一部分,从这些例子可以看出其效果还是比较理想的。 用户微博ID微博名身份说明
用户微博ID | 微博名 | 身份说明 |
1197161814 | 李开复 | 创新工场董事长兼首席执行官 |
1656232852 | JackF2 | 创新工场豌豆实验室 联合创始人 |
1738208940 | 宓金华 | 创新工场魔图精灵项目负责人 |
1652837301 | 徐磊Ryan | 布丁 创始人 CEO 原创新工场战略发展部总经理 |
1642333010 | 张亮 | 创新工场投资经理;Apple4us 发起人 |
1926746140 | 许红梅Grace | 创新工场人力资源部副总裁 |
1650741047 | cuijin | 创新工场市场总监崔瑾 |
1676705655 | 裘伯纯Benjamin | 创新工场法务负责人裘伯纯 |
1751792424 | dikanggu | 创新工场员工 |
1419563143 | zouyu9631 | 创新工场员工 |
...................................... |
▲表1 “李开复”所属兴趣圈子 用户微博ID微博名身份说明
用户微博ID | 微博名 | 身份说明 |
1656809190 | 赵薇 | 著名演员,代表作《画皮》《还珠格格》等 |
1829847745 | 一号立井 | 李亚鹏 |
1679085395 | 邓讴歌 | 太合麦田音乐制作人 |
1719232542 | 那英 | 内地流行乐天后 |
1629810574 | veggieg | 王菲 |
1496813600 | 老焦爱民 | 《杜拉拉升职记》制片人 |
1768955554 | 张扬张杨 | 著名导演 |
1262945510 | 廖凡 | 演员廖凡 |
1919269943 | 王一涵 | 北京中艺博文化传播有限公司董事长兼总经理 |
1497323383 | 磨刀哎呦霍霍 | 编剧霍昕 |
.............................. |
▲表2 "赵薇"所属兴趣圈子 用户微博ID微博名身份说明
用户微博ID | 微博名 | 身份说明 |
1922397344 | 白硕sse | 上海证券交易所总工程师,IR与NLP专家 |
1937618377 | 林鸿飞 | 大连理工大学电子信息与电气工程学部 副部长 |
1684953923 | 关毅的围脖 | 哈尔滨工业大学计算机学院教授、博士生导师关毅 |
1936526225 | 王斌_ICTIR | 中国科学院计算技术研究所副研究员,博士生导师王斌 |
1808067361 | ITNLP | 哈尔滨工业大学智能技术与自然语言处理(ITNLP)研究室 |
1970879995 | 孙茂松 | 清华大学计算机科学与技术系教授、中国中文信息学会副理事长孙茂松 |
1788077877 | 张颖峰 | 上海载和网络科技有限公司 研发总监 |
1340489195 | 韩先培 | 中国科学院软件所助理研究员 |
1497035431 | 梁斌penny | 清华大学计算机科学与技术系在读博士;《走进搜索引擎》《深入搜索引擎》作者,THUIRDB的Coder。 |
1064649941 | 张俊林say | 《这就是搜索引擎:核心技术详解》作者。本文作者。 |
............................. |
▲表3 “自然语言处理与信息检索”兴趣圈子
通过大量的聚类数据分析,使用互动数据构建用户兴趣图得出的兴趣圈子大部分属于以下两种类型:一种类型是同事朋友圈子,这是因为线下关系迁移到网络的体现;另外一种比较常见的是兴趣类似的微博用户,比如NLP圈子,NOSQL圈子这种根据讨论技术确定的兴趣圈子等,这是由于共同关注相似话题并经常互动形成的。
三.结束语
大规模SNS与内容分享平台中如何自动挖掘兴趣圈子是个很有趣也非常必要的功能,现有公开文献很少提及超大规模数据如何实现自动挖掘的算法,大多数是在10万以下规模数据进行的研究工作,本文简述了在新浪微博平台通过改造的谱聚类进行的大规模兴趣圈子挖掘,实践表明取得了很好的挖掘效果。当然,现有系统还面临一些问题,比如属于硬聚类,即每个用户只能隶属于一个兴趣圈子,而实际上很可能一个用户属于多个兴趣组中,所以我们面对大规模数据的软聚类,也在进行进一步的研发与改进。
关于作者
张俊林,《这就是搜索引擎:核心技术详解》作者、新浪微博研发人员。