我们都是架构师!
架构师订阅号,关注获取更多技术分享
现已开通多个微信群,有兴趣交流学习的同学
可加若飞微信:1321113940进群
合作邮箱:[email protected]
用户建模是广告、推荐、搜索算法最基础也是最核心的技术问题之一,本报告将介绍新浪微博大数据挖掘团队如何综合利用社交关系和用户行为来建立用户模型。以下分享下精彩内容。
微博及大数据 微博作为中国最大的社交媒体平台,微博沉淀了海量的用户,内容,关系,和行为数据。 其中用户:注册人数10亿,月活人数1.98亿,日活人数:8900万。关系:关注关系近千亿,分组关系50亿 。内容:日增博文1亿 ,日增原创4000万。行为:转发6000万,评论3000万,赞1亿,收藏:1000万,查看200亿。 图1 如图1,微博大数据要做什么?要帮助用户发现感兴趣的内容,加快有价值内容的传播效率。目标如何实现?要挖掘有能力生产垂直领域优质内容的用户,挖掘用户内容消费的兴趣偏好。工作如何串联?用户能力标签,用户兴趣标签,微博内容标签。 大数据标签体系 图2 图2所示为大数据标签体系的基本框架图。 用户能力标签 用户能力标签的产品形态 图3 如图3微博找人直接推荐各行各业的能力用户 图4 如图4微博头条输出各领域原始语料的专家库 图5 图5为用户能力标签库的整体框架 用户能力标签库的策略算法如下: (1)基于决策树的分组名分类算法:将分组名分为兴趣分组名和熟人关系分组名。兴趣分组名用于用户的能力兴趣计算,熟人关系分组名用于用户的自然属性挖掘。 (2)基于用户关注关系数据计算用户在关系方面的能力:利用兴趣分组名称构建出标签的相关词库,进而通过归一化公式计算出基础权重。 (3)基于用户发布内容数据计算用户在内容方面的能力:用户在某个领域发布博文数量、纯度、互动量越高,在这个领域内容生产能力越大。 (4)通过PageRank计算用户在垂直行业的影响力:通过PageRank计算具有一定内容生产能力和关系能力的用户群中每个用户的影响力。 (5)通过线性加权将用户的关系、内容和行业影响力计算为在这个垂直领域的综合能力:用户能力标签归一化到0~100的区间,达到横纵向可比较。 图6 主要问题如图6,标签的自动聚合和筛选时的噪音问题,微博短文本分类及语义主体识别问题。 图7 图7为标签自动聚合流程。 用户能力标签的效果很好,挖掘出120万能力用户,覆盖月活粉丝1.6亿;微博用户中娱乐、互联网、财经行业名人最多; 微博用户中动漫、美食、旅行行业精英最多;微博聚集了近万名互联网技术牛人。 用户兴趣标签 用户兴趣标签的产品形态 图8 图8是基于兴趣推荐用户感兴趣的文章。 图9 图9是基于兴趣Push用户一段时间内关注人发的但是没看过的微博。 图10 图10为用户兴趣标签库的整体框架。 用户兴趣标签的策略算法 (1) 圈定各垂直领域的能力用户集合:根据用户能力标签分数分布以及各分数段的意义,圈定垂直领域的能力用户集合。 (2) 根据用户对能力用户的关注关系计算用户在关系方面的兴趣:关系兴趣权重的计算规则:根据w1和w2最终确定关系兴趣的权重。 (3) 根据用户对内容产生的行为计算用户在内容消费方面的兴趣:微博行为包括:原创,转发,评论,赞,收藏,查看微博等十几种行为,不同的行为对应不同的分值,最终通过归一化公式计算用户消费内容的兴趣权重。 (4) 通过线性加权计算用户的综合兴趣调权:通过不断的迭代测试,用户在内容消费方面的权重更高一些。 用户兴趣标签的主要问题: 用户的兴趣相对于能力而言是时间敏感的, 如何在用户的兴趣权重上体现出时间敏感性是一个关键问题。如图11所示, 图11 所有用户都对实时,旅游,明星感兴趣吗?活跃用户体现出的兴趣极为广泛。 用户行为权重的时间衰减:基于时间维度的行为热度衰减: 在博文消费方面,用户通过转发、评论、赞等行为来表达自己对领域博文的兴趣,其表达的兴趣热度及重要性随着时间是逐步衰减的,我们 通过牛顿冷却定律来量化衰减的程度。如图12所示, 图12 用户兴趣标签的效果是:挖掘出1.6亿用户的精准兴趣,覆盖微博月活75%。微博用户中对娱乐、时事、互联网感兴趣的人最多。微博聚集了110万对互联网技术感兴趣的人。 用户标签的规划 规划用户身份,规划用户即时兴趣,规划用户质量等级。图13 为微博大数据用户体系。 图13
回复关键词“基于微博用户关系与行为的用户建模分析”下载PPT 来源:阿里技术沙龙 原文:http://yq.aliyun.com/articles/112 转载文章,向原作者致敬!如有侵权或不周之处,敬请劳烦联系若飞(微信:1321113940)马上删除,谢谢! END 我们都是架构师! 架构师订阅号,关注获取更多技术分享 现已开通多个微信群,有兴趣交流学习的同学 可加若飞微信:1321113940进群 合作邮箱:[email protected] 本文转载自:微信公众账号 - 架构师,版权归原作者所有! |
|
声明:文章版权归原作者所有 部分文章转自互联网 如有侵权请联系
[邮箱地址] 删除
|