首页 ›存档› 技术 › 查看内容

美团O2O排序解决方案线下篇背景数据清洗特征矩阵监控系统模型调研

2018-3-30 13:00 |来自: 互联网 283 0

摘要: 架构师（JiaGouX）我们都是架构师！背景针对美团90%的交易发生在移动端的业务特点，我们实现了一套适用于O2O业务的搜索排序技术方案，已在许多产品和子行业中得到应用。在之前的线上篇中，我们已经介绍了服务的 ...

架构师（JiaGouX）

我们都是架构师！

背景

针对美团90%的交易发生在移动端的业务特点，我们实现了一套适用于O2O业务的搜索排序技术方案，已在许多产品和子行业中得到应用。在之前的线上篇中，我们已经介绍了服务的框架、排序算法等。本文为线下篇，主要讲述数据清洗、特征矩阵、监控系统、模型训练和效果评估等模块。

数据清洗

数据清洗的主要工作是为离线模型训练准备标注数据，同时洗掉不合法数据。数据清洗的数据源主要有团购的曝光、点击和下单。
整个数据清洗的流程如下：

序列化
曝光、点击和下单数据从Hive表中读取，采用schema的处理方式，可以直接根据日志字段名来抽取相应的字段，不受日志字段增加或者减少的影响。
曝光日志存储了一次用户行为的详细信息，包括城市、地理位置、筛选条件及一些行为特征；点击日志主要记录了用户点击的POIID、点击时间；下单日志记录了用户下单的POIID、下单时间和下单的金额。数据清洗模块根据配置文件从数据源中抽取需要的字段，进行序列化（Serialization）之后存储在HDFS上。
序列化的过程中，如果日志字段不合法或者单一用户曝光、点击或下单超出设定的阈值，相关日志都会被清洗掉，避免数据对模型训练造成影响。
数据标注
数据序列化之后在HDFS上保存三份文本文件，分别是曝光（Impression）、点击（Click）和下单（Order）。数据标注模块根据globalid（一次搜索的全局唯一标示，类似于sessionid）和相应的团购id为key，将曝光、点击和下单关联起来，最终生成一份标注好是否被点击、下单、支付的标注数据。同时这份标注数据携带了本次展现的详细特征信息。
数据标注通过一次Map/Reduce来完成。
Map阶段：Map的输入为曝光、点击和下单三种HDFS数据。用三个Mapper分别处理三种日志。数据分发的key为globalid。其中，如果点击和下单数据中的globalid字段为空（""），则丢弃该条日志（因为globalid为空无法和曝光日志join，会出现误标注）。
Reduce阶段：Reduce接收的key为globalid, values为具有相同globalid的曝光、点击、下单数据List，遍历该List, 如果
日志类型为曝光日志，则标记该globalid对应的曝光日志存在（imp_exist=true）。
日志类型为点击日志，则将曝光日志的clicked字段置为1。
日志类型为下单日志，则将曝光日志的ordered字段置为1。
日志类型为下单日志，如果pay_account字段

声明：文章版权归原作者所有部分文章转自互联网如有侵权请联系 [邮箱地址] 删除

路过

雷人

握手

鲜花

鸡蛋

收藏分享邀请

上一篇：案例｜魅族应用商店云端架构实践下一篇：性能优化模式摘要介绍性能恶化模式性能优化模式总结

美团O2O排序解决方案线下篇 背景 数据清洗 特征矩阵 监控系统 模型调研

背景

数据清洗

相关分类

美团O2O排序解决方案线下篇背景数据清洗特征矩阵监控系统模型调研