天池离线赛 - 移动推荐算法（三）：特征构建

关于题目回顾与数据初探，可参考：天池离线赛 - 移动推荐算法（一）：题目与数据解析，本文讨论如何进行特征构建，为之后基于模型的方法实现提供支持。

特征工程回顾

特征工程是机器学习方法在工业界得到有效应用的基础。业界普遍的认为：数据和特征决定了学习的上限，而模型和算法只是在逼近这个上限。所以，做好特征工程，是高效实现机器学习和数据挖掘任务的基础。关于特征工程的详细内容，可参考：特征工程到底是什么？ - 知乎。

特这构建与选取是特征工程的重要内容，包括：

结合业务对象和数据可用性确定所需特征（包括特征的定义、数值特性、特征组合衍生…）；
基于原始数据构建特征数据并作基本预处理（SQL、数据清洗…）；
针对不同模型进行特征预处理，包括采样、单个特征预处理（归一化、离散化、缺值处理…）、多个特征的处理（PCA、LDA、Clustering、卡方检验、相关系数、正则化…）；
在模型训练中分析选取特征（有效性、重要性）；
。。。

特征构建

预研思路

首先给出特征构建时的一些思路：

由于用户行为对购买的影响随时间减弱，根据分析，用户在一周之前的行为对考察日是否购买的影响已经很小，故而只考虑距考察日一周以内的特征数据。
由于数据来源于垂直电商，其特点是线上购买线下消费，猜测其购买行为具有一定的周期性，进一步猜测行为周期为一个星期。待预测目标考察日为 12.19 ，是星期五，所以分割出11.18~12.18数据中的四段以星期五为考察日，一周为考察期的数据，一共有4组，其中一组涉及双十二异常期，故而省区，还剩下三组数据如下：
```
part 1 - train: 11.22~11.27 -> 11.28;
part 2 - train: 11.29~12.04 -> 12.05;
part 3 - pred:  12.13~12.18 (-> 12.19);
```
其中 part 1 和 part 2 可作为模型训练和验证数据集，part 3 为测试数据集；
针对当前业务背景，考虑从user、item、item_category三大基本维度及其组合入手进行特征构建，简称U、I、C。
由于问题已被明确为 U-I 是否发生购买行为（标记label取｛0，1]）的分类问题，最终的特征数据均要合并到生成以 U-I 为index（key）的样本集上来。进一步地，如要考虑所有可能的 U-I ，必将面临组合爆炸的问题，所以这里只关注在距考察日一周以内出现过的 U-I 。

特征构建

这里将所需构建的特征分为六大类：U、I、C、UI、UC、IC，对每类分别结合行为次数、时间、排序等视角设计特征。考虑到样本规模，特征数量不宜太少，这里我们设计了约100个特征来进行第一季的数据任务，具体的特征选择及定义见下表：

特征名称	所属类别	特征含义	特征作用	特征数量
u_b_count_in_n（n=1/3/6）	U	用户在考察日前n天的行为总数计数	反映了user_id的活跃度（不同时间粒度：最近1天/3天/6天）	3
u_bi_count_in_n（i=1/2/3/4,n=1/3/6）	U	用户在考察日前n天的各项行为计数	反映了user_id的活跃度（不同时间粒度），反映了user_id的各项操作的活跃度，折射出user_id的购买习惯	12
u_b4_rate	U	用户的点击购买转化率	反映了用户的购买决策操作习惯	1
u_b4_diff_hours	U	用户的点击购买平均时差	反映了用户的购买决策时间习惯	1
i_u_count_in_n	I	商品在考察日前n天的用户总数计数	反映了item_id的热度（用户覆盖性）	3
i_b_count_in_n	I	商品在考察日前n天的行为总数计数	反映了item_id的热度（用户停留性）	3
i_bi_count_in_n	I	商品在考察日前n天的各项行为计数	反映了item_id的热度（用户操作吸引），折射出item_id产生的购买习惯特点	12
i_b4_rate	I	商品的点击购买转化率	反映了商品的购买决策操作特点	1
i_b4_diff_hours	I	商品的点击购买平均时差	反映了商品的购买决策时间特点	1
c_u_count_in_n	C	类别在考察日前n天的用户总数计数	反映了item_category的热度（用户覆盖性）	3
c_b_count_in_n	C	类别在考察日前n天的行为总数计数	反映了item_category的热度（用户停留性）	3
c_bi_count_in_n	C	类别在考察日前n天的各项行为计数	反映了item_category的热度（用户操作吸引），包含着item_category产生的购买习惯特点	12
c_b4_rate	C	类别的点击购买转化率	反映了item_category的购买决策操作特点	1
c_b4_diff_hours	C	类别的点击购买平均时差	反映了item_category的购买决策时间特点	1
ic_u_rank_in_c	IC	商品在所属类别中的用户人数排序	反映了item_id在item_category中的热度排名（用户覆盖性）	1
ic_b_rank_in_c	IC	商品在所属类别中的行为总数排序	反映了item_id在item_category中的热度排名（用户停留性）	1
ic_b4_rank_in_c	IC	商品在所属类别中的销量排序	反映了item_id在item_category中的热度排名（销量）	1
ui_b_count_in_n	UI	用户-商品对在考察日前n天的行为总数计数	反映了user_id - item_id的活跃度	3
ui_bi_count_in_n	UI	用户-商品对在考察日前n天的各项行为计数	反映了user_id - item_id的活跃度，反映了user_id - item_id的各项操作的活跃度，对应着user_id - item_id的购买习惯	12
ui_bi_last_hours	UI	用户-商品对各项行为上一次发生距考察日的时差	反映了user_id - item_id的活跃时间特征	4
ui_b_count_rank_in_n_in_u	UI	用户商品对的行为在用户所有商品中的排序	反映了user_id对item_id的行为偏好	3
ui_b_count_rank_in_n_in_uc	UI-UC	用户-商品对的行为在用户-类别对中的排序	反映了user_id对item_category中的各个item_id的行为偏好	3
uc_b_count_in_n	UC	用户-类别对在考察日前n天的行为总数计数	反映了user_id - item_category的活跃度	3
uc_bi_count_in_n	UC	用户-类别对在考察日前n天的各项行为计数	反映了user_id -item_category的活跃度，反映了user_id -item_category的各项操作的活跃度，对应着user_id -item_category的购买习惯	12
uc_bi_last_hours	UC	用户-类别对各项行为上一次发生距考察日的时差	反映了user_id -item_category的活跃时间特征	4
uc_b_count_rank_in_n_in_u	UC	用户-类别对的行为在用户所有商品中的排序	反映了user_id对item_category的行为偏好	3

通过sql或python-pandas可以简洁的完成这些特征的提取，参考程序：python-pandas特征提取

这些特征数值尺度不一，所以在使用尺度敏感模型前需要进行归一化处理；有些特征是离散型（如排序特征），有的特征存在缺值（如时间差特征），这些都要根据具体的模型来进行预处理。

样本格式

在进行了特征构建之后，我们通过合并各大类特征数据（U、I、C、UI、UC、IC）得出训练和预测所需的数据，数据样本格式如下：

	索引	特征	标签
一行样本数据	user_id, item_id	约100个特征数据	分类结果（0-未购买，1-购买）

在得出样本集之后，就可以进行模型的训练和预测了。（p.s.生成的数据量规模达到10G级别，考虑到单机计算存储资源受限，在示例程序大量使用了分块操作，另外也可考虑基于HDFS+MR来实现）。