文章目录
  1. 1. 新浪微博预测
  2. 2. O2O优惠券使用预测
  3. 3. 基于主动探测的仿冒网站监测与发现

陆陆续续闲来无事做了几个小比赛,成绩一般,记录在这儿仅防止遗忘。

新浪微博预测


赛题内容:赛题分为两个阶段,提供用户粉丝信息,历史微博记录:博文内容,发表时间,评论数赞数转发数,第一阶段预测博文在发表一天后的转发、评论、赞数,第二阶段预测转发评论赞总数,官方对总数分档,不同档加权计分计算准确率。
解决方案:
发现用户身份是微博热度的关键特征,根据历史记录找到使每个用户预测准确率最高的档。
对原始数据按照计分权重重采样,增加模型对权重高的微博的关注度。
结合用户的时间,粉丝数目,微博分词等特征训练模型。

O2O优惠券使用预测


赛题内容:赛题提供优惠券类型,商店地址,用户是否存在领取行为及使用状况,预测用户新的已领取的优惠券在未来15内的使用概率。官方使用优惠券核销预测的平均AUC作为评价标准。
解决方案:
按月拆分数据,本月数据作为下一个月样本特征来源,保证训练数据和预测数据的一致性。
从用户商家优惠券三个角度计算特征,包括用户对优惠券类型和商家的偏好值,商家的热度,优惠券的消费比例等。
将以上特征利用GBDT训练预测,并根据用户消费习惯和商家状况构造规则,利用规则对预测结果微调。

基于主动探测的仿冒网站监测与发现


项目描述:项目目的在于仿冒网站未获益之前探测到仿冒网站并举报。仿冒网站的URL和网页都与原始网站相似,利用这种特征,对易被仿冒的URL变换,并探测新的URL是否存在,若存在,则判断是否为仿冒,如果是,查找仿冒网站的whois信息,利用whois信息反向查询探测新的仿冒网站。
解决方案:
书写变换规则,如.com->.cn,收集易仿冒的URL,利用规则进行编辑距离3以内的变换。
对变换后存活的URL,从文本图像两个部分与原始网站对比,判断是否为仿冒网站。
对判定为仿冒网站的URL,查询whois信息,并反向查询该whois注册的其他网站进行分析。

文章目录
  1. 1. 新浪微博预测
  2. 2. O2O优惠券使用预测
  3. 3. 基于主动探测的仿冒网站监测与发现