lambda

我干了什么 究竟拿了时间换了什么

2019-10-26-IEEE竞赛复盘

IEEE-CIS-Fraud-Detection

Concat: github: lambda_xmu Competition Describe 预测在线交易是否存在欺诈的可能性,是个二分类问题,标签isFraud。数据由identity和transaction组成。 Data Transaction Categorical Features ProductCD: product code, the product for ...

2019-09-23-Field-aware-Factorization-Machine

场感知分解机

Concat: github: lambda_xmu Field-aware Factorization Machines(FFM) FFM 模型中引入了类别的概念,即 field,将相同性质的特征归于同一个 field。 在 FFM 中,每一维特征 $x_i$,针对其它特征的每一种 field $f_j$,都会学习一个隐向量 $v_{i,f_j}$,即 $v_i$ 成了一个二维向...

2019-09-22-Factorization-Machine

因子分解机

Concat: github: lambda_xmu CTR预估综述 点击率(Click through rate)是点击特定链接的用户与查看页面,电子邮件或广告的总用户数量之比。 它通常用于衡量某个网站的在线广告活动是否成功,以及电子邮件活动的有效性。 点击率是广告点击次数除以总展示次数(广告投放次数) 常用的 CTR 预估算法有 FM, FFM, DeepFM。 Factor...

2019-09-21-Data-competition-From-0-to-1-Part-III

Rossmann Store Sales

Concat: github: lambda_xmu 赛题地址:Rossmann Store Sales 赛题描述 Rossmann 在欧洲 7 个国家经营了超过 3,000 个商店。现在 Rossmann 管理者想预测未来 6 个星期的销售量。其中,商店的销售量受很多因素影响:促销、竞争对手、学校放假、全国节假日、季节性和地区性等等。 评价指标 Root Mean Square ...

2019-09-16-微博、头条、抖音热搜比较

头条+抖音=微博

Concat: github: lambda_xmu 数据来源:热搜神器 数据时间范围:因数据可得性,数据时间范围: - 微博和抖音:2019-06-06~2019-09-04 - 头条:2019-07-24~2019-09-04 Base Information APP 每日平均热搜量 每日平均r...

2019-09-14-微博热搜挖掘(Part II)

“年年岁岁花相似 岁岁年年人不同”

Concat: github: lambda_xmu 在2019-09-11-微博热搜挖掘(Part I)中分析了最近两年多时间微博的热搜的整体情况。这一篇主要按年份——分析每一年最热的是什么。 每年 TOP 热搜 毫无例外,每年最热的都是明星的分分合合。但有趣的是,每年都有一起新闻事件能进入TOP20:2017年最受关心的新闻是九寨沟地震;2018年是重庆公交坠江;2019年...

2019-09-11-微博热搜挖掘(Part I)

那些年上过的热搜

Concat: github: lambda_xmu 文章灵感来源:上万条数据撕开微博热搜“过度娱乐化”的真相 数据来源:热搜神器 数据时间范围:2017-05-09~2019-09-04 共 842 天 数据量:201378 条数据 网传微博热搜榜排序公式:(搜索热度+传播热度)$\times$话题因子$\times$互动因子 搜索热度以搜索量为基础, ...

2019-09-04-2019CCF-Work-Piece-EDA-Part2

离散制造过程中典型工件的质量符合率预测

Concat: github: lambda_xmu 赛题地址:离散制造过程中典型工件的质量符合率预测 EDA Part1: 2019CCF Work Piece EDA Part 1 在赛题中,只要删除Parameter1、Parameter2、Parameter3、Parameter4成绩会提升很多,但是为什么会提升很多,因此来看下不同的label在Parameter中的分...

2019-08-31-Data-competition-From-0-to-1-Part-II(补充)

特征工程小节

Concat: github: lambda_xmu 本文在包大人基础之上进行补充: PPT:Kaggle比赛的进阶技巧和国内比赛前十套路 视频:https://www.bilibili.com/video/av57480953/?p=2 特征工程 编码角度 类别特征: 频度统计count: 优势:可以解决长尾问题,将出现次数少的进行合并 ...

2019-08-27-2019CCF-Car-Sales-EDA

乘用车细分市场销量预测

Concat: github: lambda_xmu 赛题地址:乘用车细分市场销量预测 DATA BACKGROUD 历史销量数据包含32个车型在15个省份,从2016年1月至2017年12月的销量。参赛队伍需要预测接下来4个月(2018年1月至2018年4月),这32个车型在15个省份的销量。 注:从数据分析得到,车型共60种,而非32种;总共在22省份销售,而非15省份...