"); //-->
本文分享自天翼云开发者社区《商场商圈潜客挖掘模型》,作者:石泽涛
超速数据清洗算法:
1)针对同一用户,顺次选取两条记录(第n条、第n+1条),根据第n条记录的停留时间TSn(两停留点时间差),以及与第n+1条记录的距离Dn(两记录点经纬度距离),计算第n条记录的穿越速度(Dn/TSn),如果该速度大于350km/h,则第n条记录的坐标修改为第n-1条记录的坐标,否则不作修改;
2) 如果为首条记录不合格,则继续计算第2条记录的速度,第2条记录与第3条记录的距离D2,直到找到速度合格的记录,将其坐标赋予首条记录。
3)最后一条记录始终保留。
4)重复步骤2
5)删除重复记录
乒乓切换清洗算法:
1)针对同一用户(Mdn),顺次选取三条记录(第n-1条、第n条、第n+1条),如果第n-1条记录与第n+1条记录BSID相同,第n条记录和第n-1条两条记录时间小于5分钟且与第n条记录不同,则标记第n条记录为一条乒乓记录,连续标记的乒乓记录记录为一个乒乓记录重复组;例如:CABABABAD标黄的部分为一个乒乓重复组,红字表示乒乓记录,这个情况属于具有5条乒乓记录的重复组。
2)对于只有一条乒乓记录的重复组(CABAD),考虑两点间的距离和事件发生的时间。首先,计算第n条记录的穿越速度(Dn/TSn),当第n条记录与第n+1条记录距离小于1km时,穿越速度如果大于步行平均速度(6km/h),则第n条记录坐标修改为第n-1条记录的坐标;否则不作修改。
3)对于大于等于两条乒乓记录的重复组(CABABD、CABABAD、CABABABD),将第一个乒乓记录坐标替换为其相邻的记录坐标,一个重复组内沿用相同规则进行替换,不再依次进行判断。比如CABABD替换为CAABBD、CABABAD替换为CAABAAD。
4)遍历结束后重复步骤2)。
5)重复2)3)4),直到所有记录均合格。
6)删除重复记录。
顾客识别算法:
1)判断目标区域的范围。
2)使用居住地工作地最近的地点与目标区域的距离。按下面条件进行筛选:(D为距离)
D<1公里 停留时长>10min
1公里<D<2公里 停留时长>30min
D>2公里 停留时长>45min
满足以上条件即为商场顾客
使用三组速度(进入前,里面,离开后)计算方差,大于1的去掉,计算进入前的最近三个速度的平均速度,和在目标区域里面的平均速度,如果相差小于于10km/h为非顾客则去掉,否则是顾客。
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
车载模块原理分析与电路设计详解
基于大数据与深度学习的穿戴式运动心率算法
基于定位的数据聚类新算法
GMIF2024聚焦产业创新之道 共谋存储生态繁荣发展
数据挖掘概念与技术
嵌入式数据挖掘模型及其在银行卡业务中的应用
2024年政府工作十大任务发布,大数据、人工智能是重点
昆山的朋友,你知道物联网行业的这个消息吗?
IDC预计,2029年中国大数据总体市场规模将超730亿美元
大数据时代到来,我们电子工程师如何应对?
基于决策树技术的高校研究生信息库数据挖掘研究
大数据数据场景下的网络精准规划与优化
丰田将与腾讯在电动汽车人工智能、云计算和大数据方面展开合作
上海:加快智算芯片国产化部署
关于大数据的基本资料
晶圆代工厂商牵手RISC-V企业,瞄准低功耗AI芯片
大数据时代
大数据与可穿戴设备将改变生活
基于云计算的数据挖掘平台架构及其关键技术研究
用大数据方法协助研发下一代电池电解液
数据中心的核心:飞思卡尔通信处理技术,助用户“一马当先”
基于数据挖掘的语音驱动三维人脸动画合成
IDC预计,2028年中国大数据总体市场规模将超621亿美元
神经计算研究现状及发展趋势
工信部:我国新能源汽车发展正带动产业生态全面重塑