"); //-->
本文分享自天翼云开发者社区《用户标签属性流程处理方法》,作者:石泽涛
用户画像是一种勾画目标用户、联系用户诉求与设计方向的有效工具,目前用户画像算法普遍存在的问题是数据源较少、数据特征不明显、处理效率低下、分析维度单薄。在分布式计算的架构基础上,我们搭载主框架程序,打造5维8类DPI过滤、打标签算法,攻克处理效率低下、耗费资源大的难题,高效、准确的实现用户上网行为进行深度解析,实现每天百TB数据量级处理入库解析,同时大大加强了用户特征的提取与归类,体现数据价值,依靠精细化运营实现对用户的覆盖,以更好的服务好各类用户群体,带来商业价值。
用户标签属性流程处理:
主框架程序加载
通过读取DPI数据并对数据进行过滤、去噪音处理,再把数据依次传给A、B、C标签程序, A、B、C标签程序通过对传进来的DPI数据分别进行匹配,最终将结果发给框架程序,由框架程序汇总后输出到HDFS
噪音数据过滤
制定噪音过滤规则库,输入的每条DPI记录的URL首先和噪音规则库里的噪音规则匹配,如果URL以上述噪音后缀结尾,该条DPI数据就被过滤,从而提高打标效率
异常数据清洗
制定异常规则库,对无法定位用户的dpi记录进行清洗,如数据字段不足、手机号、MEID号同时为空、URL异常等

专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
大数据时代到来,我们电子工程师如何应对?
物联网开发者大会清华张林演讲
大数据对网络技术和产业的挑战
上海:加快智算芯片国产化部署
IDC预计,2029年中国大数据总体市场规模将超730亿美元
IDC预计,2028年中国大数据总体市场规模将超621亿美元
如何快速搭建Hadoop运行环境
大数据:高端安全检测的必由之路
基于大数据与深度学习的穿戴式运动心率算法
GMIF2024聚焦产业创新之道 共谋存储生态繁荣发展
大数据产业链构成分析
用大数据方法协助研发下一代电池电解液
昆山的朋友,你知道物联网行业的这个消息吗?
大数据时代
大数据数据场景下的网络精准规划与优化
晶圆代工厂商牵手RISC-V企业,瞄准低功耗AI芯片
大数据与可穿戴设备将改变生活
车载模块原理分析与电路设计详解
大数据在物流行业的应用
丰田将与腾讯在电动汽车人工智能、云计算和大数据方面展开合作
关于大数据的基本资料
工信部:我国新能源汽车发展正带动产业生态全面重塑
2024年政府工作十大任务发布,大数据、人工智能是重点
通讯协议对智能家居的影响究竟有多大?
数据中心的核心:飞思卡尔通信处理技术,助用户“一马当先”