数据采集层-埋点

规范化--标准化--自动化--智能化--个性化
数据埋点

数据采集体系方案

1.日志采集  :
01.浏览器的日志采集
        页面浏览日志采集--
                PV  <page view>     页面浏览量
                UV <Unique Vistors> 访客数
            01.HTTP Request
                    HTTP  Request Line          请求行
                            请求方法<get post> 、请求资源的URL  HTPP协议版本号
                    HTTP  Message Header    请求报头
                    Http Messsage Body          请求正文
            02.HTTP Response
                    状态行
                    响应报头
                    响应正文
            03.浏览器展现
                <在浏览器适当位置增加一个日志采集节点,当浏览器解析到这个节点时,
                   将自动触发 一个特定的HTTP请求到日志采集服务器>
                                采集工作和发送模块--收集--解析                                   
            页面交互日志采集--
                 采集代码与要监测的交互行为做绑定

            采集--发送--收集--解析--预处理--具有半结构化特征
                 预处理包括-- 
                     合法性校验--  识别流量攻击,网络爬虫和虚假流量
                     数据缺失项补正--对取值进行归一,标准化处理以及反向补正
                     无效数据剔除
                     日志数据隔离分发
02.无线客户端的日志采集
        事件
              页面事件
                    页面展示接口
                    页面退出接口
                    页面扩展信息接口

              控件点击事件
                    呈现高度的业务特征

              分析--
                    设备和用户的基本信息
                    被访问的页面信息
                    页面来源--透传参数,即把当前页面的某些信息,传递到下一个页面
                基本分析内容:
                        用户行为路径
                        计算页面停留时间
        客户端类型
                native app
                    Android
                    iOS
                hybrid -app
                    H5
        特殊场景
            无线客户端的访问行为存在明显的回退行为--利用
            客户端聚合数据

数据传输

    无线客户端日志的上传-压缩和传输
        上传机制
        01. 产生一条上传一条
        02.先存储到客户端本地,伺机上传
    传输--优先级以及分流
 面对的问题
        1.没有数据-需求覆盖不全
        2.海量数据-结构化和规范化--日志规范以及元数据中心
        3.采集方案-终端设备技术无关,日志采集的着眼点与基于日志的后续应用。

数据同步

    01.业务系统--数据系统--数据服务系统<业务>
        数据源--来源多样
                数据库  MySQL ORACLE DB2
                    --      Mongodb  Hbase   OceanBase  Hive
                文件系统:
                        OSS  CSV
                数据量大以及时效
    02.同步方式
            直连同步:
                    方式:通过规范接口API和基于动态链接库
                    对业务可能产生影响
            数据文件同步
            数据库日志解析同步:
                    最常见的方式
                    数据延迟,积压和漂移等情况
    03分类.
        从时间上
            批量数据同步
                    Data X-- 先创建目标表,在通过同步工具填写数据库连接-表字段等各种配置信息后测试完成同步
                                OneClick
            实时数据同步
                TT  Time Tunnel  消息订阅模式--主动和被动的订阅机制,历史数据订阅
        从数据量上
                增量和全量
                    合并技术--merge=update+insert

    04. 数据同步遇到的问题
        功能:数据漂移
            多获取一天的数据,通过多个时间戳字段获取相对准确的数据
        性能:分库分表方案--解决高并发大数据量的处理能力

采集字段

    设备标识
            PC端--cookie信息
            APP端--  IMEI IMSI MAC UDID
                        用户自我保护意识加强-
                        各系统升级-权限控制
            阿里巴巴的UTDID--每台设备一个ID作为唯一标志
                        生成算法-- 存储方式-存储位置-共享方式

blogroll

social