数据产品思考的问题

01.数据安全问题
02.数据质量问题
03.数据服务问题
04.数据成本问题

数据安全问题

确保数据不会发生增加、修改、丢失和泄露,防止数据出现窃取,篡改,破坏以及假冒。
可用性:
    灾备-备份 容错
保密性
    授权机制--认证<身份认证和口令认证>和访问控制
    关键敏感信息加密-隐藏
    存储安全-传输安全
    审计和预警-安全意识的培养
完整性

数据质量问题

数据质量四数据分析结论有效性和准确性的基础,也是前提
数据质量:完整,准确,一致,及时
    01.完整性: 
            出现的问题:
                记录缺失 或者是记录中的字段缺失
            解决方式:
    02.准确性
            数据中的记录是否出现异常或者错误信息
    03.一致性
        对于同一份数据,需要保证一致性
    04.及时性
        批量数据
        实时数据

数据质量建设

01.消费场景知晓
        数据资产等级 Asset
                    毁灭性质 A1 -- 全局性质 A2  -- 局部性质A3 -- 一般性质A4 -- 未知性质 Ax
                如何落地--
        基于元数据的应用链
                元数据的血缘关系
02.数据生产加工各个环节卡点校验
    业务变更,是否通知下游
        业务新增,是否纳入统计
03.风险点监控
    业务规则校验
04.质量衡量和配套工具
    故障体系:故障定义,故障等级,故障处理,故障复盘                
    工具和人员双管齐下
    工具-- 发布平台-集成通知功能
         数据库变化感知
         预警:预警时间早于实际使用时间
         告警机制:监控范围,异常定义,是否告警,告警方式,合适告警,给谁告警
         告警类型: 出错 超时  未完成 周期性告警 完成告警

数据资产管理--存储管理

数据存储与备份
存储效率和成本
        采用压缩的方式
            不同的数据采用不同的压缩算法
        数据重分布
            修改表的重分布,避免列热点
    存储管理系统
            现状分析-- 问题诊断 -- 管理优化 --效果反馈
生命周期管理
    管理策略
                01.增量表-merge全量表策略:
                        使用日期作为分区
                02.永久保留策略: 
                        冷数据管理系统: 重要且不可恢复,占用空间大且访问频次低
                                方式:迁移到冷数据中心,同时将运算库中的数据清除
                03.彻底删除策略: 一次性删除 ,周期性删除
    管理矩阵
                01.历史数据等级划分
                        非常重要的业务和应用数据,具有不可恢复性
                        不重要,可恢复
                02.表类型划分
                    维度表
                    事件型流水表--无主键或无重复
                    事件型健翔表--业务过程性数据,有主键且主键的属性会缓慢发生变化
                    普通全量表
                    Merge全量表
                    ETL临时表          
    成本
            存储成本和计算成本和扫描成本

数据服务

数据服务--数据产品
    日常工作项目化-- 项目报告,分析报告
    日常工作产品化
    个性化推荐,优化购物体验
    客服-运营等 数据化运营和决策
    不断积累业务需求以及技术积累
    按照分析师沉淀的成熟分析思路组织数据-行业一体化分析产品
    不同场景化以及专题型的数据产品

数据产品形态

1.临时需求阶段
    方式:简答的查询-excel导出
    收获:逐渐积累了数据和业务经验,为后续数据产品的思考和规划积累的丰富的原始需求
2.自动化报表阶段
    常见的功能报表--通过报表将数据需求固化下来,增强数据可读性
    收获:数据需求精细化和多元化,积累了丰富的技术和业务经验
    2.1第三方BI工具
    2.2自主BI工具
3.数据营销平台
    第三方数据统计分析
    自主的分析工具
4.数据产品平台
        实时数据监控平台
    整体架构
        基本要求
            01.数据质量-数据一致性和数据准确性
            02.数据安全:权限管控
            03.数据可用性
        基本架构
                版本--PC版和APP版
                层次: 
                    数据监控、
                    专题分析:
                    应用分析:营销活动--以前通过人工筛选
                        筛选目标数据,自主分析,对接前后台应用,数据和后台对接
                    数据决策
5.对外服务
 01.生意参谋
        店铺自由分析
        店铺行业分析
        店铺竞争分析
        专题工具和自助取数
    了解大环境,了解自己和了解竞争对手           
 02.偏好分析
  了解不同关键词的近日表现,从而反推消费者偏好
6.数据服务安全
    压测
    限流
    降级
    统计和授权

参考: 《大数据之路-阿里巴巴大数据实践》

blogroll

social