01.数据安全问题
02.数据质量问题
03.数据服务问题
04.数据成本问题
数据安全问题
确保数据不会发生增加、修改、丢失和泄露,防止数据出现窃取,篡改,破坏以及假冒。
可用性:
灾备-备份 容错
保密性
授权机制--认证<身份认证和口令认证>和访问控制
关键敏感信息加密-隐藏
存储安全-传输安全
审计和预警-安全意识的培养
完整性
数据质量问题
数据质量四数据分析结论有效性和准确性的基础,也是前提
数据质量:完整,准确,一致,及时
01.完整性:
出现的问题:
记录缺失 或者是记录中的字段缺失
解决方式:
02.准确性
数据中的记录是否出现异常或者错误信息
03.一致性
对于同一份数据,需要保证一致性
04.及时性
批量数据
实时数据
数据质量建设
01.消费场景知晓
数据资产等级 Asset
毁灭性质 A1 -- 全局性质 A2 -- 局部性质A3 -- 一般性质A4 -- 未知性质 Ax
如何落地--
基于元数据的应用链
元数据的血缘关系
02.数据生产加工各个环节卡点校验
业务变更,是否通知下游
业务新增,是否纳入统计
03.风险点监控
业务规则校验
04.质量衡量和配套工具
故障体系:故障定义,故障等级,故障处理,故障复盘
工具和人员双管齐下
工具-- 发布平台-集成通知功能
数据库变化感知
预警:预警时间早于实际使用时间
告警机制:监控范围,异常定义,是否告警,告警方式,合适告警,给谁告警
告警类型: 出错 超时 未完成 周期性告警 完成告警
数据资产管理--存储管理
数据存储与备份
存储效率和成本
采用压缩的方式
不同的数据采用不同的压缩算法
数据重分布
修改表的重分布,避免列热点
存储管理系统
现状分析-- 问题诊断 -- 管理优化 --效果反馈
生命周期管理
管理策略
01.增量表-merge全量表策略:
使用日期作为分区
02.永久保留策略:
冷数据管理系统: 重要且不可恢复,占用空间大且访问频次低
方式:迁移到冷数据中心,同时将运算库中的数据清除
03.彻底删除策略: 一次性删除 ,周期性删除
管理矩阵
01.历史数据等级划分
非常重要的业务和应用数据,具有不可恢复性
不重要,可恢复
02.表类型划分
维度表
事件型流水表--无主键或无重复
事件型健翔表--业务过程性数据,有主键且主键的属性会缓慢发生变化
普通全量表
Merge全量表
ETL临时表
成本
存储成本和计算成本和扫描成本
数据服务
数据服务--数据产品
日常工作项目化-- 项目报告,分析报告
日常工作产品化
个性化推荐,优化购物体验
客服-运营等 数据化运营和决策
不断积累业务需求以及技术积累
按照分析师沉淀的成熟分析思路组织数据-行业一体化分析产品
不同场景化以及专题型的数据产品
数据产品形态
1.临时需求阶段
方式:简答的查询-excel导出
收获:逐渐积累了数据和业务经验,为后续数据产品的思考和规划积累的丰富的原始需求
2.自动化报表阶段
常见的功能报表--通过报表将数据需求固化下来,增强数据可读性
收获:数据需求精细化和多元化,积累了丰富的技术和业务经验
2.1第三方BI工具
2.2自主BI工具
3.数据营销平台
第三方数据统计分析
自主的分析工具
4.数据产品平台
实时数据监控平台
整体架构
基本要求
01.数据质量-数据一致性和数据准确性
02.数据安全:权限管控
03.数据可用性
基本架构
版本--PC版和APP版
层次:
数据监控、
专题分析:
应用分析:营销活动--以前通过人工筛选
筛选目标数据,自主分析,对接前后台应用,数据和后台对接
数据决策
5.对外服务
01.生意参谋
店铺自由分析
店铺行业分析
店铺竞争分析
专题工具和自助取数
了解大环境,了解自己和了解竞争对手
02.偏好分析
了解不同关键词的近日表现,从而反推消费者偏好
6.数据服务安全
压测
限流
降级
统计和授权
参考: 《大数据之路-阿里巴巴大数据实践》