今天给各位分享大数据脱敏解决方案的知识,其中也会对大数据脱敏解决方案进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文导读目录:

1、大数据脱敏解决方案

2、政务信息共享数据安全中的密码支撑技术与应用

3、「数据分析进阶」在线教育企业指标搭建(数据已做脱敏处理)

  1. 大数据安全现状分析   基于Hadoop生态系统的大数据平台随着企业的不断采用及开源组织的持续的优化、增强,已逐渐成为大数据平台建设的标准产品。然而Hadoop最初的设计并未考虑其安全性,这些平台专注于发展数据处理能力,忽视了其他能力的发展,但Hadoop生态系统作为一个分布式系统,承载了丰富的应用,集中了海量的数据,如何管理和保护这些数据充满了挑战,当前市场上,大数据平台在数据本身的安全管控方面普遍存在严重缺失和较大的漏洞。   从企业内部来说,大数据平台的安全管控能力缺失,使得平台在数据存储、处理以及使用等各环节造成数据泄露的风险较大,安全风险面广,且缺乏有效的处理机制;另一方面,企业敏感数据的所有权和使用权缺乏明确界定和管理,可能造成用户隐私信息的泄露和企业内部数据的泄露,直接造成企业声誉和经济的双重损失。   2. 方案目标   (1)针对大数据敏感数据信息,设计并落实敏感数据安全解决方案,实现敏感数据的模糊化,确保敏感数据信息安全可靠;   (2)通过大数据平台安全方案的建设,填补大数据平台数据安全防护方面的空缺,有效降低大数据安全管控方面的风险。   3. 大数据脱敏方案   本方案适用于基于开源Hadoop架构的大数据平台环境,包括Mapreduce、HDFS、Hive、HBse等大数据组件。   3.1大数据脱敏设计架构   大数据平台脱敏及模糊化模块主要包括两大功能:敏感数据发现和敏感数据脱敏。架构设计如下图所示:   (1)敏感数据发现:通过设置敏感数据发现策略,平台自动识别敏感数据,发现敏感数据后产生报警,保障数据在产生阶段安全。敏感数据发现功能包括如下内容:   · 敏感信息规则库建立   · 关系型数据检测   · 敏感内容描述检测   (2)敏感数据脱敏:针对Hadoop平台Hive、Hbase大数据存储组件结合用户权限提供动态数据脱敏功能,保障敏感数据访问安全,同时基于大数据安全分析技术,发现敏感数据访问的异常行为,并提供敏感数据视图,实现全局化数据管理和对各种类别敏感数据脱敏的精细化管理。   数据脱敏及模糊化功能模块是在数据库层面对数据进行屏蔽、加密、隐藏、审计或封锁访问途径的方式。该模块作为一个网关形式部署,所有需要进行敏感数据动态脱敏的应用系统需通过该产品实现对数据库的访问。   3.3大数据脱敏方法   数据脱敏方法可根据用户需求的不同而进行定制,我们在系统中默认提供了最常见的两种脱敏方法示例如下:   方法一:随机值替换脱敏   本方式采用随机值替换(字母变为随机字母,数字变为随机数字)的方式来改变查询返回的结果,该方案的优点是可以在一定程度上保留数据的格式,且用户在不知情的情况下无法发现查询返回的数据是经过脱敏操作的。   方法二:特殊字符替换脱敏   与随机值替换不同,该方式在处理待脱敏的数据时是采用特殊字符(如“*”)替换的方式,该方式更好的隐藏敏感数据,但缺点是用户无法得知原数据的格式,在涉及到一些数据统计工作的时候会有影响。   在实际使用过程中,多种脱敏方法经常需要配合使用,对一张数据表中不同资源使用不同的脱敏方法进行数据脱敏,示例如下:   脱敏前:   脱敏后:   在这个示例中,我们对此表的三个字段分别用不同的脱敏方法进行了处理:   第一个字段采用随机数替换,替换范围为前IP地址前两个值。   第二个字段采用特殊字符替换,替换范围为所有字符。   第三个字段采用特殊字符替换,替换范围为第3-6个字符。  伴随着国家推进“数字化政府”转型的信息化建设,国家和地方各级电子政务外网、政务云平台、政务数据共享交换平台等关键基础设施陆续建成、贯通并投入使用。在此过程中,数据正在源源不断、常态化、大量的聚集到政务数据共享交换平台或通过共享平台交换,必然对数据安全防护与数据安全治理提出新的要求。   密码技术作为信息安全领域一项重要的数据防护核心技术,能有效解决信息的保密性、完整性以及真实性问题。GB/T 39786—2021《信息安全技术 信息系统密码应用基本要求》、信息安全等级保护2.0等标准都要求使用密码技术为政务信息化建设提供安全可靠的底层安全技术支撑。   1 密码技术需求分析   随着国家标准GB/T 39477—2020《信息安全技术 政务信息共享 数据安全技术要求》(以下简称标准)正式实施,标准在国内首次对政务信息共享中的数据安全提出了具体的技术要求。政务信息共享数据安全技术要求框架如图1所示。   图1 政务信息共享数据安全技术要求框架   可见,在政务信息共享数据安全技术要求框架中包括的数据存储加密、数据加密、安全传输、身份鉴别及操作抗抵赖、数据防泄漏等安全技术要求基本上可以通过现有的密码技术和常规安全产品方案解决,这里不再赘述。同时,政务信息共享场景下还存在一些复杂的、独特的数据安全技术要求,例如数据分级分类、数据跨域传输、数据访问控制、数据脱敏、数据召回与阻断等,都需要结合政务信息共享场景设计合适的密码技术方案。   1.1 按需分层分类的密码服务   对数据进行安全分级分类是数据安全领域区别于传统信息安全最重要的特征,目前我国的政务信息资源安全分级分类国家标准正在制定中,以下简要介绍美国联邦政府FIPS 199标准定义的信息分级方法及流程。   (1)政府信息分级流程:①信息系统业务部门将信息系统中包含的信息分类;②进行信息定级的专用人员(这类人员需经过系统培训)根据标准和规范对信息进行安全分类;③业务部门根据政府内部系统定级规则和行政令,形成信息安全级别;④根据给出信息的最高安全级别要求为信息系统进行定级。   (2)政府信息分级规则维护流程:①业务部门参考不同级别的安全基线和信息的安全要求,综合形成信息系统的基线,报安全评估部门审批;②安全评估部门审批完成后形成安全防护基线,进行业务系统的安全体系建设、运行维护等。   参照美国政府FIPS 199信息和信息系统的安全分类标准的定义,数据分级分类需要达到三个安全目标,即机密性、完整性和可用性,从而实现防止信息非授权泄露、非授权修改或破坏及确保对信息的实时、可靠访问和使用。基于以上分析,实现数据的分级分类应采用分层加密技术对共享交换数据进行处理,并根据确定数据分级的安全基线匹配加密策略。   1.2 数据跨域加解密   政务信息共享交换平台作为政务信息资源共享的枢纽部署在国家电子政务外网公共区,为国家各级政府和地方单位提供信息资源目录汇集管理、信息资源共享交换、业务协同应用支撑等服务。政务信息共享交换平台由国家、省级、地市级等多级数据共享交换平台组成,各级共享交换平台横向对接所辖区域政务部门信息资源,纵向实现级联,形成横向联通、纵向贯通的政务数据共享交换体系,如图2所示。   图2 政务信息共享交换平台数据共享交换体系   在政务数据共享交换过程中,对于经过加密技术处理后的分级数据面临跨层级、跨地域、跨系统、跨部门、跨业务的安全传输问题,显然对于密码支撑系统的设计提出了严峻的挑战。因此,需要考虑建设全国统一的面向政务信息共享交换平台的密码支撑体系,基于统一的密钥管理策略解决共享交换数据的跨域安全传输问题。   1.3 灵活的加密策略   “访问控制”是标准中最重要的一项数据安全技术要求,在共享数据交换与共享数据使用的安全要求中都有详细描述。需要指出的是,数据安全领域的访问控制是以“数据”为中心,即需要从用户访问权限、数据访问权限、数据有效性三个维度来处理数据的访问控制问题。数据访问控制的安全维度如图3所示。   图3 数据访问控制的安全维度   考虑到政务信息共享交换平台中不断更新和指数级增长的数据量,传统信息安全系统中通过用户权限管理实现用户对特定数据的访问授权,已不足以解决海量数据的访问控制问题,需要充分利用现有云计算、微服务架构等新技术,并通过开发密码算法层面的创新应用方法来实现数据的分级和受控访问。例如构建可动态部署的密钥管理子系统,以实现数据的安全分级和数据的限时受控访问,在数据生命周期结束时通过移除对应的密钥管理支撑子系统来阻断数据的访问等。   此外,数据召回与察觉数据泄露后执行阻断访问也是政务信息共享场景中最具挑战性的一项安全需求。通常情况下,当共享数据使用方获得数据并取得数据使用权限后,一旦需要进行数据召回与访问阻断控制,就需要动态调配解密密钥,避免接收方绕过控制系统对数据进行离线的非受控访问。   1.4 数据脱敏仍可用   数据脱敏通常是指对敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在标准中要求“对敏感数据应建立数据脱敏安全策略,并按安全策略进行脱敏”“应能根据应用需要保留敏感数据原数据格式、属性或关联”。在实际应用中,脱敏安全策略包括替换、重排、截断、掩码、偏移取整等脱敏规则,而且脱敏后的数据不影响业务系统执行存储和查询、统计等功能。   针对传统的数据字段加密可能改变数据格式的情况,需要采用FPE保留格式加密和OPE次序保留加密等新技术同时实现数据的脱敏与加密,支持数据还原,并且数据在经过安全处理后不影响数据的识别、关联、搜索、计算等可用性。通过应用FPE、OPE等创新密码技术可满足数据脱敏与密文检索等政务信息共享场景下的新需求。   1.5 兼容已有密码设施   政务信息共享交换平台系统已经过多年建设,基本形成了以数字证书系统为基础的密码支撑体系,为了满足政务数据共享交换场景下的数据安全新需求,采用新的密码技术手段和方法的同时,也需要充分考虑与已有密码基础设施的融合,在不影响现有业务应用的情况下构建持续改进的密码安全技术支撑体系。   2 政务共享密码支撑体系设计   为支持国家、地方政务信息共享交换平台系统基于标准要求的数据安全升级,满足国家GB/T 39786—2021《信息系统密码应用基本要求》的安全规范,符合信息安全等级保护2.0国家标准的安全要求。针对以上需求,提出面向政务信息共享交换平台的密码支撑体系设计方案,方案包括应用服务层、接口服务层和资源服务层,以及对应的功能服务与管理模块。密码支撑体系结构框架如图4所示。   图4 密码支撑体系结构框架与功能服务   面向政务信息共享交换应用,构建了统一密码服务平台。该平台属于信息化系统中台(PaaS层),可为政务数据共享交换业务应用提供统一的密码技术支撑服务。平台上接政务数据共享交换业务应用,下联密码基础设施,将密码基础设施统一管理并资源池化,对外提供统一服务接口和管理入口。平台采用微服务架构设计并支持容器自动化部署,满足政务数据共享交换中各类数据安全应用场景需求。基于统一密码服务平台的密码支撑体系主要构成包括:   (1)应用服务,提供统一用户管理、应用管理、密码策略配置和密钥管理等功能模块,并支持各级政府统建或自建的PKI/CA数字证书系统、IAM/IDP统一身份认证与身份管理系统。   (2)接口服务,提供统一密码功能调用接口,如国密全算法加密/解密、签名/验签、联合签名运算与证书管理、标识管理等,支持多种主流接入方式和身份认证协议,并可支持 API/SDK客户化定制。   (3)资源服务,提供统一的密码设备资源管理、运维监控和平台系统管理等功能模块,实现对平台的整体运行配置、管理、监控和审计等功能。   (4)密码综合管理,提供可视化的密码应用情况综合管理与监测,可直观展示当前系统中密码功能执行的整体情况,在不采集业务数据的情况下,可对系统中密码应用的合规性、完备性进行监测和预警。   同时,考虑到政务信息共享交换平台纵向级联的现实情况,平台还支持分布式部署与集中管理,以支持构建全域统一的密钥管理策略,实现政务数据的跨域交换与安全传输。   3 密码技术应用方案   为满足政务信息共享场景下实现数据脱敏、数据访问控制、数据跨域安全传输等独特的数据安全需求,需要创新应用一些具有针对性的核心密码技术,以解决政务数据共享交换过程中面临的数据安全问题。提供标准密码服务的同时,结合具体政务数据安全应用场景提供针对性的密码技术应用服务。   3.1 融合模式的密码体制   基于身份标识的密码系统(Identity-Based Cryptograph,IBC)是一种非对称的公钥密码体系,其概念在1984年由Shamir提出,标识密码系统与传统公钥密码系统(Public Key Infrastructure,PKI)一样,每个用户有一对相关联的公钥和私钥,IBC最主要的特点是系统中不需要生成和管理PKI体系中的公钥证书,而是把用户公开的标识如姓名、身份证号码、IP地址、电子邮箱地址、手机号码等作为公钥,公钥不需要额外生成和存储,只需通过某种方式公开发布。用户的私钥由密钥生成中心(Key Generate Center,KGC)根据IBC系统公共参数、主密钥和用户标识计算得出,私钥由用户秘密保存。用户的公钥由用户的标识唯一确定,从而不再需要公正的第三方(例如CA中心)来保证用户公钥的真实性。   IBC标识密码体系是从PKI公钥密码体系发展而来,简化了管理机制和算法相关的交互流程,因为其标识即为公钥、密钥天然托管等特点,在政务数据共享交换场景中,可基于IBC标识密码体系实现数据加密共享和灵活的解密策略控制,例如以数据接收者ID作为标识公钥对数据进行加密,可以确保只有接收者具备解密能力;以时间作为标识公钥对数据进行加密,可以实现数据基于有效使用时间的解密控制;以群组ID作为标识公钥对数据进行加密,可以实现数据面向特定用户群组的解密共享。同时通过设计一定的域公共参数隐藏策略,可实现数据的召回和由数据提供方触发的数据阻断访问等。   政务信息共享密码支撑体系融合了标识密码和数字证书两套密码体系,通过统一密码服务平台,既兼容了原数字证书体系的身份认证、数字签名等应用,又能基于标识密码技术支持灵活的数据分级分类、数据脱敏、访问控制等数据安全应用。   3.2 标准的密码服务功能   统一密码服务平台提供标准数字证书的申请、签发,提供基于数字证书的身份认证、数字签名、数据加密与解密等标准密码服务功能。政务信息共享交换平台系统能够基于统一的密码接口规范调用各项密码资源,实现加密/解密、签名/验签、密钥产生及生命周期管理等基础密码功能。   3.3 专用的密码服务功能   (1)FPE格式保留加密。   在政务信息共享交换平台系统中,对手机号码、身份证号等涉及公民个人隐私的敏感数据进行加密极其必要,然而使用传统加密技术通常会改变数据格式,使加密后的数据长度和数据类型发生变化,需要系统修改数据结构或重新设计应用程序来适应这种变化,成本非常高昂。格式保留加密(Format-Preserving Encryption,FPE)是最适合用于处理此类数据脱敏需求的密码技术,它可将一种特定格式的明文加密成相同格式的密文,按密码学术语描述,即在一个对称密钥k的控制之下,加密明文x成密文y,y具有和x相同的数据类型和长度。FPE格式保留加密技术可以在不需要更改数据类型或者应用程序的情况下完成对敏感信息的加密以实现数据脱敏处理,FPE具体效果如图5所示。   图5 FPE 格式保留加密技术   (2)OPE次序保留加密。   数据库经过加密算法加密后会以密文的形式存在,数据的隐私因此受到加密算法的保护,然而在政务信息共享中特定的数据脱敏安全策略下,有可能为了保证数据的可用性,要求在不解密还原数据库的前提下对密文进行有效的检索查询。   目前可搜索查询的加密算法均只容许单一的精准匹配,换句话说,用户的查询请求只能匹配到某个具体密文,而对于更加复杂的查询请求(如范围查询),以上算法都是无效的。而OPE次序保留加密技术(Order-Preserving Encryption,OPE)能够解决此类问题,应用OPE技术后允许在密文数据库上进行索引、排序和搜索操作,以满足复杂数据脱敏安全策略的设计需求。OPE具体效果如图6所示。   图6 OPE次序保留加密技术   (3)ETL数据透明加解密。   ETL是指数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。目前常用的 ETL 工具包括 Sqoop、Kettle、DataX等。通过开发与上述 ETL 工具相融合的加解密插件,在数据执行抽取、加载时自动解密密文数据,转换处理回写时自动加密明文数据,从而实现数据在 ETL 数据处理过程中的透明加解密。数据在存储介质上是密文数据,抽取、加载到内存时为明文数据,数据一旦离开 ETL 的自动解密环境则无法还原,从而在最大限度不改变应用系统的前提下,防止数据的非授权泄露。ETL 数据透明加解密既支持结构化数据格式,也支持非结构化数据格式操作,因而极大拓展了该项目技术的适用性。   (4)UDF数据加解密。   UDF(User Defined Function,用户自定义函数)数据加解密技术,即由政务大数据平台的数据仓库、数据集市系统通过UDF函数实现数据加解密处理。该方式相对于ETL或HDFS(分布式文件系统)数据透明加解密方案,需要数据共享交换平台进行UDF函数的集成开发和部署,通过SQL语句触发加解密操作,虽然开发和实施过程相对复杂,但支持细颗粒度的解密鉴权,安全性更高。可满足多种复杂数据安全防护场景下的数据防泄露需求。   (5)无介质密码签名运算。   密钥分片与联合签名运算的技术,可以实现密钥在无安全存储介质的情况下,依然能保证签名过程中的敏感数据安全性和签名结果的合法性。可提供一种方法简单、安全的基于国密SM2/SM9算法实现的协同数字签名应用方案,其原理是将算法私钥分割为两个部分,即第一分片子密钥和第二分片子密钥。第一分片子密钥安全分发到共享数据使用方,第二分片子密钥由联合签名服务器派生生成,保存在共享数据提供方或共享数据交换方。共享数据使用方使用获得的第一分片子密钥对消息进行签名后,将签名结果传递给联合签名服务器,联合签名服务器使用第二分片子密钥对签名结果变换后生成标识私钥对消息的完整签名,该完整签名可以实现共享数据申请的不可否认和操作的不可抵赖。   考虑到政务信息共享交换场景下,各层级的数据交换频繁发生,统一为全国接入共享交换平台所有用户安全分发授权访问数据的密钥硬件介质是不现实的,因此通过无介质密码签名运算技术,既解决了密钥的安全分发与算法的安全运算,还可以实现政务信息共享场景下身份鉴别、过程追溯、数据处理溯源等数字签名密码技术的安全应用。   4 结 语   密码技术是目前世界上公认的保障网络与信息安全最有效、最可靠、最经济的关键核心技术。2020年1月1日起正式施行的《中华人民共和国密码法》要求,“关键信息基础设施必须依法使用商用密码进行保护 , 并开展商用密码应用安全性评估”。随着国家深入推进和开展政务信息共享和标准的贯彻落实,数据安全中的密码技术应用新需求还会不断涌现,相应的技术规范、管理要求和解决方案也应该持续不断地发展和更新。   作者:杨 晶、周海鑫。选自《信息安全与通信保密》2021年第6期  身为一个数据分析师,指标体系搭建是一个老生常谈的问题,今天逛知乎发现指标体系的理论知识有不少,但真正的实操案例确是少之又少。为了帮自己总结原来工作,也帮助数据分析小白了解如何搭建数据指标体系,准备写这篇文章,下面就开始我们愉快的指标体系搭建之旅吧。   后续规划:   在搭建好的指标模型上进行专题分析,如果大家有兴趣了解的话,我可以再写一篇专题分析的文章。   本文学习建议:   学会整体搭建流程,这个方法论是可以复制到其他行业的。因为是自己做前端报表展示,2.7和2.8内容会稍微难一点,2.7 内容是定时任务处理,这个Python中的Cerely模块可以学一下,用来处理定时任务特别好用。2.8中的Django框架属于Python中的网站开发框架,了解大体框架即可,作为数据分析师不需要特别精通。   本文适合人群:有一定的数据分析基础,比如Excel,PPT,xmind(强烈安利这个脑图工具,能够快速帮助你整理思维逻辑),http://draw.io(类似的软件有很多比如微软的visio比draw还要更强大,主要用来画流程图的),SQL(这个是必须要足够熟练的),Hive,神策数据平台(也就是可视化工具,随便会一款就行了,tableau也可以),Python(此处只要求基础Python代码能力,对于算法不做硬性要求,毕竟我自己也只是个调参侠,哈哈)。需要从0到1去搭建一个完整的指标体系。有较强的跨部门沟通能力(这个指标体系是全公司的指标体系,涉及到跨部门沟通的问题)。   看完本文的你的收获:从0到1搭建数据指标体系学习到高级数据分析师的工作思维和业务能力   本文内容:   指标体系就是指衡量企业业务状态的指标集合。   好的指标体系的特征:科学性:指指标必须符合业务状况,计算方式要符合行业标准(同比和环比)系统性:体现各指标之间的逻辑关系代表性:能突出反应业务现状的指标统一性:在各指标被不同部门使用的时候,需要保证指标的计算口径的统一日常看数困难,领导日常看到各团队反馈的数据多且杂乱,很难抓到业务重点,而且存在每组数据不统一的情况,汇报的时候容易出现一个项目不同团队汇报出不同结果的情况;问题归因困难,对于一些比如:销售反馈最近线索质量下降。这类的问题无法追溯问题原因;转化路径梳理困难,由于转化涉及多个业务部门,没有统一的数据很难将用户的转化路径梳理出来   这三个问题阻碍了业务正常发展,需要从0到1搭建一套完整的指标体系来解决这三个问题。业务复杂性:流程越复杂,我们越需要搭建指标体系   eg:教育行业成单流程(使用http://draw.io可轻松画出此图)行业毛利:行业毛利越低,企业越需要搭建指标体系   eg:2018年各行业毛利率:公司规模:公司规模越大,越有必要搭建指标体系看清业务现状   当企业没有统一指标体系的时候,各部门对于同一件事务的反馈很可能出现不同的结论,引发冲突。而指标体系,可以让不同部门、企业管理者看到一个相对客观的数据,能够统一公司不同部门对业务现状的理解。找到业务痛点,确定分析主体   到了一个公司,一定先做留存提升分析吗?智能指导业务指标预测:结果指标预测指标预警:负面指标优化异常归因:异常数据归因优化产品/业务逻辑:   我们可以通过漏斗分析来观察我们各环节的业务状况,从而找出漏斗过程中折损较大的过程,做重点优化。角色:   数据分析师:1至3人;主要负责源数据整合,指标梳理,规范数据库;   项目经理:1人,主要负责统筹项目,连接数据部门-业务部门-开发部门。对接团队:   运营:大课营收   销售:线索量、营收   内容运营:引流转化、专栏日活、专栏转化产品:日活、留存工作流程:项目预估时间:三个月以上公司架构:了解各业务部门的承担的主要工作,扮演的主要角色,了解各部门的主要指标,拆解时候要符合MECE原则,即相互独立,完全穷尽。各部门业务流:拟定核心指标(北极星指标)指标对比与确认   北极星指标(North Star Metric),也叫作第一关键指标(One Metric That Matters),是指在产品的当前阶段与业务/战略相关的绝对核心指标,一旦确立就像北极星一样闪耀在空中,指引团队向同一个方向迈进(提升这一指标)。   北极星指标的作用:聚焦企业现阶段的核心问题统一各团队工作方向明确任务优先级量化团队工作效果   我们主要是分两步走。首先要确定企业的商业目标和用户价值。之后,我们会列出能够符合这两个愿景的指标,并按照六个标准对他们做对比;最后我们回到商业目标和用户价值阶段,探究我们我们确定的北极星指标能不能在实现商业目标的时候还能让用户持续获得价值。明确商业目标和用户价值   商业目标,相当于是一个企业的最终愿景。而北极星指标,是实现这个愿景的一个中期战略目标,北极星指标一般在1至3年才会变动一次,是需要企业依据公司状况和商业环境不断调整的;   用户价值,也就是用户对于产品的主要需求。如果用户在使用产品的时候没法获得他所需要的反馈,那么这个产品就是没有价值的产品,产品就很难有存在的意义。列出备选指标(3-10个)确定北极星指标   我们需要将北极星指标与指标模型融合。主要是利用指标模型来拆解北极星指标拆解的方案有两种:链路型:分解型:   指标模型作用:揭示影响目标指标变动的所有输入变量。使用量化方法指导工作;能够让你的策略多样且全面,而不是集中在某一个环节;指标模型能够让我们确定工作优先级;拆解到比较细致的指标之后,有助于我们做更精确的目标指标预测;指标模型容易让使用者看到重点。   指标体系结构:   表内容:   首先我们需要将指标体系中的表完善   指标口径设计:用户定义:用户名称、用户说明、抽取条件、注意事项指标定义:指标名称、指标说明、计算公式、注意事项   数据指标口径一般指:指标定义事物,指标名称;指标计算公式,计算涉及指标范围,计算涉及时间范围,计算涉及的主体范围;我们遇到的口径问题,一般有:同一名字不同指标,或者不同名字同一指标;比如转化率是一个最容易混淆的指标。因为转化率是指从行为A到行为B的转化率,所以我们使用转化率的时候,最好使用“A-B转化率”这样的名称。如果只用转化率这一个名称,就很容易混淆;同一指标计算公式不同。比如周留存,有的公司用的是:本周留存用户 / 上周活跃用户 * 100%;有的公司用的是:本周留存用户 / 本周第一天的活跃用户 * 100%;有的公司用的是:第7日留存用户 / 第0日基准日活跃用户 * 100%;计算涉及指标范围不同。比如毛利润,有的公司用的毛利润 = 商品总售价 - 商品总成本;有的公司用的毛利润 = 商品总售价 - 商品总成本 - 劳务成本 - 退回商品……;这部分一般是粗略计算和精确计算的差异造成的;计算涉及时间范围不同。最常见的就是不同组每周汇报的周报。有的组的周报范围是周一到周日;有的组的周报范围是上周六到本周五;计算涉及主体范围不同。比如活跃用户的界定上,有的定义活跃用户为:启动APP就算活跃用户;有的定义产生曝光/阅读数据才算活跃用户。埋点的定义   埋点,是互联网应用的一个俗称。来源于英文Event Tracking。是一种针对特定用户行为的捕获、处理、发送的技术。简单理解就是为了满足我们监测数据而部署的代码。埋点的类型埋点的数据   对于埋点记录的行为数据,我们一般可以用4W+1H+1O法来理解:   一般怎么写埋点需求文档?事件梳理&埋点梳理将用户行为拆解为单个的点击或浏览动作;将需要分析的目标动作抽象为“事件”,添加事件维度;根据业务需求,整体完善事件设计;   eg:APP安装APP启动运营位曝光(训练营广告位+专栏广告位)运营位点击WEB浏览(训练营页面浏览)WEB点击(训练营预约按键点击)浏览专栏课详情页创建订单支付成功领取会员成功浏览普通页面(包括浏览会员购买页面)点击普通元素(包括点击付费会员按键)APP退出   CreatOrder(创建订单事件)属性设计   在这里,梳理事件需要注意的几个点:在事件设计的整体框架上,建议搭建按照功能模块-业务流程的方式,系统性地梳理业务场景以及对应的分析需求。将事件做一层抽象归类:常规通用采集事件:APP启动、App退出、页面浏览、点击事件等等。重要点击事件:对重要的点击事件进行梳理,根据具体的点击事件的类型以及个性化属性,进行归类采集。常见的重要点击事件:Banner位点击、icon点击、频道Tab、功能重要操作点击业务流程:通常是需要记录较多重要信息的流程:比如注册流程、比如电商购物主流程。在属性设计的时候,需要保证每一个属性都是独立采集。埋点数据校验对事件和属性的正确性、顺序性、完整性及数据类型进行校验对用户关联情况进行校验验证 App 与 H5 打通(做了打通的情况下)宽表测试多个事件到宽表的过程表数据是否完全收集灰度数据验收   用户活跃留存   用户在线时长   此处因涉及到公司核心商业数据,具体代码不做详细展示,只需要按照2.3.5和业务部门确定好的指标口径定义进行展示,并邀请业务部门进行验收。产品收入训练营收入统计专栏收入统计会员收入统计   此处因涉及到公司核心商业数据,具体代码不做详细展示,只需要按照2.3.5和业务部门确定好的指标口径定义进行展示,并邀请业务部门进行验收。   此处因涉及到公司核心商业数据,具体代码不做详细展示,只需要按照2.3.5和业务部门确定好的指标口径定义进行展示,并邀请业务部门进行验收。   特殊说明:此处具体SQL代码因为涉及到公司核心商业数据,不做具体演示   调度系统是为了实现SQL运行的自动化,实现自动为报表系统提供数据源,需要有一定的python基础,这个模块我是使用Cerely实现的,用Cerely来做sql定时任务的处理。使用Cerley来做定时任务处理有以下几个步骤:将你的sql文件进行归类,按照不同的任务处理时间进行分类,新建一个SQL文件夹,放置于项目根目录下 配置定时服务,在server.py文件中配置好不同任务运行时间   将你的获取SQL获取代码进行封装到sql_tool.py文件中   特殊说明:此模块是将我们从数据库获取的数据传给前端页面进行显示,需要前端工程师配合,需要他把前端页面写好,然后给我们一个一个数据传入接口,然后我们按照他页面的要求将数据传入进行前端页面显示。   这里我使用的是Django框架做网站前端展示   报表系统开发需主要分为两步:开发接口将前端页面分为几个不同的board和chat,并对不同board和做chat做封装,封装在SQL文件中写一个接口文件,去统一来调用这些SQL文件生成前端页面所需要的数据   2. 网站搭建   将写好的开发接口和SQL复制到网站根目录下的appApi文件夹下,修改网站的路由和子路由配置,修改前端页面和我们interface中的相对路径为当前网站根目录的绝对路径,然后将我们配置好的数据接口传入前端页面就大功告成啦。   最终日报展现形式如下所示:   最终周报展现形式如下所示:
大数据脱敏解决方案的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于大数据脱敏解决方案大数据脱敏解决方案的信息别忘了在本站进行查找喔。

未经允许不得转载! 作者:谁是谁的谁,转载或复制请以超链接形式并注明出处

原文地址:http://www.bbwdc.cn/post/19741.html发布于:2026-03-01