数据产品经理必须掌握的知识其实只是在大佬眼中的常识

乐少有话说 2024-09-09 20:54:23

一、所需掌握的技能

1. 数据分析技能

SQL及数据库知识：熟练掌握SQL语言，能够高效地进行数据查询、处理和分析。
统计与数据分析工具：熟悉使用Excel、Python（Pandas、NumPy等库）、R等数据分析工具，能够进行复杂的数据处理和分析。
数据可视化：掌握至少一种数据可视化工具（如Tableau、Power BI等），能够将复杂的数据转化为直观的图表，帮助业务团队更好地理解数据。

2. 产品设计与项目管理技能

产品设计能力：具备用户需求分析、产品原型设计、PRD文档编写等能力，能够独立完成产品的规划和设计。
项目管理能力：能够协调跨部门资源，推动项目按计划进行，确保产品按时上线并持续优化。

3. 业务理解与洞察能力

行业知识：对所在行业有深入的了解，能够洞察行业趋势和市场需求。
业务逻辑理解：深入理解企业业务逻辑和流程，能够将业务需求转化为产品功能。

4. 技术理解能力

大数据与AI技术：了解大数据平台、机器学习等前沿技术，能够将其应用于产品设计中以提升产品竞争力。
数据治理与安全：了解数据治理的基本概念和方法，确保数据的质量和安全。

二、核心价值

数据产品经理的核心价值主要体现在以下几个方面：

提升决策效率与质量：通过数据分析为业务团队提供准确、及时的数据支持，帮助团队做出更加科学、合理的决策。
优化产品功能与用户体验：基于用户需求和业务场景进行产品设计与优化，提升产品的易用性和满意度。
推动业务增长与创新：通过数据洞察发现新的业务机会和创新点，推动业务的持续增长和创新发展。
促进数据资产的价值最大化：通过数据治理和数据分析等手段提升数据资产的质量和价值，为企业创造更大的商业价值。

三、术语解释

1. 数据元

数据元是数据的最小单元，它是对特定信息内容的标准化表示。它通常代表一个单一的事实、属性或特征，如姓名、日期或金额等。数据元具有明确的定义、数据类型、值域和表示方法，它是构成数据集的基本单元。

2. 元数据

元数据是描述关于数据的数据，它提供了关于数据元的相关信息，如数据的来源、格式、位置、名称、大小等以及如何访问和处理这些数据。有助于数据的识别、管理和使用。

元数据打通了源数据、数据仓库、数据应用，记录了数据从产生到消费的全过程。元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。

元数据按类型划分：

业务元数据：例如；用户范围、业务规则、逻辑规则等等；
技术元数据：例如：在数据库中的表名、字段名、字段类型、字段长度等等；
管理/操作元数据：例如：管理元数据的加工、存档、结构、存取、版本控制权等等的问题；

3. 主数据

企业中多个信息系统共享和使用的数据，主数据不仅仅是清洗过的标准数据，它还包括了数据的整合、丰富和维护等一系列管理活动，以确保数据的质量和应用的一致性。

4. 数据源

数据源则是指数据的产生地或存储地，它可以是数据库、文件、API接口等。数据源包含了一系列的数据元素，它们是数据流的起点，可以被提取、转换并用于不同的应用场景。数据元：是实际的数据内容，是构成数据的基本单位，关注于数据的定义和标准化；

元数据：是对数据元的描述和说明。数据元与元数据两者相辅相成，共同构成了完整的数据管理体系；
主数据：是企业核心业务实体的集合，关注于跨系统的数据一致性和准确性；
数据源：则是这些数据元的原始出处。

5. 数据质量规则体系

数据质量管理（Data Quality Management），是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题，进行识别、度量、监控、预警等一系列管理活动，并通过改善和提高组织的管理水平使得数据质量获得进一步提高。

完整性、唯一性、有效性(合规性)、一致性、准确性、及时性，六个维度进行单列、跨列、跨行和跨表的分析

准确性: 描述数据是否与其对应的客观实体的特征相一致。
完整性: 描述数据是否存在缺失记录或缺失字段。
一致性: 描述同一实体的同一属性的值在不同的系统是否一致。
有效性: 描述数据是否满足用户定义的条件或在一定的域值范围内。
唯一性: 描述数据是否存在重复记录。
及时性: 描述数据的产生和供应是否及时。
稳定性: 描述数据的波动是否是稳定的，是否在其有效范围内。

6. 数据安全管理

旨在确保数据在整个生命周期内的保密性、完整性和可用性，同时也包括确保数据的合法合规使用。

7. ETL数据

指通过提取（Extract）、转换（Transform）和加载（Load）的流程处理的数据

8. 数据湖

是一个大规模的存储系统，用于存储原始数据和未经处理的数据。

数据湖中的数据可能是半结构化或非结构化的，例如文本文件、电子邮件、社交媒体帖子等。数据湖的目的是保留数据的原始状态，直到需要时再进行处理和分析。

9. 数据仓库

数据仓库侧重于结构化数据的集成和分析。是一个面向主题、集成的、相对稳定的环境，用于支持决策制定过程。它通常包含经过清理和集成的历史数据，这些数据不再被修改，而是用于查询和分析。数据仓库的数据是结构化的，适合进行复杂的查询和报告生成，以支持商业智能（BI）和在线分析处理（OLAP）应用。

10. 数据集市

可以被视为数据仓库的子集，它服务于特定的业务领域或部门。数据集市包含特定主题的数据，通常更加专注于满足某个特定业务需求的数据分析。

11. 数据标签

用户对资产进行分类和描述，以便于检索。可以从业务角度定义标签，并与技术资产关联数据指标

12. Broker

通常指的是消息代理服务器

13. ODS

数据仓库中的ODS(Operational Data Store)，ODS是指操作型数据存储，它是一种用于整合和管理多个数据源的数据存储方式。它的主要作用是提供统一的数据平台，让业务用户能够在同一个平台上访问、管理和分析多个数据源的数据。ODS中的数据则是按照业务实时的需要进行组织,通常包括原始数据和运算数据两种。

1）数据仓库与ODS的区别

（1）数据结构不同

数据仓库中的数据是按照一定的主题进行组织的，通常采用三层架构：底层是数据明细层，中层是聚合层，顶层是汇总层。而ODS中的数据则是按照业务实时的需要进行组织，通常包括原始数据和运算数据两种。

（2）数据处理方式不同

数据仓库中的数据处理以分析为主，注重数据的全面性和综合性，数据多为静态，数据处理操作较少。而ODS中的数据处理以操作为主，注重数据的准确性和实时性，数据多为动态，数据处理操作频繁。

（3）数据来源不同

数据仓库中的数据通常来自于多个异构数据源，需要进行数据清洗、整合等操作才能进入数据仓库。而ODS中的数据则来自于生产系统的数据库，可以直接进行操作。

2）数据质量关注点

一致性：值数内容在系统内，系统间是否保持一致。如指标是否同名同义，存储，精确度，加工逻辑等是否一致。
完整性：指数据的完整，完备性与及时性，是否存在数据遗漏，缺失及补充等。每日提供的数据应该是完整的，无论在量上还是在特定的数据上，高质量的数据是通过完整的数据统计出来的。
可靠性：指数据的稳定性和准确性等，数据提供过程中，数据产生依赖于系统间的性能，生产数据和加工数据的过程，都会影响数据的可靠性。
准确性：数据域源头的精确性，以及数据处理过程中是否存在算法和数据冲突等。数据的准确性可能存在于个别记录，也可能存在于整个数据集，只有准确更高的数据才能提供高效、高优的决策。
可理解性：数据的可读性和可分析性，是否满足业务需求，以及数据间是否存在相互关系，用户拿到数据是可理解，可用，可决策的。
有效性：指数据是否有效可用，以及数据数据的访问域安全性等。数据安全是数据质量的一项重点管理方面，数据安全对于数据人来说是一条不可触摸的红线。

14. oracle表分区

1）分区表的概念：

当表中的数据量不断增大，查询数据的速度就会变慢，应用程序的性能就会下降，这时就应该考虑对表进行分区。表进行分区后，逻辑上表仍然是一张完整的表，只是将表中的数据在物理上存放到多个表空间(物理文件上)，这样查询数据时，不至于每次都扫描整张表。

2）分区表的优点：

改善查询性能：对分区对象的查询可以仅搜索自己关心的分区，提高检索速度。
增强可用性：如果表的某个分区出现故障，表在其他分区的数据仍然可用；
维护方便：如果表的某个分区出现故障，需要修复数据，只修复该分区即可；
均衡I/O：可以把不同的分区映射到磁盘以平衡I/O，改善整个系统性能。

3）分区表的种类：

（1）范围分区

概念：范围分区将数据基于范围映射到每一个分区，这个范围是你在创建分区时指定的分区键决定的。这种分区方式是最为常用的，并且分区键经常采用日期。

（2）Hash分区

概念：

对于那些无法有效划分范围的表，可以使用hash分区，这样对于提高性能还是会有一定的帮助。hash分区会将表中的数据平均分配到你指定的几个分区中，列所在分区是依据分区列的hash值自动分配，因此你并不能控制也不知道哪条记录会被放到哪个分区中，hash分区也可以支持多个依赖列。

（3）List分区

List分区也需要指定列的值，其分区值必须明确指定，该分区列只能有一个，不能像range或者hash分区那样同时指定多个列做为分区依赖列，但它的单个分区对应值可以是多个。

（4）组合分区

批处理和流处理区别：批处理和流处理的主要区别在于数据处理的时间、存储方式、应用领域以及数据处理方式。

处理时间：批处理通常在固定时间间隔内一次性处理大量数据，处理过程可能涉及读取数据、数据转换和写入结果等阶段，而流处理是连续不断地处理数据，每当有新的数据产生时，系统会立即对其进行处理并将结果实时输出。
存储方式：批处理通常涉及将数据存储在临时数据库或文件系统中，以便进行集中处理，而流处理需要在内存中存储一部分数据，以便进行实时计算和分析。
应用领域：批处理适用于需要处理大量数据的场景，如大数据分析、数据挖掘、生成报表等。流处理则适用于需要实时处理数据并快速生成结果的场景，如实时监控、金融风险控制、用户行为分析等。
数据处理方式：批处理的数据被视为一批静态的记录集合，处理过程通常是一次性的，处理完整个数据集后，任务结束。流处理中，数据被视为不断流动的数据流，系统持续不断地处理这些数据流。

综上所述，批处理和流处理各有其适用的场景和优势。批处理适合于不需要即时响应的场景，如日志分析、大规模数据集的ETL操作、复杂的数据转换和计算等，而流处理则适合于需要实时或近实时响应的场景，如实时监控、实时分析、在线推荐系统、实时欺诈检测等。

流处理系统对低延迟的要求和批处理系统对高吞吐量的要求

四、数据采集

1. 数据质量核查与异常处理

数据质量核查对采集的数据总量进行比对，生成数据对比报告，并对采集数据内容进行质量核查，保证获取数据与原始数据数量、数据内容一致。
若经数据核查存在数据差异，启动异常处理流程，将发现的异常数据反馈给数据提供方，待其将异常数据核对修改后重新进行采集。

2. 数据类型

按结构化特征、业务归属和产生来源等维度对政务大数据进行分类，具体如下：

1）结构化数据

对于结构化数据，按业务归属分为：

主数据，用来描述核心业务实体的数据，是核心业务对象、交易业务的执行主体，为应用软件提供一个统一、一致的参考数据映像，如人口、法人、车辆、房屋、事项等数据；
基础数据，描述核心业务对象、交易业务的基础信息数据，通常是静态的（如事项类型、证件类型），一般在业务事件发生之前就已经预先定义，其变化很少或者变化很慢，可选值数量有限的，如行政区划、组织划分、经济分类等数据；
事务数据，在业务和流程中产生并记录业务事件的数据，具有较强时效性的一次性业务事件，通常在事件结束后不再更新，事务数据会调用主数据和基础数据，如执法监管、行政审批等数据；
观测数据，对人、事、物、环境等观测对象，通过观测工具获取的数据，一般数据量较大且是过程性的，主要用作监控分析，如气象观测、水文监测、环境监测等数据；
规则数据，结构化描述业务规则变量的数据，一般为决策表、关联关系表等形式，是实现业务规则的核心，如事项审批规则、执法规则等数据；
统计数据，对数据按照统计学方法进行处理加工后，用作业务决策依据的次级数据，一般用于支持报告和报表的生成，如GDP指标、财政收入指标等数据。

2）半结构化数据

对于半结构化数据，按产生来源分为：

XML文档；
JSON文档；
日志文件；
HTML文档；
Email。

3）非结构化数据

对于非结构化数据，按产生来源分为：

文本数据；
多媒体数据；
空间数据。

注：针对事务数据，按产生频率分类，分为实时数据和非实时数据；针对文本数据，按业务归属分类，分为法律数据、规章数据、办公数据、事务数据；针对多媒体数据，按产生来源分类，分为音频数据、视频数据和图像数据；针对空间数据，按产生来源分类，分为矢量数据、栅格数据和实景三维数据。

3. 数据采集方式

根据需要采集数据的范围、类型以及数据的质量和安全要求，综合考虑数据源网络环境、数据采集工具技术路线选型、现有数据采集通道建设情况，从而确定数据采集方式。

1）终端采集：通过硬件终端、软件终端、网络爬虫等方式对物联网传感器数据、互联网数据等进行数据采集；

2）人工采集：通过在线填报、离线拷贝和导入等人工转化方式进行数据采集和导入，如问卷调查、实地调研、资料分析等产生的数据，以及通过移动介质拷贝的数据，包括常用的文件交换类型和数据库导出文件；

3）软件系统数据汇聚：

数据库表交换：以数据库表作为数据资源进行汇聚，通过在数据交换两端部署数据交换组件及交换库；源端数据发生更新后实时通过交换组件推送至源端交换库，由两端交换组件协调双方交换库的同步，目标端通过交换组件从交换库提取数据。
数据接口：以数据接口服务作为数据资源进行汇集，常用的接口方式有WebService、 Restful，并以XML、JSON等格式进行服务。数据资源提供方调取业务应用系统或数据库中的数据，并封装提供数据接口服务，数据需求方通过数据接口调用获取数据，并把数据采集至前置库中，目标端通过交换组件从前置库提取数据；
文件交换：以电子文件作为数据资源进行汇聚，常用的电子文件类型有wps、xml、txt、 doc、docx、html、csv、xls、xlsx等。通过前置机的共享目录或FTP服务，实现共享文件数据组装、数据传输、数据解析和数据使用，达到数据交换的目的；
消息队列：以消息发布-订阅方式进行数据汇聚，可实现消息的异步发送接收，发布订阅，使得两端的应用解耦（减少或解除应用程序之间的耦合度）和网络传输断点续传，支持分布式消息队列。

4. 实施数据采集

1）根据数据采集探查的结果，针对不同的数据源类型，推荐采用以下数据采集方案实施数据采集：

针对结构单一、数据量相对较小的结构化数据，可通过数据库交换、文件交换、数据接口、消息队列等方式进行数据采集；
针对传感器、智能手机、网络等渠道产生的类型丰富、数据量较大的数据，可通过分布式数据接口、分布式流数据收集、网络爬虫等方式进行数据采集；
针对由麦克风、摄像头等设备产生的海量音视频数据，可通过硬件终端的语音图像识别、编解码等技术转化后进行数据采集；
针对问卷调查、实地调研、资料分析等产生的数据，可通过在线填报、离线导人等人工转化方式进行数据采集。

2）不应在待采集数据的源系统业务繁忙时进行，避免读取动作影响源系统正常运行。

3）宜使用源系统的备份库作为采集对象，使用备份库时应保证数据一致性和可用性。

4）对于数据量较大、单批量采集可能会造成系统故障的，应支持分批或增量读取，并采用分布式方式对数据源进行读取。

5. 原始数据入库

将不进行处理的原始数据采集后存放在政务大数据的原始库中。
原始数据存储应按照规定，根据源数据选择合适的数据存储方式对数据进行存储。

6. 数据规整

数据规整通过数据清洗、数据转换、数据分析等操作，对采集的原始数据进行标准化规整处理，确保数据的完整性、准确性和时效性。

数据规整过程管理应包括但不限于：

数据分析:应对数据源进行分析，及时发现数据源存在的质量问题；
定义清洗规则：包括空值的检查和处理、非法值的检测和处理、不一致数据的检测和处理、相似重复记录的检测和处理等；
执行数据清洗规则：依据定义的清洗规则，补足残缺/空值、纠正不一致、完成数据拆分、数据合并或去重、数据脱敏、数据除噪等；
清洗结果验证：数据清洗方应对定义的清洗方法的正确性和效率进行验证与评估，对不满足清洗要求的清洗方法进行调整和改进。数据清洗过程宜多次迭代并进行分析、设计和验证。

应对数据的标准代码、格式、类型等内容，按照政务大数据转换规则进行转换。

应通过数据聚合、数据归类、数据关联、数据血缘等方法，分析采集的数据，形成上下文完整有效的数据。

7. 规整数据入库

对原始库中的数据进行规整，使其满足政务数据使用的标准化质量要求，规整后的数据存放在政务大数据规整库中。

规整库数据存储应根据源数据选择合适的数据存储方式，存储应符合规定。处理后的数据存储应满足海量、安全、高性能、高可靠、易管理。

8. 数据更新

原始数据发生更新时，应依照上述要求的数据采集流程中的步骤对原始库和规整库中的需更新数据进行更新采集，并根据数据更新快慢和实时性要求制定不同的采集策略。原始库中更新后的历史数据存放在政务大数据中的历史库中。

1）应支持全量更新和增量更新的数据更新方法：

对存在更新标识的数据应支持增量更新；
对不存在更新标识的数据应支持全量更新。

2）应支持定时更新、事件触发更新和手动更新的数据更新策略：

对产生呈现周期性规律的数据应支持定时更新策略；
对产生由特定事件触发的数据应支持事件触发更新策略；
对产生无特定规律的数据应支持手动更新策略。

3）支持实时、定时的数据更新频率，并根据数据变化情况，进行及时和持续更新：

实时产生且实时性要求高的数据应进行实时更新；
实时产生且实时性要求低的数据宜采用定时更新

9. 数据范围

政务大数据采集范围包括但不限于基础数据、专题数据、业务数据和其他数据四大类：

基础数据，如人口、法人单位、自然资源、地理空间、宏观经济、电子证照等数据；
专题数据，如房屋、城市部件、网格等与数字政府、数字社会、数字经济、数字文化、数字生态相关的数据；
业务数据，如涉及公安、卫生健康、教育、民政、交通、水利、人力资源和社会保障、市场监管、应急管理、司法、住房和城乡建设、交通运输、数据资源管理等众多领域的业务数据；
其他数据，如与政务大数据相关的互联网、工业、商业等数据。