大数据分析 - 数据生命周期

大数据分析 - 数据生命周期

上一节: 大数据分析 - 教程

上一节

下一节: 大数据分析 - 方法论

下一节

大数据分析 - 数据生命周期

传统数据挖掘生命周期

为了提供一个框架来组织组织所需的工作并从大数据中提供清晰的见解,将其视为具有不同阶段的循环是很有用的。它绝不是线性的,这意味着所有阶段都是相互关联的。这个循环与更传统的数据挖掘循环有表面上的相似之处,如CRISP methodology.

CRISP-DM 方法论

这CRISP-DM methodology代表数据挖掘的跨行业标准流程,是一个描述数据挖掘专家用来解决传统 BI 数据挖掘问题的常用方法的循环。它仍在传统的 BI 数据挖掘团队中使用。

看看下面的插图。它显示了 CRISP-DM 方法描述的周期的主要阶段以及它们如何相互关联。

CRISP-DM 构思于 1996 年,次年,它作为 ESPRIT 资助计划下的欧盟项目开始实施。该项目由五家公司牵头:SPSS、Teradata、戴姆勒股份公司、NCR Corporation 和 OHRA(一家保险公司)。该项目最终并入 SPSS。该方法非常详细地针对应如何指定数据挖掘项目。

现在让我们更多地了解 CRISP-DM 生命周期中涉及的每个阶段 -

Business Understanding− 该初始阶段侧重于从业务角度理解项目目标和需求,然后将这些知识转化为数据挖掘问题定义。初步计划旨在实现这些目标。可以使用决策模型,尤其是使用决策模型和符号标准构建的模型。

Data Understanding- 数据理解阶段从最初的数据收集开始,然后继续进行活动,以熟悉数据、识别数据质量问题、发现对数据的初步洞察或检测有趣的子集以形成隐藏信息的假设。

Data Preparation− 数据准备阶段涵盖从初始原始数据构建最终数据集(将输入建模工具的数据)的所有活动。数据准备任务可能会执行多次,而不是按任何规定的顺序执行。任务包括表格、记录和属性选择以及建模工具的数据转换和清理。

Modeling− 在这个阶段,选择和应用各种建模技术,并将它们的参数校准到最佳值。通常,对于相同的数据挖掘问题类型有多种技术。有些技术对数据的形式有特定的要求。因此,通常需要退回到数据准备阶段。

Evaluation− 在项目的这个阶段,从数据分析的角度来看,您已经构建了一个看起来质量很高的模型(或多个模型)。在进行模型的最终部署之前,重要的是彻底评估模型并审查构建模型所执行的步骤,以确保它正确地实现了业务目标。

一个关键目标是确定是否有一些重要的业务问题没有得到充分考虑。在此阶段结束时,应就数据挖掘结果的使用做出决定。

Deployment− 创建模型通常不是项目的结束。即使模型的目的是增加对数据的了解,所获得的知识也需要以对客户有用的方式进行组织和呈现。

根据需求,部署阶段可以像生成报告一样简单,也可以像实现可重复的数据评分(例如段分配)或数据挖掘过程一样复杂。

在许多情况下,执行部署步骤的将是客户,而不是数据分析师。即使分析师部署了模型,客户也必须提前了解需要执行的操作才能实际使用创建的模型。

SEMMA 方法论

SEMMA 是 SAS 为数据挖掘建模开发的另一种方法。它代表S充足,Explore, M修改,M模型,和A赛斯。这是其阶段的简要说明 -

Sample− 该过程从数据采样开始,例如,选择用于建模的数据集。数据集应该足够大以包含足够的信息来检索,但又足够小以有效使用。此阶段还处理数据分区。

Explore− 这一阶段通过在数据可视化的帮助下发现变量之间的预期和未预期关系以及异常情况来涵盖对数据的理解。

Modify− 修改阶段包含选择、创建和转换变量以准备数据建模的方法。

Model− 在模型阶段,重点是对准备好的变量应用各种建模(数据挖掘)技术,以创建可能提供预期结果的模型。

Assess− 建模结果的评估显示了所创建模型的可靠性和实用性。

CRISM-DM 和 SEMMA 的主要区别在于 SEMMA 侧重于建模方面,而 CRISP-DM 更重视建模之前的周期阶段,例如理解要解决的业务问题、理解和预处理要解决的数据。用作输入,例如机器学习算法。

大数据生命周期

在当今的大数据环境中,以前的方法要么不完整,要么不理想。例如,SEMMA 方法完全忽略了不同数据源的数据收集和预处理。这些阶段通常构成成功的大数据项目中的大部分工作。

大数据分析周期可以通过以下阶段来描述 -

业务问题定义

研究

人力资源评估

数据采集

修改数据

数据存储

探索性数据分析

建模和评估的数据准备

建模

实现

在本节中,我们将对大数据生命周期的每个阶段进行一些介绍。

业务问题定义

这是传统 BI 和大数据分析生命周期中常见的一点。通常,定义问题并正确评估它可能为组织带来多少潜在收益是大数据项目的一个重要阶段。提到这一点似乎很明显,但必须评估项目的预期收益和成本是多少。

研究

分析其他公司在相同情况下做了什么。这涉及寻找对贵公司合理的解决方案,即使它涉及使其他解决方案适应贵公司的资源和要求。在此阶段,应定义未来阶段的方法。

人力资源评估

一旦定义了问题,继续分析当前员工是否能够成功完成项目是合理的。传统的 BI 团队可能无法为所有阶段提供最佳解决方案,因此如果需要将项目的一部分外包或雇用更多人员,则应在开始项目之前考虑。

数据采集

这部分是大数据生命周期的关键;它定义了交付最终数据产品所需的配置文件类型。数据收集是该过程的一个重要步骤;它通常涉及从不同来源收集非结构化数据。举个例子,它可能涉及编写一个爬虫来从网站检索评论。这涉及处理文本,可能使用不同的语言,通常需要大量时间才能完成。

修改数据

一旦数据被检索到,例如,从网络上,它需要以易于使用的格式存储。为了继续评论示例,我们假设数据是从不同的站点检索到的,每个站点都有不同的数据显示。

假设一个数据源根据星级给出评论,因此可以将其读取为响应变量的映射y ∈ {1, 2, 3, 4, 5}. 另一个数据源使用两个箭头系统给出评论,一个用于赞成投票,另一个用于反对投票。这将意味着形式的响应变量y ∈ {positive, negative}.

为了结合这两个数据源,必须做出决定以使这两个响应表示等效。这可能涉及将第一个数据源响应表示转换为第二种形式,将一颗星视为负数,将五颗星视为正数。这个过程通常需要大量的时间分配才能以良好的质量交付。

数据存储

处理完数据后,有时需要将其存储在数据库中。大数据技术在这一点上提供了很多替代方案。最常见的替代方案是使用 Hadoop 文件系统进行存储,为用户提供有限版本的 SQL,称为 HIVE 查询语言。从用户的角度来看,这允许大多数分析任务以与传统 BI 数据仓库中类似的方式完成。要考虑的其他存储选项是 MongoDB、Redis 和 SPARK。

周期的这个阶段与人力资源知识相关,即他们实施不同架构的能力。传统数据仓库的修改版本仍在大规模应用中使用。例如,teradata 和 IBM 提供可以处理 TB 级数据的 SQL 数据库;postgreSQL 和 MySQL 等开源解决方案仍在用于大规模应用程序。

尽管不同存储在后台的工作方式存在差异,但从客户端来看,大多数解决方案都提供了 SQL API。因此,对 SQL 有很好的理解仍然是大数据分析的一项关键技能。

这个阶段先验似乎是最重要的话题,在实践中,这是不正确的。它甚至不是一个必不可少的阶段。可以实现一个可以处理实时数据的大数据解决方案,所以在这种情况下,我们只需要收集数据来开发模型,然后实时实现它。所以根本不需要正式存储数据。

探索性数据分析

一旦数据被清理并以可以从中检索洞察力的方式存储,数据探索阶段是强制性的。此阶段的目标是了解数据,这通常通过统计技术和绘制数据来完成。这是评估问题定义是否有意义或可行的好阶段。

建模和评估的数据准备

此阶段涉及重塑先前检索到的清洁数据,并使用统计预处理来进行缺失值插补、异常值检测、归一化、特征提取和特征选择。

建模

前一阶段应该已经生成了几个用于训练和测试的数据集,例如预测模型。这个阶段涉及尝试不同的模型并期待解决手头的业务问题。在实践中,通常希望该模型能够对业务有所了解。最后,选择最佳模型或模型组合来评估其在遗漏数据集上的性能。

实现

在这个阶段,开发的数据产品在公司的数据管道中实现。这涉及在数据产品工作时设置验证方案,以跟踪其性能。例如,在实施预测模型的情况下,此阶段将涉及将模型应用于新数据,一旦响应可用,就评估模型。

上一节: 大数据分析 - 教程

上一节

下一节: 大数据分析 - 方法论

下一节

查看笔记 分享笔记

笔记内容:

称呼:

Email:

站点:

分享笔记 重置

分类导航

前端

Ajax 教程

Angular 教程

Aurelia 教程

Bootstrap 教程

ChartJS 教程

CSS 教程

ES6 教程

FontAwesome 教程

HTML 教程

HTML 字符集 教程

HTML 游戏 教程

JavaScript 教程

jQuery 教程

Less 教程

React 教程

Sass 教程

Stylus 教程

TypeScript 教程

Unity 教程

Vue.js 教程

WebAssembly 教程

XAML 教程

颜色 教程

服务端

C# 教程

C++ 教程

COBOL 教程

C语言 教程

Fortran 教程

Go 教程

Groovy 教程

Java 教程

JSP 教程

JVM 教程

Kotlin 教程

Lisp 教程

Lua 教程

Node.js 教程

Pascal 教程

Perl 教程

PHP 教程

Python 教程

Python 3 教程

Ruby 教程

Rust 教程

Scala 教程

Spring 教程

Spring Boot 教程

Spring Cloud 教程

VB.Net 教程

移动端

Android 教程

IOS 教程

Objective-C 教程

React Native 教程

Swift 教程

小程序 教程

数据库

Access 教程

DB2 教程

Mariadb 教程

Memcached 教程

MongoDB 教程

MySQL 教程

Neo4j 教程

PL/SQL 教程

PostgreSQL 教程

Redis 教程

SQL 教程

SQL Server 教程

SQLite 教程

T-SQL 教程

数据格式

Jackson 教程

JSON 教程

SVG 教程

XML 教程

开发工具

ActiveMQ 教程

Ant 教程

Apache HttpClient 教程

Apache POI PPT 教程

AWS 教程

Docker 教程

ElasticSearch 教程

ExpressJS 教程

GIT 教程

GitLab 教程

Google Maps 教程

Gradle 教程

Java NIO 教程

JavaFX 教程

JavaMail 教程

JDBC 教程

jMeter 教程

JPA 教程

jsoup 教程

Junit 教程

KoaJS 教程

Kubernetes 教程

Log4j 教程

Logstash 教程

Lucene 教程

Makefile 教程

Maven 教程

RESTful 教程

Sed 教程

SEO 教程

Servlet 教程

SLF4J 教程

Socket.IO 教程

Struts 教程

SVN 教程

TestNG 教程

UML 教程

UNIX / LINUX 教程

WebSocket 教程

WPF 教程

xStream 教程

区块链 教程

数据处理

Flink 教程

Flume 教程

Hadoop 教程

Hbase 教程

Hive 教程

Kafka 教程

Kibana 教程

MapReduce 教程

MATLAB 教程

MyBatis 教程

Pig 教程

R语言 教程

Solr 教程

Spark 教程

Storm 教程

Zookeeper 教程

大数据分析 教程

数据仓库 教程

数据挖掘 教程

计算机基础

HTTP 教程

IPv4 教程

IPv6 教程

Ubantu 教程

WebServices 教程

嵌入式系统 教程

操作系统 教程

数据结构和算法 教程

汇编语言 教程

物联网 教程

电子电路基础 教程

编译器设计 教程

网站开发 教程

计算机 教程

计算机基础 教程

计算机网络 教程

设计模式 教程

AI

CNTK 教程

Keras 教程

PyTorch 教程

TensorFlow 教程

人工智能 教程

机器学习 教程

Python 技术

Django 教程

Flask 教程

NumPy 教程

Pandas 教程

Pillow 教程

PyGTK 教程

PyQt5 教程

PySpark 教程

pytest 教程

Python -数据科学 教程

Python MySQL 教程

Python 取证 教程

Python 数据结构 教程

Python 文本处理 教程

Python 网络编程 教程

Python 网页抓取 教程

Python 设计模式 教程

RxPY 教程

SciPy 教程

Seaborn 教程

SymPy 教程

wxPython 教程

框架

Laravel 教程

Web 图标Icon 教程

Web2py 教程

WebGL 教程

WebRTC 教程

WordPress 教程

Yii 教程

Zend Framework 教程

SAP

Crystal Reports 教程

相关推荐

答案详情
365bet足球官方开户网

答案详情

🗓️ 10-05 👁️ 1399
国产av番号推荐色情片
365体育app网址

国产av番号推荐色情片

🗓️ 10-21 👁️ 3425
霍元甲有几个儿子和女儿叫什么(霍元甲后代子女如何?说出来你可能不信)

友情链接