上一节: 大数据分析 - 教程
上一节
下一节: 大数据分析 - 方法论
下一节
大数据分析 - 数据生命周期
传统数据挖掘生命周期
为了提供一个框架来组织组织所需的工作并从大数据中提供清晰的见解,将其视为具有不同阶段的循环是很有用的。它绝不是线性的,这意味着所有阶段都是相互关联的。这个循环与更传统的数据挖掘循环有表面上的相似之处,如CRISP methodology.
CRISP-DM 方法论
这CRISP-DM methodology代表数据挖掘的跨行业标准流程,是一个描述数据挖掘专家用来解决传统 BI 数据挖掘问题的常用方法的循环。它仍在传统的 BI 数据挖掘团队中使用。
看看下面的插图。它显示了 CRISP-DM 方法描述的周期的主要阶段以及它们如何相互关联。
CRISP-DM 构思于 1996 年,次年,它作为 ESPRIT 资助计划下的欧盟项目开始实施。该项目由五家公司牵头:SPSS、Teradata、戴姆勒股份公司、NCR Corporation 和 OHRA(一家保险公司)。该项目最终并入 SPSS。该方法非常详细地针对应如何指定数据挖掘项目。
现在让我们更多地了解 CRISP-DM 生命周期中涉及的每个阶段 -
Business Understanding− 该初始阶段侧重于从业务角度理解项目目标和需求,然后将这些知识转化为数据挖掘问题定义。初步计划旨在实现这些目标。可以使用决策模型,尤其是使用决策模型和符号标准构建的模型。
Data Understanding- 数据理解阶段从最初的数据收集开始,然后继续进行活动,以熟悉数据、识别数据质量问题、发现对数据的初步洞察或检测有趣的子集以形成隐藏信息的假设。
Data Preparation− 数据准备阶段涵盖从初始原始数据构建最终数据集(将输入建模工具的数据)的所有活动。数据准备任务可能会执行多次,而不是按任何规定的顺序执行。任务包括表格、记录和属性选择以及建模工具的数据转换和清理。
Modeling− 在这个阶段,选择和应用各种建模技术,并将它们的参数校准到最佳值。通常,对于相同的数据挖掘问题类型有多种技术。有些技术对数据的形式有特定的要求。因此,通常需要退回到数据准备阶段。
Evaluation− 在项目的这个阶段,从数据分析的角度来看,您已经构建了一个看起来质量很高的模型(或多个模型)。在进行模型的最终部署之前,重要的是彻底评估模型并审查构建模型所执行的步骤,以确保它正确地实现了业务目标。
一个关键目标是确定是否有一些重要的业务问题没有得到充分考虑。在此阶段结束时,应就数据挖掘结果的使用做出决定。
Deployment− 创建模型通常不是项目的结束。即使模型的目的是增加对数据的了解,所获得的知识也需要以对客户有用的方式进行组织和呈现。
根据需求,部署阶段可以像生成报告一样简单,也可以像实现可重复的数据评分(例如段分配)或数据挖掘过程一样复杂。
在许多情况下,执行部署步骤的将是客户,而不是数据分析师。即使分析师部署了模型,客户也必须提前了解需要执行的操作才能实际使用创建的模型。
SEMMA 方法论
SEMMA 是 SAS 为数据挖掘建模开发的另一种方法。它代表S充足,Explore, M修改,M模型,和A赛斯。这是其阶段的简要说明 -
Sample− 该过程从数据采样开始,例如,选择用于建模的数据集。数据集应该足够大以包含足够的信息来检索,但又足够小以有效使用。此阶段还处理数据分区。
Explore− 这一阶段通过在数据可视化的帮助下发现变量之间的预期和未预期关系以及异常情况来涵盖对数据的理解。
Modify− 修改阶段包含选择、创建和转换变量以准备数据建模的方法。
Model− 在模型阶段,重点是对准备好的变量应用各种建模(数据挖掘)技术,以创建可能提供预期结果的模型。
Assess− 建模结果的评估显示了所创建模型的可靠性和实用性。
CRISM-DM 和 SEMMA 的主要区别在于 SEMMA 侧重于建模方面,而 CRISP-DM 更重视建模之前的周期阶段,例如理解要解决的业务问题、理解和预处理要解决的数据。用作输入,例如机器学习算法。
大数据生命周期
在当今的大数据环境中,以前的方法要么不完整,要么不理想。例如,SEMMA 方法完全忽略了不同数据源的数据收集和预处理。这些阶段通常构成成功的大数据项目中的大部分工作。
大数据分析周期可以通过以下阶段来描述 -
业务问题定义
研究
人力资源评估
数据采集
修改数据
数据存储
探索性数据分析
建模和评估的数据准备
建模
实现
在本节中,我们将对大数据生命周期的每个阶段进行一些介绍。
业务问题定义
这是传统 BI 和大数据分析生命周期中常见的一点。通常,定义问题并正确评估它可能为组织带来多少潜在收益是大数据项目的一个重要阶段。提到这一点似乎很明显,但必须评估项目的预期收益和成本是多少。
研究
分析其他公司在相同情况下做了什么。这涉及寻找对贵公司合理的解决方案,即使它涉及使其他解决方案适应贵公司的资源和要求。在此阶段,应定义未来阶段的方法。
人力资源评估
一旦定义了问题,继续分析当前员工是否能够成功完成项目是合理的。传统的 BI 团队可能无法为所有阶段提供最佳解决方案,因此如果需要将项目的一部分外包或雇用更多人员,则应在开始项目之前考虑。
数据采集
这部分是大数据生命周期的关键;它定义了交付最终数据产品所需的配置文件类型。数据收集是该过程的一个重要步骤;它通常涉及从不同来源收集非结构化数据。举个例子,它可能涉及编写一个爬虫来从网站检索评论。这涉及处理文本,可能使用不同的语言,通常需要大量时间才能完成。
修改数据
一旦数据被检索到,例如,从网络上,它需要以易于使用的格式存储。为了继续评论示例,我们假设数据是从不同的站点检索到的,每个站点都有不同的数据显示。
假设一个数据源根据星级给出评论,因此可以将其读取为响应变量的映射y ∈ {1, 2, 3, 4, 5}. 另一个数据源使用两个箭头系统给出评论,一个用于赞成投票,另一个用于反对投票。这将意味着形式的响应变量y ∈ {positive, negative}.
为了结合这两个数据源,必须做出决定以使这两个响应表示等效。这可能涉及将第一个数据源响应表示转换为第二种形式,将一颗星视为负数,将五颗星视为正数。这个过程通常需要大量的时间分配才能以良好的质量交付。
数据存储
处理完数据后,有时需要将其存储在数据库中。大数据技术在这一点上提供了很多替代方案。最常见的替代方案是使用 Hadoop 文件系统进行存储,为用户提供有限版本的 SQL,称为 HIVE 查询语言。从用户的角度来看,这允许大多数分析任务以与传统 BI 数据仓库中类似的方式完成。要考虑的其他存储选项是 MongoDB、Redis 和 SPARK。
周期的这个阶段与人力资源知识相关,即他们实施不同架构的能力。传统数据仓库的修改版本仍在大规模应用中使用。例如,teradata 和 IBM 提供可以处理 TB 级数据的 SQL 数据库;postgreSQL 和 MySQL 等开源解决方案仍在用于大规模应用程序。
尽管不同存储在后台的工作方式存在差异,但从客户端来看,大多数解决方案都提供了 SQL API。因此,对 SQL 有很好的理解仍然是大数据分析的一项关键技能。
这个阶段先验似乎是最重要的话题,在实践中,这是不正确的。它甚至不是一个必不可少的阶段。可以实现一个可以处理实时数据的大数据解决方案,所以在这种情况下,我们只需要收集数据来开发模型,然后实时实现它。所以根本不需要正式存储数据。
探索性数据分析
一旦数据被清理并以可以从中检索洞察力的方式存储,数据探索阶段是强制性的。此阶段的目标是了解数据,这通常通过统计技术和绘制数据来完成。这是评估问题定义是否有意义或可行的好阶段。
建模和评估的数据准备
此阶段涉及重塑先前检索到的清洁数据,并使用统计预处理来进行缺失值插补、异常值检测、归一化、特征提取和特征选择。
建模
前一阶段应该已经生成了几个用于训练和测试的数据集,例如预测模型。这个阶段涉及尝试不同的模型并期待解决手头的业务问题。在实践中,通常希望该模型能够对业务有所了解。最后,选择最佳模型或模型组合来评估其在遗漏数据集上的性能。
实现
在这个阶段,开发的数据产品在公司的数据管道中实现。这涉及在数据产品工作时设置验证方案,以跟踪其性能。例如,在实施预测模型的情况下,此阶段将涉及将模型应用于新数据,一旦响应可用,就评估模型。
上一节: 大数据分析 - 教程
上一节
下一节: 大数据分析 - 方法论
下一节
查看笔记 分享笔记
笔记内容:
称呼:
Email:
站点:
分享笔记 重置
分类导航
前端
Ajax 教程
Angular 教程
Aurelia 教程
Bootstrap 教程
ChartJS 教程
CSS 教程
ES6 教程
FontAwesome 教程
HTML 教程
HTML 字符集 教程
HTML 游戏 教程
JavaScript 教程
jQuery 教程
Less 教程
React 教程
Sass 教程
Stylus 教程
TypeScript 教程
Unity 教程
Vue.js 教程
WebAssembly 教程
XAML 教程
颜色 教程
服务端
C# 教程
C++ 教程
COBOL 教程
C语言 教程
Fortran 教程
Go 教程
Groovy 教程
Java 教程
JSP 教程
JVM 教程
Kotlin 教程
Lisp 教程
Lua 教程
Node.js 教程
Pascal 教程
Perl 教程
PHP 教程
Python 教程
Python 3 教程
Ruby 教程
Rust 教程
Scala 教程
Spring 教程
Spring Boot 教程
Spring Cloud 教程
VB.Net 教程
移动端
Android 教程
IOS 教程
Objective-C 教程
React Native 教程
Swift 教程
小程序 教程
数据库
Access 教程
DB2 教程
Mariadb 教程
Memcached 教程
MongoDB 教程
MySQL 教程
Neo4j 教程
PL/SQL 教程
PostgreSQL 教程
Redis 教程
SQL 教程
SQL Server 教程
SQLite 教程
T-SQL 教程
数据格式
Jackson 教程
JSON 教程
SVG 教程
XML 教程
开发工具
ActiveMQ 教程
Ant 教程
Apache HttpClient 教程
Apache POI PPT 教程
AWS 教程
Docker 教程
ElasticSearch 教程
ExpressJS 教程
GIT 教程
GitLab 教程
Google Maps 教程
Gradle 教程
Java NIO 教程
JavaFX 教程
JavaMail 教程
JDBC 教程
jMeter 教程
JPA 教程
jsoup 教程
Junit 教程
KoaJS 教程
Kubernetes 教程
Log4j 教程
Logstash 教程
Lucene 教程
Makefile 教程
Maven 教程
RESTful 教程
Sed 教程
SEO 教程
Servlet 教程
SLF4J 教程
Socket.IO 教程
Struts 教程
SVN 教程
TestNG 教程
UML 教程
UNIX / LINUX 教程
WebSocket 教程
WPF 教程
xStream 教程
区块链 教程
数据处理
Flink 教程
Flume 教程
Hadoop 教程
Hbase 教程
Hive 教程
Kafka 教程
Kibana 教程
MapReduce 教程
MATLAB 教程
MyBatis 教程
Pig 教程
R语言 教程
Solr 教程
Spark 教程
Storm 教程
Zookeeper 教程
大数据分析 教程
数据仓库 教程
数据挖掘 教程
计算机基础
HTTP 教程
IPv4 教程
IPv6 教程
Ubantu 教程
WebServices 教程
嵌入式系统 教程
操作系统 教程
数据结构和算法 教程
汇编语言 教程
物联网 教程
电子电路基础 教程
编译器设计 教程
网站开发 教程
计算机 教程
计算机基础 教程
计算机网络 教程
设计模式 教程
AI
CNTK 教程
Keras 教程
PyTorch 教程
TensorFlow 教程
人工智能 教程
机器学习 教程
Python 技术
Django 教程
Flask 教程
NumPy 教程
Pandas 教程
Pillow 教程
PyGTK 教程
PyQt5 教程
PySpark 教程
pytest 教程
Python -数据科学 教程
Python MySQL 教程
Python 取证 教程
Python 数据结构 教程
Python 文本处理 教程
Python 网络编程 教程
Python 网页抓取 教程
Python 设计模式 教程
RxPY 教程
SciPy 教程
Seaborn 教程
SymPy 教程
wxPython 教程
框架
Laravel 教程
Web 图标Icon 教程
Web2py 教程
WebGL 教程
WebRTC 教程
WordPress 教程
Yii 教程
Zend Framework 教程
SAP
Crystal Reports 教程