来自 数据库 2020-02-16 18:27 的文章
当前位置: 澳门三合彩票 > 数据库 > 正文

数据挖掘是通过大量的数据集进行排序,数据科

大数据和分析项目可以是颠覆性的,它会使你具有洞察力来超越竞争对手,创造新的收入来源,更好地为客户服务。大数据和分析项目也可能导致巨大的失败,导致浪费大量的资金和时间,更不用说会失去那些有才华的技术人才,他们对管理层犯得错误感到失望和厌烦。

澳门三合彩票 1

澳门三合彩票 2

遵循以下六个最佳做法来超越竞争对手,创造新的收入来源,更好地为客户服务。

原标题:大数据工程师手册:全面系统的掌握必备知识与工具 作者 | Phoebe Wong 译者 | 陆离 编辑 | Jane 出品 | AI科技大本营 前言 如何才能成为一名真正的“全栈

图片来自“123rf.com.cn”

大数据和分析项目可以是颠覆性的,它会使你具有洞察力来超越竞争对手,创造新的收入来源,更好地为客户服务。

前言

数据挖掘是通过大量的数据集进行排序,自动化识别趋势和模式并且建立相关性的过程。

大数据和分析项目也可能导致巨大的失败,导致浪费大量的资金和时间,更不用说会失去那些有才华的技术人才,他们对管理层犯得错误感到失望和厌烦。

如何才能成为一名真正的“全栈”数据科学家?需要了解哪些知识?掌握哪些技能?

现在的公司通过各种各样的途径收集海量的信息,这些信息来自于网站、公司应用、社交媒体、移动设备和不断增长的物联网。

如何避免大数据项目的失败呢?从基本业务管理的角度来看,有一些最佳做法值得推荐:一定要获得公司最高管理层的支持和认同,确保技术投入所需的资金充足,并配备所需的专业技术和/或提供良好的培训。如果你不首先解决这些基本问题,那么其他的事情都不重要。

概括来讲,一名全能型选手要把数据科学过程中从数据存储到把预测模型投入正式生产的每一步都能 hold 住。

最大的问题是:如何从这些信息中找到真正有用的商业价值?这就是数据挖掘的用武之地。数据挖掘是通过大量数据集进行排序的自动化过程,以通过数据分析来识别趋势和模式、建立关系,解决业务问题或探寻新机会。

假设你已经完成了这些基本的工作,那么在大数据分析项目中成功与失败的区别就在于你如何处理大数据分析的技术问题和挑战。你可以做以下几点来确保大数据分析项目的成功。

一般来说,大家在学习过程中更注重机器学习或深度学习技术的理论学习与应用,数据管理方面的知识往往是“事后诸葛亮”;数据科学专业的学生们对如何处理、清洗数据等建模技术关注较多,忽略了如何制作“数据香肠”。

查看数据不仅仅是看看过去发生的事情,以便能够在现在智能化。数据挖掘工具和技术可以预测未来会发生什么,抢占先机。

1谨慎选择你使用的大数据分析工具

但是在真实工程环境中,有近 80%的工作都在围绕“如何从各种来源获取原始数据”这一步骤,从而为后续搭建模型做准备;此外,企业级的项目通常涉及大量数据,本地计算机并不具备处理这些数据的能力。

术语「数据挖掘」在IT行业中被广泛使用。它经常应用于各种大规模的数据处理行为,如数据采集,数据存储和提取以及数据分析。还有帮助决策的其它应用技术,如人工智能、机器学习和商业智能。

许多技术上的失败都源于这样一个事实,即企业所购买和部署的产品,结果是完全不适合他们想要完成的工作。任何供应商都可以将大数据或高级分析方法一词放到产品描述中,以利用这些术语大肆炒作。

因此整个建模过程通常会在云上进行,大多应用和数据库也会托管在其它地方的数据中心服务器上,数据管理则成为数据工程团队非常关心的事情。

数据挖掘应用于业务和研究的方方面面,包括产品研发、销售、营销、遗传学和控制论等。如果数据挖掘和预测分析工具使用得当,将为公司带来明显的竞争优势。

但产品在质量和效果以及侧重点上,都有很大的差别。因此,即使你选择了一种技术含量高的产品,它也可能并不擅长做你真正需要完成的工作。

NIST大数据分类 (来源:WikiCommons)

数据挖掘中获得商业价值

几乎所有的大数据分析产品都具有一些基本的功能,比如数据转换和存储架构(比如Hadoop和Apache Spark)。但是在大数据分析产品中也有很多细分领域,所以你必须为你的技术战略实际所涉及到的领域来购买产品。这些领域包括过程挖掘、预测分析、实时解决方案、人工智能和商业智能控制面板等。

由于很多数媒体发稿平台据科学家对数据存储和基础设施了解甚少,影响了他们在工作中做出正确决策的能力。

数据挖掘的真正价值在于能够利用数据中的模式和关系的形式挖掘隐藏在数据背后的宝藏,也就是数据挖掘可以得到对企业有重大影响的预测。

在决定购买任何大数据分析产品或存储平台之前,您需要清楚真正的业务需求和问题是什么,然后选择那些能有效解决这些具体问题的产品。

而这篇文章就旨在提供一个线路图,从数据库类型、数据存储和处理的位置和方式,到当前的商业选择,给想成为一名数据科学家的开发者们分享必备的数据管理知识。

例如,如果一家公司的某种特定型号的产品通过某种活动在某些地区而大卖,而在其它地区没有得到相应的销售效果。将来重新调整该活动策略的时候可以通过数据挖掘得出分析结论,帮助公司获得最大回报。

例如,由于编译海量数据集极具复杂性,您会选择认知大数据产品,这些产品会使用人工智能来分析非结构化数据。但是,您不会将认知大数据工具用于分析结构化和标准化数据,因为您可以从众多分析产品中选择一种产品进行部署,并且以更合理的价格实时获得高质量的洞察力,沃达丰电信公司大数据全局分析主管伊思雷尔埃斯波西托(Israel Exposito)说。

基于此文涉及面广,系统知识全面,对初级数据科学家、数据科学专业的学生、想转行进入数据科学领域的开发者们都很适合;对从业经验丰富,已深耕此领域的开发者来说,内容偏基础,不过大家可以基于此文进行更深入地研究,欢迎大家互动交流,分享你的观点和意见。

数据挖掘技术的收益多少取决于业务类型和业务目标。比如,零售业的销售和营销主管也许会以不同方式挖掘客户信息,来提高转化率。航空公司或者金融行业就不能。

埃斯波西托表示,在为你的生产环境选择一款产品之前,至少要使用两种产品来进行概念证明,这是很明智的。该产品还应该能够与您的相关企业平台进行交互。

非结构化数据和大数据工具的兴起

无论什么行业,过去通过数据挖掘可以分析销售模式和客户行为,如今可以通过数据挖掘预测未来销售模式和客户行为。

每个大数据分析工具都需要在后端系统中开发一个数据模型。这是该项目中最重要的部分。 所以,您需要确保系统集成商和业务领域相关专家能携手合作,花些时间把工作第一次就做好。

IBM 305 RAMAC (来源:WikiCommons)

数据挖掘可以做到趋利避害,以上对销售的预测可以被加以利用。数据挖掘也可以评估出什么对业务有害。比如,可以通过数据挖掘提高产品安全性,或探查出保险和金融服务交易中的欺诈行为。

务必记住,正确的数据应随时可以使用并翻译成业务语言,这样用户就可以充分理解这些输出结果,从而可以使用这些结果来推动商机或改进流程。

实际上,数据科学的本质就是数据存储。在进入数字时代之前,数据存储在我们的大脑中、陶片或纸上,这使得数据的收集和分析极其耗时。

数据挖掘应用

2确保工具易于使用

1956年,IBM推出了第一台带有磁盘的商用计算机,305 RAMAC。整个单元需要30英尺x 50英尺的物理空间,重量超过一吨,租一个这样的单元,每个月花费 3200 美元,可存储大约5MB的数据。

数据挖掘可以被广泛应用于各行各业。

大数据和高级分析方法是很复杂的,但商业用户用来访问和理解这些数据的产品则并不需要很复杂。

在随后60年的时间里,DRAM每GB价格从1965年的26.4亿美元大幅下降到2017年的4.9美元。数据存储设备不仅价格极其低廉,而且密度更大、体积更小。

零售业。通过挖掘客户过去的消费行为数据知道客户喜欢购买什么产品,还能知道一年中特定的时间段什么商品最热卖。这些可以帮助商家合理安排货物库存。

为业务分析团队提供简单、有效的工具,用于数据发现、分析和可视化。

在305 RAMAC的一个磁盘中,每平方英寸存储100 比特的数据,对比之下,今天的一个普通磁盘,每平方英寸存储数据可超过1万亿比特。

银行和其它金融服务供应商。通过挖掘客户账户、交易和理财偏爱通道等数据,更立体地了解客户以提供满足其需求的服务。也可以通过分析客户在网站和社交互动中的行为数据,增加现有客户的忠诚度,吸引新客户。

GoDaddy公司商业智能工具企业数据拓展专员莎伦格雷夫斯(Sharon Graves)表示,对于域名注册商GoDaddy来说,寻找合适的工具组合是很困难的。它必须易于快速可视化,并且能够进行深入分析。GoDaddy公司能够找到这些产品,让商业用户可以利用这些产品轻松找到适当数据,然后自行生成可视化效果。这就让分析团队有时间来处理更多的分析工作。

数据存储的成本和规模的大幅降低正是现如今让大数据分析成为可能的主要原因。凭借超低的存储成本,建设数据科学基础设施,从海量数据中收集和提取有用的信息,这也成为了企业盈利的途径。

制造公司。通过数据挖掘探寻产品生产流程模式,制造公司可以使用数据挖掘在生产过程中寻找发展模式,从而可以精确地识别出瓶颈和缺陷,并设法解决问题提高效率。还可以将数据挖掘应用于产品设计,并根据客户体验的反馈进行调整。

最重要的是,不要向非技术性的商业用户提供程序员级别的工具。这样他们会变得沮丧,可能会使用他们以前的工具,而这并不能满足目前的工作(否则,你就不会实施大数据分析项目)。

随着不断生产和传输用户数据的物联网设备的大量涌现,企业们正在收集越来越多的用户行为数据,并创造大量的高容量、高速度和高多样性的信息资产。

教育机构。数据挖掘分析预测学生未来学习行为和学生表现,通过这些分析改进教学方法和制定新课程。

3调整项目和数据,使其符合实际业务需求

这些行为大多产生了非结构化数据,这些数据占当今企业数据总量的近80%,增长速度是在过去十年中结构化数据的两倍。

医疗健康。医疗健康提供者可以挖掘和分析数据,向患者提供更好护理方式和体验,也可以降低成本。通过数据挖掘医疗机构可以预测需要照顾的病人数量以及患者需要什么类型的服务。在生命科学领域,可以挖掘大量生物数据,并从中获得洞见,帮助公司开发新药和研究其它治疗方法。

寻找错误的数据分析工作可能失败的另一个原因是,因为这项工作最终变成用于寻找那些并不存在的问题的解决方案。这就是为什么你必须把你正在寻求解决的业务挑战/需求摆在正确的分析问题上,信息服务提供商益博睿(Experian)全球数据实验室的首席科学家Shanji Xiong说。

图中显示了在2017年存储了125 EB的企业数据,80%是非结构化数据 (来源:Credit Suisse)

在包括医疗健康和零售在内的多个行业,公司可以使用数据挖掘来检测欺诈和其他滥用行为,通过数据挖掘识别要比传统识别此类行为的方法快得多。

关键是要在项目早期就邀请具有很强分析背景的业务专家与数据科学家合作来定义问题。

海量数据的增长极大地改变了数据存储和分析的方式,因为传统的工具和方法不具备处理“3V大数据”的能力。随着新技术的发展,有能力处理不断增长的数据量和数据种类,并且速度更快,成本更低。

数据挖掘的关键组件

这是益博睿公司自己的大数据分析项目的一个例子。在设计分析解决方案以打击身份欺诈过程中,所面临的挑战可能是评估个人身份信息(PII)(如姓名、地址和社会保险号码)是否合法。或者,面临的挑战可能是评估使用一组身份信息来申请贷款的客户是否是该身份信息的合法拥有者。或者这两种挑战可能同时存在。

这些新的工具还对数据科学家的工作方式产生了深远的影响,使他们能够通过数据分析,以及开发前看起来不可能的应用程序来实现海量数据的变现。下面列举的是我们认为每个数据科学家都应该知道的大数据管理领域的创新方法。

数据挖掘过程包括满足不同需求的几个组件。

Xiong说,第一个挑战是合成身份问题,这需要在消费者或个人身份信息级别开发出一个分析模型来评估合成身份的风险。第二个挑战是欺诈申请问题,评估欺诈风险的得分则需要在申请级别进行开发。益博睿公司必须理解这些是不同的问题,尽管它们可能最初被认为是同一问题的不同表述,然后建立了正确的模型和分析方法来解决这些问题。

关系数据库和NoSQL

预处理。在应用数据挖掘算法之前,需要构建一个目标数据集。数据的一个常见来源是数据集市或仓库,需要执行预处理才能分析数据集。

当一组个人身份信息被提交给两家金融机构申请贷款时,通常要求对综合风险所返回的评分是相同的,但这通常不是欺诈申请评分的必要功能,Xiong说。

关系数据库管理系统出现于20世纪70年代,它将数据存储在具有行和列的表里面,使用结构化查询语言进行查询和维护数据库。关系数据库基本上就是多个表的集合,每个表中都有一个模式,模式严格定义了所存储数据的属性和类型,以及标识用于访问的特定行或列的键。

数据清洗和准备。为了消除数据「噪音」,目标数据集需要经过清理和准备,通过缺失值处理、过滤外围数据点来避免错误,或者做进一步的探索,创建分段规则以及执行与数据准备相关的其它操作。

正确的算法必须应用于正确的数据,以获取商业智能并做出准确的预测。在建模过程中收集和包含相关数据集几乎始终是比微调机器学习算法更重要,所以数据工作应该被视为重中之重。

RDBMS曾经由Oracle和IBM所统治,但现在,出现了许多开源的数据库系统,如MySQL、SQLite和PostgreSQL等等,也同样很受欢迎。

关联规则学习。这些工具搜索数据集中的变量之间的关系,例如确定商店中的哪些商品通常被一起购买。

4建立一个数据湖,不要吝啬带宽

上图显示了RDBMS的受欢迎度排名 (来源:DB-Engines)

聚类。聚类不需要已知结构,发现数据集中相似的组和结构。

顾名思义,大数据涉及海量数据。在过去,很少有组织能够存储这么多数据,更不用说对数据进行组织和分析了。但是现在,高性能存储技术和大规模并行处理在云端和基于本地系统都得到广泛使用。

由于一些特性非常受欢迎,关系数据库在商业领域中找到了一席之地,而数据完整性是 网站发稿关系数据库中最重要的特性之一。

分类。执行分类的工具将已知结构推广到新的数据点,例如电子邮件应用程序尝试将邮件分类为合法邮件或垃圾邮件时就是这样的数据点。

然而,存储本身是不够的。您需要一种方法来处理为大数据分析所提供的不同类型的数据。这正是Apache的Hadoop软件的功能,它可以对海量的和不同的数据集进行存储和映射。这种存储库通常被称为数据湖。一个实际的湖泊通常是由多个溪流汇集形成的,它包含许多植物、鱼类和其他动物,而数据湖通常由多个数据源提供数据,并包含许多类型的数据。

RDBMS须满足原子性、一致性、隔离性和持久性的要求,它利用一些约束来确保所存储数据是可靠的、准确的,这就使它们成为监测和存储一些诸如帐号、订单和付款等数据信息的理想选择。

澳门三合彩票,回归。这种数据挖掘技术用于在给定特定数据集比如销售量、住房价值、温度或价格时,得出预测数值范围。

但数据湖不应该成为数据的垃圾场。亚利桑那州立大学(Arizona State University)计算机运算研究主任杰伊埃切斯(Jay Etchings)表示,你需要考虑如何来汇总数据,并以一种有意义的方式来扩展属性。数据可以是完全不同的,但是如何使用像MapReduce和Apache Spark这样的工具对数据进行转换用于分析,这应该使用一个可靠的数据架构来完成。

但是,这些约束也带来了高昂的代价。由于模式和数据类型的限制,RDBMS在存储非结构化或半结构化数据方面的表现非常糟糕。死板的模式也使得RDBMS在创建、维护和升级等方面的成本变得更高。

概括。这种技术提供数据集的紧凑显示,包括数据可视化和生成报告。

建立一个数据湖,在这个数据湖中,数据的摄入、索引和标准化是大数据策略精心规划的组成部分。埃切斯说,如果没有清晰的理解和明确的蓝图,大多数数据为主导的项目注定要失败。

建立RDBMS需要用户预先拥有特定的用例,对模式的任何更改通常都是非常困难和耗时的。另外,传统的RDBMS被设计用在一个单机上运行,这意味着它们在处理大量数据时的速度要慢得多。

数十家供应商提供数据挖掘软件工具,一些供应商提供专有软件产品,另一些供应商提供开源软件产品。

同样,拥有足够的带宽是至关重要的,否则,数据不会从不同的数据源移动到数据湖中,并且商业用户也不会很快获得效果。埃切斯说,要实现拥有海量数据资源,不仅需要每秒能够处理数百万I/O(IOPS)的快速磁盘,而且还需要对节点和处理引擎进行互联,可以随时访问数据。

在保证ACID特性的同时,水平扩展RDBMS也是一项非常具有挑战性的任务。所有的这些属性使得传统关系型数据库管理系统无法处理现如今的大数据。

提供专有数据挖掘软件应用程序的主要供应商包括Angoss,Clarabridge,IBM,Microsoft,Open Text,Oracle,RapidMiner,SAS Institute和SAP。

从社交媒体发展趋势到流量路由,速度对于实时分析尤其重要。因此,要在最快的互连环境中创建你的数据湖。

截止到2000年,一些互联网公司开发了大量的非关系型数据库,因为已有的 RDBMS 可能无法长时间地支撑一个成功的互联网公司。

提供开源数据挖掘软件和应用程序的公司包括Carrot2,Knime,Massive Online Analysis,ML-Flex,Orange,UIMA和Weka。

5在大数据的方方面面进行安全性设计

在当时没有任何已有解决方案的情况下,这些互联网公司创造了新的方法和工具来处理收集到的大量非结构化数据:谷歌发布了GFS、MapReduce和BigTable;亚马逊发布了DynamoDB;雅虎发布了Hadoop;Facebook发布了Cassandra和Hive;LinkedIn发布了Kafka。

数据挖掘的风险与挑战

计算基础架构组件的高度异质性大大加速了组织从数据中获取有用见解的能力。但也有一个缺点,即系统的管理和安全要复杂得多,埃切斯说。由于涉及海量数据以及大多数大数据分析系统的任务极为重要,未能在保护系统和数据方面采取足够的预防措施,那么这在很大程度上是自找麻烦。

其中一些公司开放了他们的源代码,一些公司则发布了他们详细的研究设计论文,这也就促进了各种新数据库与新技术的激增,而NoSQL数据库成为了行业中的一个主要的参与者。

数据挖掘带来了风险和挑战,像其它与敏感信息和个人身份信息相关的技术一样,安全与隐私是最大的问题。

公司所收集、存储、分析和共享的大部分数据都是客户信息,其中一些是个人的和可以识别的信息。如果这些数据落入不法分子之手,结果可想而知:公司会因诉讼而导致金钱损失、可能会受到监管部门的罚款、品牌和声誉受损,以及客户的不满。

上图显示了自2000年以来各种数据库系统激增的情况。来源:Korflatis et. al (2016)

进行数据挖掘之前,数据要满足根本的需求,那就是完整、准确和可靠。毕竟,是对这些数据挖掘分析来制定重要的业务决策,而且需要经常与公众、监管机构、投资者和业务合作伙伴进行互动。现代数据形式还需要新的技术,利用这些新技术比如将来自不同分布式计算环境的数据集成,以及将图像、视频、时间数据和空间数据等更复杂的数据组合在一起。

您的安全措施应该包括部署基本的企业工具:实用的数据加密、身份和访问管理以及网络安全。但是,您的安全措施还应该包括有关正确访问和使用数据的培训和策略实施。

NoSQL数据库与模式无关,它提供了存储和操作大量非结构化和半结构化数据所需的灵活性。用户不需要知道在创建数据库的时候将存储哪些类型的数据,系统可以适应数据类型和模式的变化。

获取正确的数据,然后将其聚合起来,这样才能进行数据挖掘,IT的挑战不止这些。云计算、存储和网络系统需要使数据挖掘工具拥有更高的性能,数据挖掘得到的信息,需要清晰地呈现给有需求的用户,需要具备数据科学和相关领域的专业人才等。

6将数据管理和质量放在首位

NoSQL数据库可以跨节点分发数据,它通常具有更高的水平伸缩性和分区容错性。但是,这些性能优势同时也还伴随着成本的开销。NoSQL数据库不符合ACID特性,因而,数据一致性也无法得到保证。

从隐私角度来看。挖掘与人们行为方式相关的信息,如购买什么,访问什么网站等等,会担忧企业收集这些信息是否合理。这不仅影响公司技术实施,还会影响公司业务战略制定和风险预估。

确保良好的数据管理和质量应该成为所有大数据分析项目的标志,否则失败的可能性要大得多。

相反,它们提供了“最终一致性”:当旧数据被覆盖时,它们将返回暂时有些出入的结果。

收集个人信息除了受到道德约束外,还要受到法律的约束。有些法律规定如何收集数据、如何进行个人识别、如何共享数据。这一方面众所周知的法律有,美国「健康保险携带责任法」和欧盟「通用数据保护指令」。

您需要实施控制措施,以确保数据是最新的、准确的并能够及时交付。作为大数据项目的一部分,GoDaddy公司实施了警报功能,如果数据更新失败或超时,则会通知管理人员。此外,GoDaddy公司还对关键指标实施了数据质量检查,当这些指标与期望值不一致时发送警报。

例如,当人们同时搜索同一个词的时候,谷歌的搜索引擎索引不能更新这个词的相关数据,因此它在我们搜索时不会返回给我们最新的数据结果,但它会返回最合适的结果。

在数据挖掘中,前期准备的初始行为本身也许会披露危及数据机密性的信息或模式。因此,可能不经意间就违反了道德或法律要求。

确保数据质量和治理的一个重要内容就是雇佣熟练的数据管理专业人员,包括数据管理主管或其他管理人员来监督这些领域。鉴于这些项目的战略重要性,企业拥有对数据管理、操作、治理和策略的数据所有权是极为必要的。

虽然这个特性在绝对需要保证数据一致性的情况下不太适合,但对于那些需要效率而不是精确度的任务的场景,它却非常的适合。

数据挖掘过程中的每个步骤都需要数据保护,防止数据被盗、被改变和被秘密访问。安全保障包括加密、安全控制和网络安全机制。

责任编辑:周星如

现在,NoSQL分为几个不同的类别,每个类别都有其特定的作用。

数据挖掘是差异化竞争的核心

键值存储,如Redis、DynamoDB和Cosmos DB,只用于存储键值对,并提供检索与已知键相关联的值的基本功能。当速度因素很重要的时候,它们在简单的数据库模式下执行的效率最高。 宽列存储,如Cassandra、Scylla和HBase,将数据存储在列族或表中,并用来为大型分布式系统管理PB级的数据量。 文档存储,如MongoDB和Couchbase,以XML或JSON格式存储数据,文档名称作为主键,文档内容作为值。文档可以包含许多不同的值类型,并且可以嵌套,使它们特别适用于管理分布式系统的半结构化数据。 图形数据库,如Neo4J和Amazon软文网 Neptune等将数据表示为相关联节点或对象的网络,以便于数据的可视化和图形化分析。图形数据库对于分析异构数据点之间的关系特别的有用,例如防欺诈或Facebook的好友关系图。

尽管有这些挑战,数据挖掘已经成为IT战略的重要组成部分,公司希望通过挖掘他们采集的信息或可以获得的信息获得商业价值。随着预测分析、人工智能、机器学习和其它相关技术的不断进步,这一驱动力无疑将越来越重要。

MongoDB是目前最流行的NoSQL数据库,它为一些一直在使用传统RDBMS方法处理非结构化数据的企业带来了巨大的帮助。

相关服务

这里有两个行业例子:MetLife花费了多年的时间,试图在一个可以处理其所有保险产品的RDBMS上建立一个集中式的客户数据库,之后,一个Hackathon的人在数小时内就用MongoDB创建了一个数据库,该数据库在不到90天就投入了生产。

甲骨文营销云

YouGov是一家每小时收集5GB数据的市场调查公司,它将所有的数据从RDBMS迁移到了MongoDB,存储空间节省了70%。

费用面议

本文由澳门三合彩票发布于数据库,转载请注明出处:数据挖掘是通过大量的数据集进行排序,数据科

关键词: