BIGDATA2017.2.1505大数据计算与分析研判04大数据存储与管理06大数据项目建设经验02大数据概述01现状与问题03大数据采集与处理PPT模板:素材:背景:图表:下载:教程:资料下载:范文下载:试卷下载:教案下载:论坛:课件:语文课件:数学课件:英语课件:美术课件:科学课件:物理课件:化学课件:生物课件:地理课件:历史课件:用户使用方面05缺少一个简便、高效、准确的在线检索工具!1.2应用建设方面交管户政出入境基础设施部级系统省级系统市级系统区级系统业务系统系统多了资源分散点对点交互重复建设共享困难重复建设现象突出!信息如何有效共享?1.3数据的管理与应用方面结构化数据图像音频视频非结构化信息的飞速增长为存储带来巨大压力对非结构化信息的利用缺乏有效手段矛盾巨大的复杂的数据资源怎么用起来?02BIGDATA2.1大数据发展的萌芽期大数据发展的突破期大数据发展的孕育期发展历程大数据不是最近才有的,数据一直存在,只是分析数据的技术近几年有了革命性的突破!所以,大数据也可以称为一种技术“大数据技术”90至今大数据发展的爆发期2.2概述大数据指那些数据量特别大、数据类别特别复杂的数据集,并且这些数据没有办法在可容忍的时间下使用常规软件方法完成存储、管理和处理任务。

、价值大数据存储量大TB-PB计算量大数据增长快处理速度要求快数据来源多数据类型多商业价值如:行为分析、信息挖掘广告定投、信息预测结构化数据、非结构化文档、视频、照片等大数据不仅仅是“大”2.3大数据的发展方向01020304这方向最常见的问题是数据的多源和多样性,导致数据的质量存在差异,严重影响到数据的可用性。针对这些问题,目前很多公司已经推出了多种数据清洗和质量控制工具(如IBMDataStage大数据采集与预处理方向在数据量迅速膨胀的同时,还要进行深度的数据深度分析和挖掘,并且对自动化分析要求越来越高,越来越多的大数据数据分析工具和产品应运而生,如用于大数据挖掘的RHadoop版、基于MapReduce开发的数据挖掘算法等等大数据分析与挖掘方向这方向最常见的挑战是存储规模大,存储管理复杂,需要兼顾结构化、非结构化和半结构化的数据。分布式文件系统、分布式数据库、NoSQL数据库相关技术的发展正在有效的解决这些方面的问题。大数据存储与管理方向由于大数据处理多样性的需求,目前出现了多种典型的计算模式,包括大数据查询计算(如Hive)、批处理计算(如HadoopMapReduce)、流式计算(如Storm)、和内存计算(如Hana),而这些计算模式的组合使用将成为满足多样性大数据处理和应用需求的有效手段。

大数据计算方向03BigData3.1大数据采集的方式大数据采集就是使用多种技术或手段“组合出击”,将数据收集起来并存储在大数据存储系统中。根据数据的类型常见的采集方式包括一下四种:01数据库采集通过ETL工具将分布的、异构数据源中的结构化数据经过清洗、转化、整合操作后抽取到大数据存储系统02文本数据采集通过各类接口从电子文件中获取数据的过程。可以将txt\xml\word\excel\pdf等文件内的数据提取出来,并以结构化的方式存储大数据存储系统03实时流式数据采集实时采集物联网内RFID标签、GPS定位设备、北斗定位设备、温度传感器等各类传感器的实时状态信息、位置信息,并以结构化的方式存储在大数据存储系统04多媒体数据采集通过视频分析技术、图形分析技术将视频、图片文件内的要素信息提取出来,并以结构化数据存储到大数据存储系3.2大数据采集工具(ETL采集工具)ETL即数据抽取(Extract)、转换(Transform)、装载(Load)的过程。ETL负责将分散的、异构数据源中的数据抽取到临时中间层后,进行清洗、转换、集成,最后加载到数据仓库中。Kele开源工具纯java编写,绿色无需安装支持Window、Linux、Unix运行环境依赖JDK可视化图形界面InformaticaPowerCenter软件一次性购买,但技术支持按项目收费支持Window、Linux、Unix客户端与服务端分离可视化图形界面广泛支持各类结构化、非结构化的数据源3.3大数据采集工具(文件数据采集)零散文件(非结构化)快递、饮食店等员工名单快递、饮食店等员工名单截获黑客犯罪人员电脑资料截获黑客犯罪人员电脑资料小区住户、租户登记信息小区住户、租户登记信息旧犯罪记录等文字卷宗旧犯罪记录等文字卷宗文件分类Excel文件Word文件文本文件PDF文件人员和单位数据(结构化)人员和单位数据(结构化)审核入库审核入库大数据存储系统由于业务特点的不同,开源软件或商业产品的解决方案针对性较弱,更倾向于由软件开发商定制开发采集器,通过插件的方式扩展支持的文件类型。

3.4大数据采集工具(实时流式数据采集)基于多源的实时流式数据(如:GPS定位信息、北斗定位信息、移动定位终端实时位置信息、传感器),提供数据接入、存储、分发、自动识别、报警、监控等实时处理功能。并支持通过插件的方式扩展接入类型。车载终端车载终端手持终端手持终端固定设备固定设备定位方式终端支撑北斗北斗GPSGPSWIFIWIFIRFIDRFID基站基站网络网络智能终端智能终端04BigData4.1大数据存储方案大数据存储方案应该是根据数据的特点及业务需求进行“专项治理”,产品和技术选型应该不仅仅局限于 存储方案高增长、海量关系型数据存储方案 (Hbase 海量大个文件存储方案(Hadoop HDFS 高速缓存方案(Redis 传统关系型数据存储方案(Oracle 集群、MySQL 集群) 4.2 传统关系型数据存储方案 应用场景:用于存储结构化的人员、物品、组织、数据字典等数据或业务关联紧密的事物性数据 技术选型:Oracle RAC MySQL集群 点:MPP架构、数据结构固定、数据量相对较小、安全性及稳定性较高 MySQL 集群 4.3 高增长、海量关系型数据存储方案 应用场景:用于存储数据量大且数据增长量较快的数据(如:卡口过车信息等) 技术选型:HBase 集群 点:运行在Hadoop之上适合超大数据量的写入,数据按列存储、只访问查询涉及的列- 大量降低系统IO 4.4 海量大个文件存储方案 应用场景:适合存储、访问、下载大个文件(通常是指百MB 、GB 、甚至GB 大小的文件) ,如视频网站类应用。

技术选型:HDFS 分布式文件系统 点:运行于廉价的商用机器集群上、多副本、采用了切分存储的方式4.5 海量小文件存储方案 应用场景:对海量小文件进行管理,包括:文件存储、文件同步、文件上传、文件下载。如:百 度文库、相册网站等应用场景 技术选型:FastDFS 分布式文件系统 点:不对文件进行切分存储、适合小文件存储、支持线性扩容05 Big Data 5.1 大数据计算 大数据计算的核心思想是:分而治之,把大量的数据划分开来,分配给各个子任务来完成。再将 结果合并到一起输出。 离线计算 静态数据的离线计算和处理,应用于非实时 数据计算场景,如数据统计、模型分析。 如:MapRequce 、Hive 实时计算 应用在数据的计算实时性要求比较高的场 景,能够实时的响应结果,一般在秒级。 如:Storm、内存数据库的查询 5.1 大数据计算- 海量数据检索 搜索输入条件的智能化分析 人名判定 地名判定 通过人名和地名进行搜索 搜索场景的智能化选择 搜索人员的角色为治安人员 旅客 娱乐场所 涉毒人员 嫖娼人员 搜索结果 张林,420921…… 信息自动关联 结构化信息 最终结果 张林,420921……,常住人口, 男,22岁,职业,地址 地址判定 非结构化信息输入内容的智能化分析 搜索场景的智能化选择 搜索结果的智能化筛选 信息的自动关联 智能检索 检索结果以“档案”形式展示 5.2 大数据离线计算 文本分析和数据分类、聚类 对人力情报信息通过文本分析工具进行处理,实现关键词提取,包括地名、敏感词语(如6.4 事件、老兵、上访、嗑粉等)、人名、各类号码等,生成人力情报关键字库(也称“标签库”)。

同时基于关键词库,关联分析技术、聚类分析技术,实现热点情报、相似情报等宏观分析。 文本分析工具文本分析是文本挖掘、信息检索的一项基本技术,是指对文本中表示其特征项的“关键 词”自动识别与提取,可以实现word 文档内情报信息的解析和标签属性创建。 相似情报分析5.3 大数据分析研判- 人员活动分析 人员活动分析: 根据关注人员动态管控的需求,基于系统内整合的外部信息(如:公安网实名制登记信息 、出行记录信息)和内部信息(如:情报线索信息、重点人等信息),通过定制化分析模型工 具,定义相关的分析模型,通过分析模型的计算和运行,支持研判的开展和应用,相关的分析 模型包括但不限于如下: 人员关系分析(社会关系、同行、同住、同乡)5.4 大数据分析研判模型- 案例1 旅业数据 人员入住登记信息 跳房”记录分析较短时间段内 有多条开房记录 年轻女性 旅馆位置集中 深夜凌晨入住 入住时间短 主要条件 辅助条件 涉黄可疑人员名单 定时生成推送 500 案件库有关涉黄人员 准确率 高达 87.8% 涉“黄”人员分析 5.4 大数据分析研判模型- 案例2 密切度分析 张三 李四 籍贯相同 乘坐K1234列车从南宁至广州 2014-08-16


本文由转载于互联网,如有侵权请联系删除!