News新闻中心

精确查询:

新闻中心

大数据技术的方法与工具1-采集篇

发布时间:2021-09-26 05:42:15 来源:乐鱼体育官网

  大数据采集技术就是对数据进行ETL操作,通过对数据进行提取、转换、加载,最终挖掘数据的潜在价值,然后提供给用户解决方案或者决策参考。数据采集位于数据分析生命周期的重要一环,它通过传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。

  在现实生活中,数据产生的种类很多,并且不同种类的数据产生的方式不同,所以大数据采集的方法和所用的工具分为以下几种:

  通过系统日志采集大数据:用于系统日志采集的工具常见的有Hadoop Chukwa、Cloudera Flume、Facebook Scribe和LinkedIn Kafka等。这些工具是分布式架构,满足每秒数百MB的日志数据采集和传输需求。

  通过网络采集大数据:主要指通过网络爬虫或者网站公开API等方式从网站上获取大量数据信息方式,将网站上非结构化的数据抽取出来,采用结构化的方法,同意储存在本地,支持图片、音频、视频、文字等多种形式的素材采集。网络爬虫的工具主要分为3类:分布式网络爬虫工具(Nutch)、Java网络爬虫工具(Crawler4j、WebMagic、WebCollector)、非Java网络爬虫工具(Scrapy)。

  通过其他数据采集方法:生产和业务数据或学术研究数据,如更高数据的保密性要求,可以通过与企业或者研究机构合作,使用特定系统接口等相关方式采集数据。

  可以实现定位、标记、地图、导航(公交驾车步行)、POI位置搜索、周边检索、地理编码及逆地理编码、实时路况等丰富功能。

  与国内地图软件功能类似,提供定位、标记、地图、导航(公交驾车步行)、POI位置搜索、周边检索、地理编码及逆地理编码、实时路况等功能。

  CityEye是一款微信小程序,可通过设置项目组让多用户协同完成城市景象和街景照片的收集和上传到云空间,还能实时完成行人数量、车辆数量、视觉建筑密度、街道比例、天空开敞度和绿视率的指标的计算和地理信息的可视化呈现,在线导出图片压缩包,实现图像数据的收集和整理。此外,还可以通过收集公众对不同图像的偏好数据,实现对街景的情感指标量化评估。

  可以实现定位、标记、地图、导航(公交驾车步行)、POI位置搜索、周边检索、地理编码及逆地理编码、实时路况等丰富功能。

  提供截止到2018年,覆盖全国的一共22个一级类,262个二级类,831个三级类,超过6530万条POI数据,此外还有其他遥感、气象、土地使用类型、植被覆盖等各种数据。

  提供关于农业、气候、生态、能源、海洋等多方面的公开数据,共计230,256个数据集、14个数据目录。

  导入导出GIS矢量文件、栅格数据,GIS坐标相互转换,专业GIS功能(点线面及CAD绘制、图层批量设置、全国卫星图像&行政区划&道路路网&水系&POI&矢量建筑轮廓下载、面积计算、线路查询、矢量数据套合配准、批量新建下载任务、剖面图生成、高程等高线提取等等)。

  提供数据挖掘、处理及分析软件【小O地图】和与Office表格结合使用的【小O图标】插件,可以获取POI数据、行政区数据、公交线路、驾车线路、各种地图元素矢量数据,提供地址解析、坐标转化和坐标计算,提供地图分析,可以爬取商超的商品信息、二手房信息、餐饮酒店等常用信息,绘制各种展示数据的地图。

  根据图片的尺寸、经纬度坐标、全景角度等信息,通过全景静态图API请求参数自动在网站爬取图片链接,返回相应的图片数据。该方法使用的是百度坐标系。

  根据size、location或panoid、fov,key等信息,构建相应的URL,随后自动在网站爬取图片链接,最终返回相应的图片数据。

  :每组图片是在马萨诸塞州波士顿市使用DSC-F717相机拍摄,之后对图片中的9类物体进行手工标注。9类物体包括汽车,行人,自行车,建筑物,树木,天空,道路,人行道,店铺,每类物体使用相同的方式进行标注。

  通过关键词检索,在需要登录的数据/系统内网、含验证码的网站等各类APP/Ajax网页上自动抓取图片/视频/PDF文件等资源。

  政府机构采集业务数据,企业采集商业数据、电商数据,网站采集运营数据(访问数据、用户行为等),科研所需的数据等。


上一篇: 百度2030年实现集团运营碳中和AI助力节能减排
下一篇:大数据下的身份验证 如何规范金融机构收集客户信息?
联系我们
合作伙伴

分享到:

手机扫一扫,有惊喜

地区/国家:
版权所有:乐鱼体育官方下载 沪ICP备08025922号