旅游大数据的采集方法

海鳗云 2024-01-03 16:35:26

旅游大数据的采集来源广泛,除了来自传统的旅游企业和组织内部的结构化数据外,更多的是来自互联网、移动互联网及物联网应用中的半结构化和非结构化数据。网络大数据一般以数据流形式快速产生,有交互性、动态变化性、时效性等特征,对数据采集的实时性要求较高,数据规模较大。因此,传统的数据采集方法已无法满足大数据时代的数据采集需求,需要采用新的方法和工具。

一、互联网数据采集

互联网大数据采集主要通过网络爬虫或网站公开应用程序接口(API)两种方式实现。网络爬虫是一种按照一定规则自动抓取Web信息的程序或者脚本。网络爬虫可以自动采集所有其能够访问的页面内容,为搜索引擎和大数据分析提供数据来源。例如,在通过数据采集平台采集互联网旅游游记数据时,通过爬虫技术可得到数据采集时间、数据发布时间、游记标题、作者名称、浏览人数、游记正文等内容。

旅游大数据互联网采集结果样例,如下图

一些网站将自己的网站服务封装成一系列API 供第三方开发者使用,被称为网站开放 API (Open API)。社交媒体(如微博、微信)都开发了API,供其他应用程序获取数据。海鳗云旅游大数据也支持为开发者提供API接口服务。

二、基于 ETL 的数据采集

旅游企业或组织的业务数据大多以关系数据库形式存储于业务数据库中。最常见的从业务数据库中提取数据并用于分析的方式是 ETL (Extract Transform Load, ETL)。ETL 用于描述数据从数据源端经过抽取(Extract)、转换(Transform)、加载(Load)到目的端的过程,数据源端常为企业业务数据库,目的端常为数据仓库。目的是将企业中分散、凌乱、标准不统一的数据整合,为后续的数据预处理、数据分析等做好准备,为企业基于数据分析的决策支持提供数据基础。

ETL 数据抽取是从数据源中抽取数据过程。抽取方式有两种,一种是全量抽取,一种是增量抽取。

三、基于接口的数据采集

除了基于ETL的业务数据库采集数据,还可以通过应用系统的对外接口实时或者定时采集。由于旅游企业或者机构的应用系统之称的业务各不相同,企业或机构内部也存在多种应用系统,对于数据采集接口,须根据各应用系统的业务、数据、存储等特征分别进行开发。例如,可以开发某酒店的管理信息系统(如Opera)的一个对外开放接口,采集每日游客住宿信息、客房人住信息等。

四、日志流数据的采集

旅游企业的业务系统或者电子商务网站、移动 App等都会产生大量的日志数据,这些日志数据中包含了大量可供分析和利用的信息。

五、基于设备和物联网传感器的采集

旅游相关企业和服务机构,在服务范围内部署了大量旅游服务、安防、监控设备,纳入设备管理平台运维管理。对基于设备和物联网传感器采集到的数据,可以通过设备管理平台的接口,进行实时或定时采集。

1 阅读:11

海鳗云

简介:基于全量外部数据打造旅游营销、监管和服务新能力。