关于我们 | 联系我们

爱游戏app下载-官方网站

当前位置:主页 > 新闻资讯 > 行业新闻 >

开通头条号|基于自媒体的旅游信息挖掘与可视化

本文摘要:停止2020年,“自助游”已经成为旅游形式的主流。2017年,海内游客50亿人次、入境游客13948万人次,其中外洋游客2917 万人次;比上年划分增长12.8%、0.8%和3.6%;海内旅游和国际旅游创收划分 到达45661亿元和1234亿美元,较上年划分增长15.9%和2.9%。 由此可见, 旅游业的生长总体呈上升态势。盘算机信息技术、web技术、移动互联网技术、自媒体等的生长,也在深刻改变着旅游业的各方面。

爱游戏app

停止2020年,“自助游”已经成为旅游形式的主流。2017年,海内游客50亿人次、入境游客13948万人次,其中外洋游客2917 万人次;比上年划分增长12.8%、0.8%和3.6%;海内旅游和国际旅游创收划分 到达45661亿元和1234亿美元,较上年划分增长15.9%和2.9%。

由此可见, 旅游业的生长总体呈上升态势。盘算机信息技术、web技术、移动互联网技术、自媒体等的生长,也在深刻改变着旅游业的各方面。1数据的获取与预处置惩罚以上海市作为基于自媒体的旅游信息挖掘和可视化的研究区域。

上海是全球知名旅游多数市,以上海作为本文的研究区域具有一定的现 实意义和实用价值。上海旅游业蓬勃,各大主流旅游门户网站(像携程、去道IIJL,等)有关上海的旅游攻略信息较多,这部门旅游信息往往是开放的、可获取的,这保证了数据 的可获取性。上海的旅游资源较多,这里的客流量大,通过的自媒体上传自己的旅游 分享、攻略等的游客较多,使得数据体量有保证、种类也较多(像旅游POI、点 评、游记等),保证了数据泉源的广泛性。

针对海内游客,以下是用户较多的比力主流的旅游门户网站,针对这些网站对他它们攻略信 息举行了统计,效果如下表3-1所示:最后的选择是携程旅游门户网站作为本文数据的最终泉源。携程官方用户注册量到达了1.1亿(停止 2018年10月25日)这样既保证了数据的相对完整性、又保证了数据的相对真实性。

携程旅游门户网站上的旅游相关信息作为旅游数据泉源的一个有效增补,其数据根据有无空间经纬度信息主要分类两类:一类是带有空间经纬度信息的,例 如景点POI、旅店POI等;另一类是不具有空间位置信息的数据,例如,热门网 络游记数据、热门景点或者旅店的点评数据、热门问答数据等,这部门Web文 本数据,是现在海量Web数据的泉源之一,应用起来难度较大,具有很大的挖掘潜力。本文用现在比力盛行的Python网络爬虫技术来获取所用到的相关数据, 包罗与旅游相关的POI数据和旅游攻略指南信息。详细流程如下图3-2所示:数据收罗效果如下:使用Python爬虫技术收罗了旅游景点总共5293 个、上海迪士尼度假区的点评数据共72685条、网络游记共计3000篇、有关上 海的问答数据3018条。经由预处置惩罚之后仅保留旅游景点4302个、点评数据3 1287 条、问答数据1002条、热门游记2100篇,每个旅游目的地700篇。

爱游戏app

之后将这些 数据划分存入MYSQL数据库中,为本文后续的数据挖掘和可视化做数据支撑。2旅游文本信息挖掘方法研究点评时间挖掘在获取点评旅游文本时每条数据中都市附带详细的时间属性信息,例如,某条文本后有“2018-7.25”花样的信息,表现该游客是在2018年7月25日点评 的。

这部门信息反映了游客对于上海迪士尼的时间偏好。该信息属于结构化比力 完整的数据,因此处置惩罚起来相对容易,将它们分年变化量和月变化量举行统计, 获得了从2016年6月16日至201 8年6月l 6日之间的数据,所以在举行按月变 化量举行统计时,只思量2017年一整年的月变化量。统计效果如下图4-l和4-2所示:点评旅游文本信息挖掘文本挖掘是信息、挖掘的一个重要的分支,目的是从众多非结构化的旅游文本 中挖掘出结构化的信息供人们应用和研究。

旅游文本数据大多是异构数据,具有 体量大、信息杂的特点,其中包罗着许多信息价值低甚至没有任何价值的数据。本小节使用已知种别的文本,经预处置惩罚、文本表现、文天职类技术后,使用文本特征与种别之间的关系实现分类,最后基于上一步实现的分类模型对未知文本实 现分类预测。

其一般流程如下: 表4—2差别分类器的分类效果对比(size=100)由上表4-2、4-3和4-4可以看出当样本量是一个定值的情况下,同一维度值 下差别分类器的分类效果具有一定的差异。在维度为100维和150维时,支持向 量机和人工神经网络的分类精度略大于最近邻的分类效果;而对于同一分类器在 差别的维度下的分类精度也有差异,从中可以看出,当词向量的维度size=150 维时的分类精度相对最高,例如,对于支持向量机分类器的维度划分为100、150、 200时其对应的分类精度划分为83.53%、85.81%、82.90%,分类精度出现先变 高在降低的态势。

问答旅游文本的信息挖掘携程攻略中问答社区是众多用户与用户、用户与从业人员等交互的重要模 块,是旅游地理学中的重要数据泉源,现在海内外关于这类数据的相关应用研究 较少。用户在社区上提出自己的感兴趣的话题之后,能够获得相应的谜底,同时 众多用户也可以在谜底中富厚这类话题的回覆,以期为更多的潜在旅游者服务。将前文获取1002条数据上传(有篇幅限制,单个任务在50条至20万条之间), 启用分析引擎举行处置惩罚,文本聚类完成后,效果存储在服务器的数据库中,波森 提供了HTTP Get方法获取效果,返回的JSON花样的列表中有三个参数,各自的寄义划分如下表4-5所示,返回的效果如图4-9所示。从返回的效果ToplO中 可以看出众游客到上海旅游时最体贴的问题,例如与问题“去上海迪士尼进去之 后怎样玩最省时省力?”相似的文本有78个,其中最具代表性的是ID为“315” 的文本。

通过对问答数据的聚类,把这些问答数据的处置惩罚效果经可视化处置惩罚后(结 果可视化部门将在下节举行先容),使得潜在的上海游客在第一时间就能找到自 己想问的问题及其回覆,大大提高了潜在游客信息检索的效率,淘。


本文关键词:开通,头条,号,基于,自,媒体,的,旅游,信息,爱游戏app

本文来源:爱游戏app-www.hgsk88.com

Copyright © 2002-2022 www.hgsk88.com. 爱游戏app科技 版权所有 备案号:ICP备18560725号-9