离线下载
获取电子书

bruintong · 更新于 2018-01-20 09:01:00

该小节与上一节差不多,继续以介绍为主.数据模型训练材料是指通过爬虫爬取的具有关联性的特定数据来作为各种数据模型的训练材料,从而得出各种结论.这类用途因为涉及到很多计算模型的专业知识,所以我们通过社会舆论分析,机器翻译,地域性特征图这几个例子为重点,来讲讲我们会在什么时候用上这些技术。

  • 网络舆论分析
    首先,我们了解下什么叫网络舆论.就是在一件事发生后,在社交网络上面形成主流的一类舆论,通常可以代表大部分网民在这件事上的态度。我们通过从各类SNS中抓取的大批量数据通过自然语言分析(NLP)来来得到其中所代表的社会情感.比如我在第一章里提到的那篇著名论文,就是通过抓取了推特上亿条信息后推算出的.这种结论能一般代表SNS上的民意,可以成为各种论文所引用的对象以及公司决策的辅助.举个例子,下图为新浪微舆情在某件事中根据自身微博中网友的留言得出的分析结论.此下图是通过新浪自身的情感研判模型得出的网络舆论对该起事件的情感判定.

  • png

  • 机器翻译
    机器翻译就是不依靠人工,通过输入人工翻译的大量语料,然后做出统计模型,让计算机尽可能地熟悉别人是怎么翻译的,从而耳濡目染,领悟到该如何翻译。而这大量语料就是我们通过爬虫在网上抓取的各种双语翻译。例如如今的Google翻译,百度翻译和必应翻译都是如此而来的.png只所以说,如果你对此有兴趣也可以尝试自己搭建一个翻译引擎.只不过像谷歌百度都是用十亿级别的数据训练出来的,如果你只输入几千语料的话,可能结果会不有点半生不熟。

  • 地域性特征
    地域性特征就是在一定的范围内,由于相同的历史文化、气候地理条件,造成某种事物分布集中于某一片.或者有一定的规律,产生的一些只属于该地区的特定现象.而我们同样是通过SNS社交网络上的数据,可以根据不同的地域范围,通过数据分析,得出具有地域性的一般结论,可用作各种社科类论文的补充依据.如果这也要举例子的话,那么还是刚才那件事.微舆情上也列出了各地域转发的分布图.就是如下:png如图可以直观的看到天津地区与江西地区两个不同地域之间的差异.

和第一种方法一样,这种方法也只是介绍,不涉及具体学习模型.有关机器学习以及模型的训练,请参照其他论文。感谢.

而第三种方法因为平日里大家见得最多,我就在这里的结尾给带过去好了.所谓数据可视化,其实是通过类似于echarts,highcharts,G6,D3这些js库或者是各自商业数据分析软件,得出一些我们需要的结论。而这些结论可以来阐明我们想要叙述的观点和作为我们论文中观点的佐证。比如说,我们可以通过echarts或者highcharts内的地图模块来画一张全国城市雾霾分布图,通过G6来画出一张微博关系图,通过D3画出一些直方图之类的,还有词云,出行图等等一系列的作用.如下就是一张通过使用可视化库搭建而成的全国城市雾霾分布图.png

上一篇: 搜索引擎类 下一篇: 关于反爬