自动化数据抓取技术(I):基础准备

环境和安装

1.下载安装docker desk官网

win10用户需要注意一个操作系统的坑。

  • Win10的专业版用户(professional version),可以直接安装docker desk。但是也需要需要启用hyper-V 虚拟服务。可以ctrl+shift+delete查看cpu性能,能看到是否已经启用。具体启用办法:进bios –> system security,记得按F10确认启用。(ps. 2020版win10开始有了性的服务支持,主要是liniux模块的加入,可以进一步提升docker的运行性能。)

  • Win10家庭版用户(home version)不支持docker desk,只能使用安装Install Docker Toolbox官网下载

2.下载安装TightVNC用于查看实时交互。

下载安装TightVNC用于查看实时交互。官网。一份说明供学习:Debugging Using VNC

3.Rstudio安装RSelenium包。

一些必要设置

docker设置

1.注册docker hub账号。(此步骤可忽略)。

2.配置国内镜像站点。速度明显改观!docker desk软件里设置修改:

"RegistryMirror": [
                "https://hub-mirror.c.163.com",
                "https://mirror.baidubce.com"
                ]

如果是Docker toolbox则需要修改配置文件C:\Users\<user>\.docker\machine\machines\default\config.json

TightVNC配置

参看资料1,或Youtube视频资料2

第一步,docker命令行,拉取chrome。

$ docker run --name chrome -v /dev/shm:/dev/shm -d -p 4445:4444 -p 5901:5900 selenium/standalone-chrome-debug:latest

以上命令主要内容是,创建chrome实例,并分别打开两类端口。其中第一类端口4445:4444是分配给chrome通信;第二类端口5901:5900是分配给下面的TightVNC通信。

第二步,配置TightVNC Viewer【注意:不是server】。

端口:127.0.0.1:5901   【option 里面要设置port为5901】
密码:secret

docker常用操作

1.docker命令拉取selenium -chrome镜像。

标准模式:

$ docker run -d -p 4445:4444 selenium/standalone-chrome

诊断模式:

$ docker run -d -p 4445:4444 selenium/standalone-chrome-debug
$ docker run -d -p 5901:5900 -p 192.168.31.135:4445:4444 --link http-server selenium/standalone-chrome-debug
  

2.docker常见操作参看资料

3.Docker与jave version的匹配

查看java 版本。参考

$ docker exec 【containerId】 java -version

Docker 设置jave_home环境变量。参考

$ docker  ENV JAVA_HOME /path/to/java
Hu Huaping
Hu Huaping
PhD on Agricultural Economic and Management

My research interests include Data Science, Statistics, Agricultural Economics and Management.

Related