自动化数据抓取技术(I):基础准备
环境和安装
1.下载安装docker desk官网
win10用户需要注意一个操作系统的坑。
Win10的专业版用户(professional version),可以直接安装docker desk。但是也需要需要启用hyper-V 虚拟服务。可以ctrl+shift+delete查看cpu性能,能看到是否已经启用。具体启用办法:进bios –> system security,记得按F10确认启用。(ps. 2020版win10开始有了性的服务支持,主要是liniux模块的加入,可以进一步提升docker的运行性能。)
Win10家庭版用户(home version)不支持docker desk,只能使用安装Install Docker Toolbox官网下载
2.下载安装TightVNC用于查看实时交互。
下载安装TightVNC用于查看实时交互。官网。一份说明供学习:Debugging Using VNC
3.Rstudio安装RSelenium包。
一些必要设置
docker设置
1.注册docker hub账号。(此步骤可忽略)。
2.配置国内镜像站点。速度明显改观!docker desk软件里设置修改:
"RegistryMirror": [
"https://hub-mirror.c.163.com",
"https://mirror.baidubce.com"
]
如果是Docker toolbox则需要修改配置文件C:\Users\<user>\.docker\machine\machines\default\config.json
TightVNC配置
第一步,docker命令行,拉取chrome。
$ docker run --name chrome -v /dev/shm:/dev/shm -d -p 4445:4444 -p 5901:5900 selenium/standalone-chrome-debug:latest
以上命令主要内容是,创建chrome实例,并分别打开两类端口。其中第一类端口4445:4444
是分配给chrome通信;第二类端口5901:5900
是分配给下面的TightVNC通信。
第二步,配置TightVNC Viewer【注意:不是server】。
端口:127.0.0.1:5901 【option 里面要设置port为5901】
密码:secret
docker常用操作
1.docker命令拉取selenium -chrome镜像。
标准模式:
$ docker run -d -p 4445:4444 selenium/standalone-chrome
诊断模式:
$ docker run -d -p 4445:4444 selenium/standalone-chrome-debug
$ docker run -d -p 5901:5900 -p 192.168.31.135:4445:4444 --link http-server selenium/standalone-chrome-debug
2.docker常见操作参看资料
3.Docker与jave version的匹配
查看java 版本。参考。
$ docker exec 【containerId】 java -version
Docker 设置jave_home环境变量。参考
$ docker ENV JAVA_HOME /path/to/java