1 数据管理
1.1 数据卷
数据卷 是一个可供一个或多个容器使用的特殊目录
数据卷绕过了 UnionFS,可以在容器之间共享和重用- 对
数据卷的修改会立马生效;对数据卷的更新,不会影响镜像 数据卷默认会一直存在,即使容器被删除(类似于mount命令)
数据卷的常见操作:
docker volume create my-vol分类目录归档:书籍
数据卷 是一个可供一个或多个容器使用的特殊目录
数据卷 绕过了 UnionFS,可以在容器之间共享和重用数据卷 的修改会立马生效;对 数据卷 的更新,不会影响镜像数据卷 默认会一直存在,即使容器被删除(类似于 mount 命令)数据卷的常见操作:
docker volume create my-vol容器是独立运行的一个或一组应用,以及它们的运行态环境
容器的正常启动:docker run
exited)-t 选项让Docker分配一个伪终端(pseudo-tty)并绑定到容器的标准输入上-i 则让容器的标准输入保持打开-d 则让容器以守护态运行,返回信息为容器id进入启动中的容器:
docker attach:进入容器,从这个 stdin 中 exit 会导致容器的停止dockedocker pull ubuntu:18.04 # 从Docker Hub上下拉,获取镜像
docker run -it --rm ubuntu:18.04 bash # 运行镜像
dockDocker 是个划时代的开源项目,它彻底释放了计算虚拟化的威力,极
本
本章针对一些真实数据集进行处理和分析,以便复习并实践之前章节的内容
本章仅简略记录核心内容,不再展示具体代码,代码可参考本书配套Git项目-13章
短域名供应商Bitly提供的用户的网络访问信息(已脱敏数据,目前已该服务已关闭)
主要实践内容:
本章主要简单介绍了statsmodels 和 scikit-learn这两个Python建模的常用模块
先使用pandas进行数据加载和清理后,再进行建模是模型开发的一个常见工作流
一般建模工具都支持数组结构,所以经常用to_numpy方法将DataFrame转换为NumPy数组
代码示例:
data = pd.DataFrame({
'x0': [1, 2, 3, 4, 5],
'常见的三种时间格式:时间戳(timestamp),时期(period),时间间隔(interval)
pandas内置了很多处理时间序列的工具和算法
pandas也支持将时间间隔(interval)作为索引使用,只是本书未提及
除了pandas,本章还会用到datetime(用的最多)、time以及calendar这三个模块
代码示例:
from datetime import datetime
now