分类目录归档：DataAnalysis

时序变点检测

发表评论

3175 views

变点检测的定义
常见变点检测算法
变点检测的应用

变点检测的定义

变点检测（Change point detection, CPD）是指在时间序列中发现统计特性发生重大变化的点

变点检测示例（斯匹次卑尔根岛的年均气温趋势）：

变点检测的分类：

按照是否回顾整个历史数据集，分为离线检测和在线/实时检测
按照预测目标可以分为变点识别（分类）、变化度预测、变点时间预测
按照训练过程是否使用数据集标签，分为有监督方法和无监督方法

常见变点检测算法

变点检测的有监督方法：

常见分类器：决策树、朴素贝叶斯、贝叶斯网络、SVM、KNN、HMM、CRF 等
虚拟分类器：定义第一个窗口内的所有连

数据相关性分析

发表评论

3097 views

相关性度量
差异性检验
距离度量
- Jaccard 距离
其他相关性分析

相关性度量

皮尔逊相关系数

皮尔逊积矩相关系数（Pearson product-moment correlation coefficient，简称PPMCC或PCCs）

最常见的相关系数，所以文章或教学中常见的"相关系数"指的就是皮尔逊相关系数
皮尔逊相关

正则表达式

发表评论

3397 views

1 概念理解
2 正则入门
3 常用技巧
- 3.1 手册速查
- 3.2 多模式组合-或与非
4 在Python中使用
5 正则进阶
6 填字游戏

1 概念理解

正则表达式（Regular Expression，简写为regex、或RE）是一种描述句法规则的字符串，常用来匹配符合某个模式（pattern）的文本，以实现针对特定文本的检索（search，findall）、替换（replace）等目的。

常见应用：文本/文件查找、数据/网页清洗、非格式化数据转格式化

在线测试：https://www.mklab.cn/utils/regex

2 正则入门

正则表达式30分钟入门教程

3 常

时间序列距离测度

发表评论

5082 views

1 常见距离测度
2 动态时间规整
3 互相关

1 常见距离测度

欧氏距离：对应元素求差后计算平方和（要求两个时序长度一致） $$ D(x,y) = \sqrt{(x_1-y_1)^2 + (x_2-y_2)^2 + ... + (x_n-y_n)^2} = \sqrt{\sum\limits_{i=1}^{n}(x_i-y_i)^2} $$ 曼哈顿距离：基于网格地图的路程（比如出租车的行驶路线长度） $$ D(x,y) =|x_1-y_1| + |x_2-y_2| + ... + |x_n-y_n| =\sum\limits_{i=1}^{n}|x_i-y_i| $$ 闵可夫斯基距离

统计分析总结

发表评论

2217 views

1 变量类型与统计方法
2 一张图看懂数据分析算法

1 变量类型与统计方法

附件/Pasted image 20210818215245.png

2 一张图看懂数据分析算法

附件/Pasted image 20210818215259.png

数据分析评价指标

发表评论

3453 views

1 金融领域常见指标
2 模型常见评价指标
3 多重共线性相关指标
4 信息准则类指标
- 4.1 AIC
- 4.2 BIC
- 4.3 HQ

1 金融领域常见指标

1.1 WoE（Weight of Evidence）

#WoE #风险评估 #评分卡

一般情况下，我们将正常客户标记为0，违约客户标记为1。

时间序列分析

发表评论

3445 views

单位根
平稳性
DF 检验
ADF 检验
自相关和偏自相关
奥恩斯坦-乌伦贝克过程
赫斯特指数

单位根

单位根又叫（unit root）。

当一个自回归过程中： $$y_{t} = by_{t-1} + a + \epsilon _{t}$$ 如果滞后项系数b为1，就称为单位根。当单位根存在时，自变量和因变量之间的关系具有欺骗性，因为残差序列的任何误差都不会随着样本量（即时期数）增大而衰减，也就是说模型中的残差的影响是永久的。这种回归又称作伪回归。如果单位根存在，这个过程就是一个随机漫步（random walk）。

补充：解释变量（即滞后被解释变量）的系数应该有三种情况：

小于1：不

数据处理技巧

发表评论

2544 views

1 正则化
2 核技巧
3 归一化处理
4 数据平衡
5 哑变量处理

1 正则化

通过对损失函数引入正则项，避免模型的过拟合的情况。

正则化的分析：随着$\delta$取值的增大，系数$\theta$趋近于0

#正则化

2 核技巧

将原始样本通过函数进行高维映射，并作为特征进行模型输入，提高模型对于信息的提取能力

比如最常见的高斯核/RBF核(RBF:Radial basis function/径向基函数)

$$k(x,\mu_i,\lambda)=exp{(-\frac{1}{\lambda}||x-\mu_i||^2)}$$

转换过程： $$\phi(x)=[k(x,\mu_1,\

个人笔记

Digital Garden | 王半仙

变点检测的定义

常见变点检测算法

相关性度量

皮尔逊相关系数

1 概念理解

2 正则入门

3 常

1 常见距离测度

1 变量类型与统计方法

2 一张图看懂数据分析算法

1 金融领域常见指标

1.1 WoE（Weight of Evidence）

单位根

1 正则化

2 核技巧