分类目录归档:DataAnalysis

正则表达式

1 概念理解

正则表达式(Regular Expression,简写为regex、或RE)是一种描述句法规则的字符串,常用来匹配符合某个模式(pattern)的文本,以实现针对特定文本的检索(search,findall)、替换(replace)等目的。

常见应用:文本/文件查找、数据/网页清洗、非格式化数据转格式化

在线测试:https://www.mklab.cn/utils/regex

2 正则入门

正则表达式30分钟入门教程

3 常用技巧

3.1

Read more

时间序列距离测度

1 常见距离测度

欧氏距离:对应元素求差后计算平方和(要求两个时序长度一致) $$ D(x,y) = \sqrt{(x_1-y_1)^2 + (x_2-y_2)^2 + ... + (x_n-y_n)^2} = \sqrt{\sum\limits_{i=1}^{n}(x_i-y_i)^2} $$ 曼哈顿距离:基于网格地图的路程(比如出租车的行驶路线长度) $$ D(x,y) =|x_1-y_1| + |x_2-y_2| + ... + |x_n-y_n| =\sum\limits_{i=1}^{n}|x_i-y_i| $$ 闵可夫斯基距离

Read more

数据分析评价指标

1 金融领域常见指标

1.1 WoE(Weight of Evidence)

#WoE #风险评估 #评分卡

一般情况下,我们将正常客户标记为0,违约客户标记为1。

Read more

时间序列分析

单位根

单位根又叫(unit root)。

当一个自回归过程中:$$y_{t} = by_{t-1} + a + \epsilon _{t}$$ 如果滞后项系数b为1,就称为单位根。当单位根存在时,自变量和因变量之间的关系具有欺骗性,因为残差序列的任何误差都不会随着样本量(即时期数)增大而衰减,也就是说模型中的残差的影响是永久的。这种回归又称作伪回归。如果单位根存在,这个过程就是一个随机漫步(random walk)。

补充:解释变量(即滞后被解释变量)的系数应该有三种情况:

  1. 小于1:不存

Read more

数据处理技巧

1 正则化

通过对损失函数引入正则项,避免模型的过拟合的情况。

正则化的分析:随着$\delta$取值的增大,系数$\theta$趋近于0

#正则化

2 核技巧

将原始样本通过函数进行高维映射,并作为特征进行模型输入,提高模型对于信息的提取能力

比如最常见的高斯核/RBF核(RBF:Radial basis function/径向基函数)

$$k(x,\mu_i,\lambda)=exp{(-\frac{1}{\lambda}||x-\mu_i||^2)}$$

转换过程: $$\phi(x)=[k(x,\mu_1,\

Read more