1 概念理解
正则表达式(Regular Expression,简写为regex、或RE)是一种描述句法规则的字符串,常用来匹配符合某个模式(pattern)的文本,以实现针对特定文本的检索(search,findall)、替换(replace)等目的。
常见应用:文本/文件查找、数据/网页清洗、非格式化数据转格式化
在线测试:https://www.mklab.cn/utils/regex
分类目录归档:DataAnalysis
正则表达式(Regular Expression,简写为regex、或RE)是一种描述句法规则的字符串,常用来匹配符合某个模式(pattern)的文本,以实现针对特定文本的检索(search,findall)、替换(replace)等目的。
常见应用:文本/文件查找、数据/网页清洗、非格式化数据转格式化
在线测试:https://www.mklab.cn/utils/regex
欧氏距离:对应元素求差后计算平方和(要求两个时序长度一致) $$ D(x,y) = \sqrt{(x_1-y_1)^2 + (x_2-y_2)^2 + ... + (x_n-y_n)^2} = \sqrt{\sum\limits_{i=1}^{n}(x_i-y_i)^2} $$ 曼哈顿距离:基于网格地图的路程(比如出租车的行驶路线长度) $$ D(x,y) =|x_1-y_1| + |x_2-y_2| + ... + |x_n-y_n| =\sum\limits_{i=1}^{n}|x_i-y_i| $$ 闵可夫斯基距离
一般情况下,我们将正常客户标记为0,违约客户标记为1。
单位根又叫(unit root)。
当一个自回归过程中:$$y_{t} = by_{t-1} + a + \epsilon _{t}$$ 如果滞后项系数b为1,就称为单位根。当单位根存在时,自变量和因变量之间的关系具有欺骗性,因为残差序列的任何误差都不会随着样本量(即时期数)增大而衰减,也就是说模型中的残差的影响是永久的。这种回归又称作伪回归。如果单位根存在,这个过程就是一个随机漫步(random walk)。
补充:解释变量(即滞后被解释变量)的系数应该有三种情况:
通过对损失函数引入正则项,避免模型的过拟合的情况。
正则化的分析:随着$\delta$取值的增大,系数$\theta$趋近于0
将原始样本通过函数进行高维映射,并作为特征进行模型输入,提高模型对于信息的提取能力
比如最常见的高斯核/RBF核(RBF:Radial basis function/径向基函数)
$$k(x,\mu_i,\lambda)=exp{(-\frac{1}{\lambda}||x-\mu_i||^2)}$$
转换过程: $$\phi(x)=[k(x,\mu_1,\