财经类数据资源

AKShare 开源财经数据接口库

AKShare 是基于 Python 的财经数据接口库,目的是实现对股票、期货、期权、基金、外汇、债券、指数、加密货币等金融产品的基本面数据、实时和历史行情数据、衍生数据从数据采集、数据清洗到数据落地的一套工具,主要用于学术研究目的。

AKShare 的特点是获取的是相对权威的财经数据网站公布的原始数据,通过利用原始数据进行各数据源之间的交叉验证,进而再加工,从而得出科学的结论。

项目地址 7.5 k ⭐

TuShare 金融数据获取与分析

TuShare

Read more

时间序列距离测度

1 常见距离测度

欧氏距离:对应元素求差后计算平方和(要求两个时序长度一致) $$ D(x,y) = \sqrt{(x_1-y_1)^2 + (x_2-y_2)^2 + ... + (x_n-y_n)^2} = \sqrt{\sum\limits_{i=1}^{n}(x_i-y_i)^2} $$ 曼哈顿距离:基于网格地图的路程(比如出租车的行驶路线长度) $$ D(x,y) =|x_1-y_1| + |x_2-y_2| + ... + |x_n-y_n| =\sum\limits_{i=1}^{n}|x_i-y_i| $$ 闵可夫斯基距离

Read more

K-means聚类

1 K-means算法概况

K均值算法(即,k-means clustering),是一种无监督聚类算法

K-means算法属于NP-hard问题,不过存在高效的启发式算法,能快速收敛到一个局部最优解

2 K-means算法细节

算法步骤

  1. 对于N个样本,随机选择其中K个,作为最初的质心
  2. 遍历所有样本,选择最新的质心进行归类,形成K个簇
  3. 根据每个簇的样本重新计算质心(比如求均值)
  4. 重复步骤2-3,直到每个簇质心基本不再变化或达到最大迭代次数

算法的收敛过程如下所示:

(图源来自https

Read more

高效精准的时序聚类算法K-Shape

中文标题:高效精准的时序聚类算法K-Shape

英文标题:k-Shape: Efficient and Accurate Clusteri

Read more

概率论基础

1 有偏方差VS无偏方差

有偏样本方差:$Var=\frac{1}{n}\Sigma_{i=1}^n(X_i-X_{mean})^2$

无偏样本方差:$Var=\frac{1}{n-1}\Sigma_{i=1}^n(X_i-X_{mean})^2$

当数据量较少时,无偏样本方差更合理;当数据量较大时,二者不存在明显差异

Python相关方差计算

  • numpy包中默认计算方差是有偏的,无偏计算需要设定参数ddof=1
  • pandas包中默认计算方差是无偏的,有偏计算需要设定参数ddof=0

2 条件概率密度函数

定义随机变量$X$的概率

Read more

基于Lattice LSTM的中文命名实体识别

中文标题:基于Lattice LSTM的中文命名实体识别

英文标题:Chinese NER Using Lattice LSTM

发布平台:ACL

Proceedings of the 56th

Read more

条件随机场 CRF

1 马尔可夫随机场

一个无向图,结点表示随机变量,边表示两个随机变量之间的概率依赖关系,每个随机变量都可以指定一种可能取值,当变量满足马尔可夫性(即变量的可能取值只与它的临近变量有关)时,这时的图就叫马尔可夫网络,也就是马尔可夫随机场。(非严谨定义)

以构建以词性标注为例,假设一个句子由10个单词组成的句子,每个单词的词性选择有10种,则马尔可夫随机场就限制了所有单词的词性只和它前后的单词有关系。

2 条件随机场

条件随机场

Read more

隐马尔可夫模型 HMM

1 马尔可夫模型

马尔可夫模型(The Hidden Markov Model),简称HMM,又称为可视马尔可夫模型,具备无记忆性的特点,即当前时刻的状态,只受前一时刻的影响

以典型的天气模型为例,设状态有三种:{ Sunny,Rainy,Cloudy }

由于每天的天气都不一定,所以对于天气的每天观察就构成了一个马尔可夫链

通过历史数据统计不同状态之间的转移概率,就可以得到马尔可夫模型:

2 隐马尔可夫模型

马尔可夫模型的状态是可知的,而隐马尔可夫模型的状态是不可知,但存在可知的

Read more

概率图基础

概率图模型

概率图模型,在概率模型的基础上,使用基于图的方法来表示概率分布(概率密度/密度函数),是一种通用化的不确定性知识表示和处理方法。

在图模型中,随机变量构成了图中的节点,而随机变量之间的关系(比如相关、独立、不独立、条件独立、因果)则构成了图中节点之间的边

随机变量的常见关系度量指标:

对于随机变量之间的因果关系分析

Read more

结合字典对电子病历进行NER

中文标题:结合字典对电子病历进行NER

英文标题:Named

Read more