中文标题:基于随机图的稳健实体解析
英文标题:Robust Entity Resolution using Random Graphs
发布平台:ACM SIGMOD
1 苏剑林-科学空间 ⭐⭐⭐⭐⭐
重视数理逻辑和直觉理解,涉猎领域广泛且常有深入而独特的思
中文标题:众包平台实体解析算法
英文标题:Crowdsourcing algorithms for entit
AKShare 开源财经数据接口库
AKShare 是基于 Python 的财经数据接口库,目的是实现对股票、期货、期权、基金、外汇、债券、指数、加密货币等金融产品的基本面数据、实时和历史行情数据、衍生数据从数据采集、数据清洗到数据落地的一套工具,主要用于学术研究目的。
AKShare 的特点是获取的是相对权威的财经数据网站公布的原始数据,通过利用原始数据进行各数据源之间的交叉验证,进而再加工,从而得出科学的结论。
项目地址 7.5 k ⭐
TuShare 金融数据获取与分析
TuShare
1 常见距离测度
欧氏距离:对应元素求差后计算平方和(要求两个时序长度一致) $$ D(x,y) = \sqrt{(x_1-y_1)^2 + (x_2-y_2)^2 + ... + (x_n-y_n)^2} = \sqrt{\sum\limits_{i=1}^{n}(x_i-y_i)^2} $$ 曼哈顿距离:基于网格地图的路程(比如出租车的行驶路线长度) $$ D(x,y) =|x_1-y_1| + |x_2-y_2| + ... + |x_n-y_n| =\sum\limits_{i=1}^{n}|x_i-y_i| $$ 闵可夫斯基距离
1 K-means算法概况
K均值算法(即,k-means clustering),是一种无监督聚类算法
K-means算法属于NP-hard问题,不过存在高效的启发式算法,能快速收敛到一个局部最优解
2 K-means算法细节
算法步骤
- 对于N个样本,随机选择其中K个,作为最初的质心
- 遍历所有样本,选择最新的质心进行归类,形成K个簇
- 根据每个簇的样本重新计算质心(比如求均值)
- 重复步骤2-3,直到每个簇质心基本不再变化或达到最大迭代次数
算法的收敛过程如下所示:
(图源来自https
中文标题:高效精准的时序聚类算法K-Shape
英文标题:k-Shape: Efficient and Accurate Clusteri
1 有偏方差VS无偏方差
有偏样本方差:$Var=\frac{1}{n}\Sigma_{i=1}^n(X_i-X_{mean})^2$
无偏样本方差:$Var=\frac{1}{n-1}\Sigma_{i=1}^n(X_i-X_{mean})^2$
当数据量较少时,无偏样本方差更合理;当数据量较大时,二者不存在明显差异
Python相关方差计算
- numpy包中默认计算方差是有偏的,无偏计算需要设定参数
ddof=1
- pandas包中默认计算方差是无偏的,有偏计算需要设定参数
ddof=0
2 条件概率密度函数
定义随机变量$X$的概率