1.向量与点积

1 向量 Vector

向量$\vec{A}$主要由长度$|A|$和方向$dir(A)$组成,起点和终点不固定

2 点乘 Dot product

$$\vec{A}\cdot \vec{B}=\Sigma a_ib_i=|\vec{A}||\vec{B}|cos\theta$$ 点乘的结果是一个常数,同时包含了向量长度信息和夹角信息

点乘的证明(基于向量版余弦定理):

  • 定义向量$\vec{A}$和向量$\vec{B}$,量向量夹角为$\theta$
  • 定义向量$\vec{C}=\vec{A}-\vec

Read more

Pandas模块替代品分析

1 背景知识

本文内容主要摘自: 《Is something better than pandas when the dataset fits the memory?》
代码地址

性能对比主要围绕5个操作展开:

  1. 读取700M CSV文件:load_transactions
  2. 读取30M CSV文件:load_identity
  3. 基于某列(string格式)进行merge操作:merge
  4. 分别对六列数据进行聚合操作(s

Read more

tsfresh概述

1 基本介绍

tsfresh是专门用于时序类数据的特征工程构建工具

tsfresh 主要特点:

  1. 并行化高效自动构建特征
  2. 兼容Python常见的数据格式(pandas或scikit-learn)

tsfresh 局限性:

  1. 不适合流数据处理,更适合离线数据
  2. 不包含模型训练的功能(尽量兼容scikit-learn,不重复造轮子)
  3. 仅考虑时序的顺序性,对时间间隔差异较大

Read more

知识图与属性图的比较

中文标题:知识图与属性图的比较

英文标题:Knowledge Graph Versus Property Graphs

发表平台:网络公开

发布日期:2020-08-19

作者:Dataversity公司

关键字:

Read more

ChineseWhispers

1 算法概况

Chinese Whispers(简称CW)算法,是一种无监督的图聚类算法

CW算法运行效率高,但结果存在不确定性,常用于人脸聚类或文本聚类

2 算法步骤

以人脸聚类为例,先进行图的初始化(构建无向加权图):每个人脸图片为一个节点,不同节点通过计算相似度,然后连接相似度超出指定阈值的节点,并以相似度作为边的权重

算法步骤

  1. 对于N个人脸样本,每个样本节点先单独成簇(自成一类)
  2. 遍历所有节点,根据每个节点的邻节点所属类别,计算权重累加
  3. 修正节点类别,选择最终累加权重最高的类别
  4. 如果有多个权重最高的类别,

Read more

基于图与词向量构建语义向量

中文标题:基于图与词向量构建语义向量

英文标题:Making Sense of Word Embeddings

发布平台:ACL

ACL

发布日期:2017-08-10

引用量(非实时):156

DOI:10.4

Read more

关于实体解析基本方法的研究和述评

Read more

基于随机图的稳健实体解析

中文标题:基于随机图的稳健实体解析

英文标题:Robust Entity Resolution using Random Graphs

发布平台:ACM SIGMOD

Proceedings

Read more

优质博客网站分享

1 苏剑林-科学空间 ⭐⭐⭐⭐⭐

重视数理逻辑和直觉理解,涉猎领域广泛且常有深入而独特的思

Read more

众包平台实体解析算法

中文标题:众包平台实体解析算法

英文标题:Crowdsourcing algorithms for entit

Read more