1 背景知识
本文内容主要摘自:
《Is something better than pandas when the dataset fits the memory?》
代码地址
性能对比主要围绕5个操作展开:
- 读取700M CSV文件:load_transactions
- 读取30M CSV文件:load_identity
- 基于某列(string格式)进行merge操作:merge
- 分别对六列数据进行聚合操作(s
作者文章归档:王半仙
本文内容主要摘自:
《Is something better than pandas when the dataset fits the memory?》
代码地址
性能对比主要围绕5个操作展开:
作者:Dataversity公司
关键字:
Chinese Whispers(简称CW)算法,是一种无监督的图聚类算法
CW算法运行效率高,但结果存在不确定性,常用于人脸聚类或文本聚类
以人脸聚类为例,先进行图的初始化(构建无向加权图):每个人脸图片为一个节点,不同节点通过计算相似度,然后连接相似度超出指定阈值的节点,并以相似度作为边的权重
算法步骤
- 对于N个人脸样本,每个样本节点先单独成簇(自成一类)
- 遍历所有节点,根据每个节点的邻节点所属类别,计算权重累加
- 修正节点类别,选择最终累加权重最高的类别
- 如果有多个权重最高的类别,
DOI:10.4
重视数理逻辑和直觉理解,涉猎领域广泛且常有深入而独特的思
AKShare 是基于 Python 的财经数据接口库,目的是实现对股票、期货、期权、基金、外汇、债券、指数、加密货币等金融产品的基本面数据、实时和历史行情数据、衍生数据从数据采集、数据清洗到数据落地的一套工具,主要用于学术研究目的。
AKShare 的特点是获取的是相对权威的财经数据网站公布的原始数据,通过利用原始数据进行各数据源之间的交叉验证,进而再加工,从而得出科学的结论。
项目地址 7.5 k ⭐
TuShare