5.《Python数据分析》pandas入门

pandas是后续数据清理和分析的重要工具

pandas是基于numpy构建的,但支持异构的数据(不同于numpy,pandas中不同列的类型可以是多样化的,比如日期、数值、字符串等)。pandas的功能定位可以对标Excel,但相比于Excel会更加地灵活强大

1 pandas数据结构介绍

pandas包含两个主要数据结构:Series和DataFrame

Series是一种类似于一维数组的对象,包含了列表、字典或一维numpy数组的很多特性;每个Series都是由一个名称(name)、一组index和一组values构

Read more

4.《Python数据分析》numpy基础:数组和向量计算

NumPy(Numerical Python)是Python用于数值计算的基础包

  • 内置高效的多维数组ndarray,提供快速向量计算和灵活的广播机制
  • 具备常见的数学计算函数(线性代数、傅里叶变换等)和读写数据的能力
  • 在一个连续的内存块中存储数据,节省内存并且计算效率高
  • 提供动态、易用的接口,也很方便与其他常用编程语言对接

关于广播机制可参阅1.3 广播机制

1 多维数组

ndarray数组是一个通用的同构数据多维容器,即所有元素的类型应该是相

Read more

3.《Python数据分析》Python数据结构、函数和文件

1 数据结构和序列

元组tuple,小括号定义,固定长度,不可变的Python序列对象

在Python的函数中,参数传入以及结果返回都是以元组的形式实现的

列表list,方括号定义,长度可变,内容可变的Python序列对象

常用的序列函数

  • enumerate()示例:for i, value in enumerate(tuple_or_list)
  • sort():对序列或字符串进行排序
  • zip():对多个序列进行成对地组合(最终长度取决于最短的输入序列)
  • reversed():生成器,从后向前地迭代一个序列

字典dict(重要),大括号定义,以键值对

Read more

2.《Python数据分析》Python基础、IPython与Jupyter

提示:本书定位是专注于数据处理与分析的工具书,不涉及类和面向对象编程等概念

所以作者也推荐了三本进阶书籍:《Python Cookbook》《Fluent Python》《Effective Python》

此处加一个 #待补充 方便以后提醒自己阅读这三本书

1 Python解释器

打开解释器:在终端输入python(没反应请检查一下环境变量配置)

退出解释器:输入exit()或快捷键ctrl+D

执行python脚本:python xxxxx.py

2 IPython基础

交互式编程:在终端输入ipytho

Read more

1.《Python数据分析》准备工作

前言

《利用Python进行数据分析》第一版使用python2.7,出版于2012年

本书第二版使用python3.6,编写于2016年~2017年,针对pandas库的新特征进行更新

目前的笔记依赖于第三版,编写于2022年,并对pandas库的新特征进行更新

第三版在项目上尽可能与前两版保持一致,但是在细节有一些优化;同时第三版最大的一处变化是开放了在线版本,并通过git版本控制进行持久维护,查缺补漏(给作者点个赞)。

本书中所有涉及的代码和数

Read more

开源大模型及衍生工具汇总

本文聚焦于整理汇总chatGPT引发AI热潮后,各研究机构开源的模型

收录条件:代码与模型最好都开源,部署要求低(消费级显卡)

20231012更新:发现了一

Read more

乌巴·巴特勒(Oobah Butler)

1 基本信息

英国作家和电影制作人,内容创意制作者和网络搞怪小能手

2 个人经历

2.1 达利奇小屋

在兼职水军帮餐厅写好评的过程中,乌巴·巴特勒发现,一个精选好评只价值10英镑

面对着越来越多的虚假好评,餐厅的生意会越来越好,而味道反倒变得不再那么重要

由此乌巴·巴特勒产生了一个大胆的想法,就是构建一个《不存在的网红餐厅》

具体操作过程:

  • 购买一处偏远的房屋,配备上最简单的设备
  • 在猫途鹰网站注册餐厅,起名为“达利奇小屋”
  • 为餐厅打造官网,伪造诱人

Read more

20230321配置CUDA和cuDNN

目标:在Ubuntu 18.04配置CUDA 11.3 和 cuDNN 8.8.0

环境说明:容器内已配置显卡驱动+torch-gpu版

  1. 检查容器发现没有安装CUDA工具包:nvcc -V
  2. 检查当前显卡驱动信息及其支持的最高CUDA版本:nvidia-smi
  3. 安装CUDA:
  • nVidia官网下载对应版本的CUDA
  • 选择runfile(local)版本后,官网会直接给出了安装指令
wget https://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_

Read more

高斯过程回归

1 高斯过程

给定均值向量和协方差矩阵,可以唯一确定一个高斯分布(Gaussian distribution)

给定均值函数和协方差函数,可以唯一确定一个高斯过程(Gaussian Process,GP)

假设自变量为时间$t$,则每一个时刻$t$,高斯过程都对应着一个高斯分布

当时间$t$是连续型变量时,整个高斯过程便对应着无数个高斯分布,所以高斯过程可看作无限维高斯分布

高斯分布的两

Read more

hyperopt-超参优化

1 基本介绍

hyperopt通过在超参空间内快速搜索,寻找最优的模型超参

  • 目前已实现搜索算法:随机搜索、TPE和自适应TPE
  • 低代码,易上手;支持分布式运算

项目地址
中文文档

注意:虽然该项目有6.6k个⭐,但已经有一年半未更新

截至撰写本文的230315,此项目的上次更新日期是211129

补充说明:对tpe算法原理感兴趣的读者可参阅论文阅读-TPE算法

2 简单上手

  1. 最简单的官方示例:
# 定义目标函数
def objective(args): # objective = c1+c2^2
    

Read more