调参与训练

1 传统机器学习

1.1 XGBoost

最常用的10个超参数(原生API,兼容Scikit-learn的API,常见取值范围):

  • num_boost_round:训练期间所需要的基学习器数量,默认100;在应对较大数据集时,一般控制在5000~10000左右(影响训练时间的重要因素);一个常用技巧是先设定一个较高的数值,然后结合early-stopping来获得一个较优的模

Read more

古麻今醉23年3季度文章集锦

Read more

BASIC重症医学23年3季度文章集锦

Read more

NEJM医学前沿23年3季度文章集锦

仅搜集收录了部分个人感兴趣的文章,并进行简单记录

1 概念科普

1.1 溺水

Read more

现代科研指北

1 前言

本文主要围绕作者科研十年的感悟和思考,进行总结和探索

本书框架如下:

  • 第一章前言
  • 第二章介绍现代科研的知识背景与认识框架
  • 第三章介绍现代社会及现代科研趋势与问题
  • 第四章介绍科研思维
  • 第五章介绍实验
  • 第六章介绍数据分析
  • 第七章介绍文献管理
  • 第八章介绍学术生活
  • 第九章介绍离开学术界的就业途径

附录

  1. 现代科研工具包
  2. 检验本书阅读效果的试题
  3. 调侃风格的科研版词

Read more

4张图揭示AI发展为什么不会放缓
  1. SOTA模型基准测试 vs 人类的表现

  • 手写识别(MNIST)、语音识别(Switchboard)、图像识别(ImageNet)、阅读理解(SQuAD 1.1 & SQuAD 2.0)、语言理解(GLUE)、常识完成(HellaSwag)、小学数学(GSK8k)、代码生成(HumanEval
  1. 训练AI模型的算力需求趋势

  • 2010年以前,用于AI训练的算力每 20 个月翻一倍;2010年以后,算力每 6 个月翻一倍
  • 摩尔定律(集成电路中的晶体管数量大约每两年翻一番)意味着算力的价格一直在稳步下降
  • 据OpenAI CEO Sam Altman透露,GPT-

Read more

DBSCAN密度聚类

1 DBSCAN算法概况

DBSCAN(Density-Based Spatial Clustering of Applications with Noise,基于密度的、对噪声鲁棒的空间聚类方法)是一种基于密度的经典聚类算法

2 DBSCAN算法细节

  1. 遍历所有样本,寻找关键的核心点(邻域内样本数>=MinPoints)
  2. 核心点及其邻域内的样本(包括其他核心点)形成了临时聚类簇
  3. 当核心点A属于核心点B的临时聚类簇时,合并两处临时聚类簇
  4. 重复以上过程,直至找不到新的可合并临时聚类簇

Read more

Mojo 编程语言

Mojo 是一种新的编程语言,通过将 Python 语法和生态系统与系统编程和元编程功能相结合,借鉴学习其他语言的特点和优势,弥合了研究和生产之间的差距。

  • 一种创新且可扩展的编程模型,面向各种加速器的高性能支持
  • 能够构建特定领域的编译器(如AI芯片、量子计算系统、FPGA 等)
  • 使用 CPython 来实现互操作性,所以与 Python 生态系统完全兼容
  • Mojo 还很年轻,因此目前只支持Python的核心功能(暂不支持Class)
  • 此外还有很多Python功能缺失,正确的长期目标是提供 Python 的超集
  • 目前可用于 Ubuntu Linux 系统,并且即将推出对 Windows 和

Read more

CALM:可信的自适应语言建模

中文标题:CALM:可信的自适应语言建模

英文标题:Confident Adaptive Language Modeling

发布平台:NIPS

NeurIPS

发布日期:2022-10-25

引用量(非实时):3

Read more

生物圈2号

生物圈2号是一个占地1.3万平方米,由玻璃和钢架构成的巨型建筑物,位于美国亚利桑那州图森市北部的Oracle地区。它由美国石油大王爱德华·巴斯投资2亿美元建造,于1989年完成。它的名字来源于它的原始模型“生物圈1号”,即地球。

生物圈2号内部模拟了地球上五种不同的生态系统,分别是热带雨林、海洋、荒漠、草原和沼泽。每个生态系统都有自己的气候、植被、动物和微生物。此外,还有一个居住区和一个农业区,为人类提供住所、食物和水源。

生物圈2号的设计理念是一个完全自给自足和循环利用的系统,没有任何外界的干扰和补给。利用太阳能作为能源来源,利用植物产生氧气,利用废物进行肥料和燃料。旨在模拟地球上各种

Read more