分类目录归档:通识

深度学习的GPU选配

结论:

  • 现阶段 4090 能满足 DL 的入门需要,且 LLMs 推理的性价比最高
  • 缺点是性能不足够支持 LLMs 训练(通信不高效,显存不够用)

1 GPU 的基本概念

NVIDIA 的三个产品线:

  • GeForce 类型:面向个人计算和游戏市场推出的产品线,适用于游戏、图形处理等,并且在深度学习上的表现也非常出色,很多人用来做推理、训练,性价比高。例如目前热门的 4090、3090等型号
  • Quadro 类型:定位于专业可视化市场的产品线,主要面向专业人士和企业用户,例如,影视制作、建筑可视化、产品

Read more

常见的网络协议

摘自 《Explaining 8 Popular Network Protocols in 1 Diagram》

网络协议是在网络中的两台计算机之间传输数据的标准方法

  1. HTTP (超文本传输协议)是用于获取诸如 HTML 文档之类资源的协议。它是 Web 上任何数据交换的基础,是一种客户端 - 服务器协议。
  2. HTTP/3 是 HTTP 的下一个主要修订版。它运行在 QUIC 之上,QUIC 是为移动重型互联网使用而设计的新传输协议。它依赖 UDP 而不是 TCP,这使得网页响应更快。虚拟现实应用需要更多带宽来渲染复杂的虚拟场景,并将可能从迁移到由 QUIC 支持的 HTTP/3中受益

Read more

技术封建主义

广大的网民实际上是数字农奴(又称云奴)。你在人家的领地里发帖子、上传照片视频,就是为领主工作。你拿不到多少回报,你的免费劳动只是为领主的公司增加价值。久而久之,你甚至还会产生心理依赖,一天不去领主的土地看看,心里就会万分失落。

这些数字领主有强烈的领地意识,造出了高高的围篱,防止自己的数字资产(数据)流出,或者领地被其他公司侵占。如果你要使用某个领主的领地,必须交付地租(使用费)。比如,你要把自己的 App 放在苹果应用商店出售,就必须把 30%的收入交给苹果。这是苹果对它的数字领地收取的地租,跟中世纪的封建制度一模一样。

为了打破技术封建主义,防止数字领主的出现,政府必须实行一些强制措施

Read more

智力肥胖

2019 年,伯克利的研究人员发现,信息对大脑多巴胺产生的奖励系统的作用与食物相同。信息在大脑中的奖励系统中产生多巴胺,就像食物一样,这导致我们对信息的渴求变得像对食物的渴求一样强烈。

在信息过剩的时代,人们试图通过大量生产低质量的“垃圾信息”来吸引我们的注意力,这种信息就像思维的快餐,廉价而令人满足,但缺乏营养。垃圾信息包括包括八卦、琐事、吸引点击的内容、劣质新闻、营销、重复报道和胡言乱语,任何你无法利用的信息都是垃圾信息

由于你的多巴胺通路无法区分有用和无用的信息,消费垃圾信息让你感觉像是在学习——它提供了精神营养的假象——尽管你实际上只是在往大脑里塞虚拟爆米花

沉迷于无用信息最终会导

Read more

CO-STAR 提示词框架

Sheila Teo 凭借 CO-STAR 提示词框架赢得了首届 GPT-4 提示工程大赛

  • (C) 上下文(Context):提供与任务有关的背景信息。这有助于 LLM 理解正在讨论的具体场景,从而确保其响应是相关的。
  • (O) 目标(Objective):定义你希望 LLM 执行的任务。明晰目标有助于 LLM 将自己响应重点放在完成具体任务上。
  • (S) 风格(Style):指定你希望 LLM 使用的写作风格。这可能是一位具体名人的写作风格,也可以是某种职业专家(比如商业分析师或 CEO)的风格。这能引导 LLM 使用符合你需求的方式和词语给出响应。
  • (T) 语气(Tone):设定响

Read more

OpenAI 模型规范方法论

目标:设定宽泛而基本的原则,为模型的期望行为指明方向。

  • 协助开发者和用户:通过遵循指令,并提供有效的响应,帮助用户达成目标。
  • 造福人类:依据 OpenAI 的使命,考虑到可能对内容创作者和广大公众带来的益处与风险。
  • 塑造 OpenAI 的正面形象:遵守社会规范和相关法律。

规则:为处理复杂情况提供指南,确保安全性和合法性

  • 遵循命令链(chain of command)
  • 遵守相关法律
  • 不提供敏感危害的信息
  • 尊重创作者及其版权
  • 保护个人隐私
  • 避免回应不宜工作场所的内容(NSFW )

默认行为:提供与目标和规则相符的指南,帮助解决冲突,并指导如何权衡和优先处理各种目标

  • 假设用户或开发者

Read more

同音文

所谓“同音文”,就是整个文章中的汉字只允许采用现代汉语普通话同一个音,四声不限,标点不限,大多是文言,这样的文章叫做“同音文(一音文)”。

《施氏食狮史》 石室诗士施氏,嗜食狮,誓食十狮。适施氏时时适市视狮。十时,适十狮适市。是时,适施氏适市。氏视是十狮,恃矢势,使是十狮逝世。氏拾是十狮尸,适石室。石室湿,氏使侍拭石室。石室拭,氏始试食是十狮尸。食时,始识是十狮尸,实十石狮尸。试释是事。

《熙戏犀》 西溪犀,喜嬉戏。席熙夕夕携犀徙,席熙细细习洗犀。犀吸溪,戏袭熙。席熙嘻嘻希息戏。惜犀嘶嘶喜袭熙

《羿裔熠, 邑彝, 义医, 艺诣.》 熠姨遗一裔伊, 伊仪迤, 衣旖, 异奕矣. 熠意伊矣,

Read more

数据挖掘十大经典算法

2006 年 12 月,国际会议 IEEE International Conference on Data Mining(ICDM)评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.

  1. C4.5 分类决策树
  2. K-means 聚类算法
  3. 1_study/algorithm/支持向量机 SVM
  4. Apriori 关联规则算法
  5. EM 期望最大化算法
  6. PageRank 排序算法
  7. Adaboost 树集成算法
  8. KNN 最近邻算法
  9. Naive Bayes

Read more

啤酒与尿布

“啤酒与尿布”,购物篮分析的经典案例

该故事据传来自20世纪90年代的美国沃尔玛超市的销售数据分析:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中

这种独特的销售现象引起了管理人员的注意,其背后是美国育婴家庭的分工习惯:母亲一般在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。

沃尔玛发现了这一独特的现象,并在卖场尝试将啤酒与尿布摆放在相同的区域;沃尔玛从上个世纪 90 年代尝试将艾格拉沃发明的商品关联关系的计算方法—— Apri

Read more

前端技术简史

"切图仔"(2006)

  • 在 css3 之前,前端开发者能做的事情很有限,前端语言的能力非常薄弱
  • 一个简单的圆角矩形样式要拼八张图片,更别提动画阴影之类的特效
  • 大量的工作时间都是在拆卸设计稿,然后将做完后的静态页面交给后端

jQuery 问世(2006)

  • jQuery 是对原生 js 的封装,简化了繁琐的 js 开发
  • 开发人员可以更容易地操作 html 、处理事件、创建动画和发起 AJAX 请求
  • 前端开发者已经可以承担一部分交互了,比如异步表单之类的
  • 最终实现较为稳定的开发方式:DIV+CSS+jQuery+后端渲染

随着 web 项目开发越来越复杂,原生 cc

Read more