1 前言
本文主要围绕作者科研十年的感悟和思考,进行总结和探索
本书框架如下:
- 第一章前言
- 第二章介绍现代科研的知识背景与认识框架
- 第三章介绍现代社会及现代科研趋势与问题
- 第四章介绍科研思维
- 第五章介绍实验
- 第六章介绍数据分析
- 第七章介绍文献管理
- 第八章介绍学术生活
- 第九章介绍离开学术界的就业途径
附录
- 现代科研工具包
- 检验本书阅读效果的试题
- 调侃风格的科研版词典
文中会涉及编程,均使用R语言展示并提供代码
本书成于2022-07-09,后续将以Git协作方式不断在线更新
2 现代科研
知识是庞大而冗杂的,也是在不断更新迭代的;我们要接受自我认知的局限性,梳理自己的知识框架,打造自己的知识体系,然后伴随经验与灵感去拓展自己与学术界的知识边疆
科学知识的五个层次:
- 基础背景知识,九年义务教育水平,侧重原理或事实本身
- 大学毕业水平,主要增加了不同领域的专业知识(不同学科间壁垒明显)
- 从已知走向未知,前沿探索性尝试,学科之间开始互通,属于主流科研问题
- 整合已有知识进行创新得到的新知识,追求学科间知识的高度互通
- 人类知识天花板,走向科幻领域,需要一个逻辑自洽且符合现实的知识理论体系
知识体系的时间构建:
- 知识可以分为形而上的观点理论与形而下的事实经验
- 一个基础的形而下知识体系要有个人经验与历史,侧重对事实的准确描述
- 形而上的东西,要按照逻辑自洽的原则去整理,包括有证据有逻辑的强理论
认知偏误是所有人都有的问题:
- 了解这些行为除了能帮助识别科研中存在的跟别人有关的问题,也能促进自我反省
- 人的本能是认知偏误的重要来源,比如人天生保守而厌恶冒险、喜欢熟悉的人或物、从众、短视、经常对事物进行脸谱化、更容易记住刺激或极端的事物、混淆概率与随机事件
- 人具备思维惯性,会倾向于不计后果维护自己的一致性或之前的判断、更容易认可自己熟悉或确认过的观点形成正反馈或光环效应(巴纳姆效应)、容易忽视已经认可的人或事中的缺陷
- 人会有逻辑自洽的倾向,而逻辑自洽经常跟事实是相悖的;一组因果关系的确定,需要足够的数据支持、也需要多角度的反复论证;法庭因果下人们只会采纳有利于自己的证据
3 科研现状概览
3.1 现代社会
学会从整体经济指标上观察现代社会结构并对科研这个行业进行定位
- 现代社会的发展趋势是陌生人分工协作、更细致的分工、追求极致的工业效率、信息技术打破交流限制、传统宗教世界观的破坏与世俗化、人口增长趋势的放缓停滞、个体-社会相互关系的思考不断涌现
- 从1990年到2020年,世界就业人口比一直在下滑(62%->57%);美国也有大约超过一半的人口是不领工资不就业的;伴随老龄化与少子化,中国就业人口规模事实上在2017年已经见顶
- 2020年中国有约不到8亿就业人口,其中四成是农业人口,城乡收入差距大概三比一;按产业划分的话,农业约占2亿,制造业约占2亿,剩余不到4亿就业人口属于第三产业
- 十分之一可以看做是区分现代工业品贵贱的标准。日常开支单品中,耐用品的价格定在月薪百分之十而消耗品通常定价在日薪百分之十;在年平均收入1万美金的现代国家,一年花费超过1千美元的物品都可以算是昂贵的产品或者说奢侈品
- 一个人口过千万的现代国家而言,千分之一的人的小众爱好就可以形成过万的用户群,年消费过千,就会出现千万市场;兴趣爱好人数低于千人规模,用爱发电,形不成行业
从行业规模来看,万亿级行业很少,可能有医药、地产与金融,对应从业人数规模是百万级别,存在从业门槛,从业者收入一般较高;千亿级行业一般从业人数规模是百万级别,服务用户规模一般是亿级(教育、通信、水电、家电、公路等),由于关系国计民生,一般国有化程度较高,资本回报率低但稳定;
百亿级行业一般从业人数规模是十万级别,服务用户规模一般是千万级(服装、旅游、电影、健身等),面向温饱外的需求,存在增长点,受资本关注;
十亿级行业一般从业人数规模是万级别,服务用户规模一般在百万~千万级之间,一般为小众爱好行业(球鞋、邮币、海淘),容易受到控制或垄断,一般盈利空间较大,逐步受到了资本的关注;
亿级行业属于诈骗重灾区,当然也有正规行业(汉服、地方特产),盘子小风险高,所以很少受资本关注,一般从业人数规模是万级别;亿级以下行业,资本基本不会介入,诈骗犯都会嫌弃目标客户太少
科研的定位:
- 科研是面向问题解决问题的一个社会分工,是一个职业。比如科研能够在人口不能支持经济可持续运转时用新技术来降低社会运作的成本(就业人口低于五成会影响现代国家的经济运行?)
- 现代科研的投入是国家拨款或私人基金,而产出则是高素质的人才与解决实际问题的技术或方案;科研行业存在明显的资源集中状况,知名高校与研究机构为了争取资源会去竞争人才这一核心生产力
- 现代科研机构普遍会去竞争成果优异的年轻人或研究体系完整的成熟团队;因为科研行业本身知识更迭快,接收新知识相对快的年轻科研人员做出成果的概率更高,但也缺乏科研资源整合管理经验
- 现代职业科研体系并不需要每一个从业人员都有科学精神,但没有科学思维在这个行业很难走远并体会到乐趣(很多科研从业人员喜欢成功多过喜欢科研,最终导致流水式的无效产出)
- 现代科研要重视与企业的合作与互相学习借鉴与渗透,及时更新相关的课程、教材与案例库
- 科研行业作为一个利益集团,本身也需要跟其他现代社会行业竞争国家或社会能分配的资源,需要民选代表到国会或人大去参与财政的分配(科研经费的分配充满了复杂的博弈过程)
3.2 研究生教育
研究生教育存在的问题:学历贬值、毕业延期、学术职业发展困难、解决问题综合能力不足
- 学历贬值
- 当前研究生教育发展可能还跟不上研究生团体扩大的速度,中间潜伏巨大系统性危机(灰犀牛)
- 专业硕士的培养要比学术硕士更贴合实际需求,对应用的要求更高但可以适当放松学术创新能力
- 研究生群体作为弱势群体,其心理健康与导师相关,师生交流不畅会成为研究生教育问题重要来源
- 千禧一代可能是世界范围内最后的婴儿潮,未来要面对的是舆论引导/新兴市场/人口结构的变化
- 毕业延期
- 近20年研究所与高校的研究生录取比例均大概为1:3,硕士的扩招力度远高于博士;但博士招生人数在不断增长但毕业人数的增长幅度却增长有限且长期少于前几年的录取人数(博士延期的常态化)
- 每年的教职数一直在稳定增长,但成长空间不算大(只能解决未来一半博士毕业生的就业问题);取得教职大概率是而立之年之后的事,这种较长的培养年限显著区别于其他行业
- 学术职业发展困难
指标 | 博士博后 | 独立课题组 | 学术带头人 | 学科带头人 |
---|---|---|---|---|
年产文章 | 1 | 2 | ~10 | >10 |
文章档次 | 专业期刊 | 一超多强 | 综述 | CNS |
年龄 | 32 | 35 | 45 | 70 |
规模 | 1 | <10 | 20-30/有梯队 | 50-100/有传承 |
课程 | 带学生 | 本科研究生教学 | 学位培养计划 | 学科前沿指导 |
会议 | 口头报告 | keynote | 分会场主席 | 大会报告 |
职称 | 讲师/研究员 | 副教授 | 教授 | 学生教授 |
期刊 | 审稿人 | 编委 | 副主编 | 主编 |
帽子 | 百篇优博 | 百人/优青/青千 | 长江/杰青/千人 | 院士 |
年新增人数/总人数 | 10万/100万 | 2000/50万 | 500/2万 | 50/2000 |
基金/年审批数目 | 青基 /20000 | 面上 /20000 | 重点 /1000 | 重大 /个位数 |
行政 | 跑腿 | 自给自足 | 院系领导 | 院长校长 |
- 每年的博士毕业生中,最后能成长为博士博后占 30%,独立课题组占5%,学术带头人占1%,学科带头人占0.1%;学术路径只适合千分之一的人走完(道阻且长,但需要行而不辍)
- 实际的资源会更加极端的集中在少数人手中;把握新学科发展的后发优势,避免陷入落后学科的抱团取暖;国内博士毕业生人数还在不断上升(说明教职还有空间,但未来博士毕业生竞争会更加激烈)
- 解决问题综合能力不足
- 标准化的技能培训比通识教育与精英教育更有吸引力,即使后者可能潜力更高;这导致培养出的专家视野总是有局限性,需要在团队里合理配置才会提高解决问题的效率
- 分工促进效率更适用于可分解为具体步骤的行业或学科;面对真实问题例如实验研究,实验者与数据处理者往往是不能脱节的(但二者又往往容易产生隔阂)
- 要有意识地训练自己成为全栈科学家,对实际问题解决的全流程理解会让你更容易与其他领域的人交流(也方便转行,降低失业风险。。);这也是所谓团队领导力的重要能力基础
- 专业的人喜欢谈差异与术语,解决问题的人更关注问题背后的共性;扎根实际问题,然后抽象出可测量的统计量,在模型中进行控制或考察,让结果具有可比性与重复性;不固步自封,积极拥抱新技术和新理念
3.3 可重复性危机
可重复性危机:如果结论不可被重复验证,那么科学性就无从谈起
零假设显著性检验(NHST)是可重复性危机的核心
- 如果一个假设对另一个假设来说很稀少,NHST 会在很低的条件概率下拒绝掉,然后那些稀少的事情在 NHST 里就成了无法被检验的事情(功效永远不足)
- Meehl 在60年代就提出的悖论:方法学的进步与增大样本数对于相对硬(理论根基深厚,如物理)的学科证伪是正面的,但对相对软(理论比较模糊,如心理/医学)的学科则是弱化
- 方法学悖论的根基其实是应用学科与基础学科的矛盾,基础学科用 NHST 检验观察事实中的理论,但应用学科用 NHST 来检验的是实验设计预测下的事实,此时实验设计的假设与 NHST 的零假设并不对应
- 探索性数据分析通常会面对这个无穷假设困境,当你不断引入协变量后,维度的增加导致样本实际是稀疏欠拟合的,最后看到现象可能就是假象;
- 对于高噪声数据,降低测量噪声对结论的帮助要远大于遴选能发现差异统计方法的努力
- NHST无法表示效应的方向,因为p 值经常是双边概率取中间那一部分
- 研究人员通常会尝试不同的统计方法和实验条件组合,但只会选择性报道显著的p 值
NHST问题的改进思路:
- 同时报告参数估计与置信区间,以丰富p值的内涵
- 贝叶斯统计思路:先假设参数分布,然后用数据更新分布,最后计算后验分布
可重复性危机的一个重点在于如何判断规律性
- 规律性的本质在于数据中存在模式或者异质性,如果数据是均质的,那么要么是均匀分布,要么是噪声的正态分布;当数据存在规律性时,p值的分布是一个离散分布
一个常见的可重复性研究需要考虑的步骤:
- 狭义的可重复性研究仅关心数据产生后步骤的可重复性,如原始数据与处理代码的共享
- 图形化界面软件的流行降低了科研数据分析的门槛,但也会导致数据分析重现变得困难
- 除了开放获取的研究成果,研究整体流程也应该实现透明化,以尽可能防止暗箱操作
3.4 其他科研现状概览
- 掠夺性期刊 以商业盈利为目的而发行的低品质期刊,一般存在诱骗邀请、评审造假、高额收费等问题。著名的Beall’s List列出了很多常见的掠夺性期刊,曾一度作为学者投稿的避坑指南(2017年已停止更新) 目前很多掠夺性期刊存在洗白的趋势,一些老牌期刊为了争夺稿源也出现了很多商业行为(降低质量/提高收费);投稿者应注意出版界趋势与学术评价的不同偏好,重视内容质量,规避掠夺性期刊
- 论文八股化 职业化科研有时候看重形式或程序合逻辑而忽略了内容(八股化)。这类文章适合刷文章与引用,但学术价值不高,在材料跟中药学里常见;其背后的深层次原因是成果考核的需求 论文最需要的是对科学问题的明确,要避免不可能存在的问题或类似气功的虚假问题;没有科学性的论文,即使同行评议漏过了也应该即使发现并撤掉
- 公众科学 公众科学项目指需要公众参与的科学项目,经常也有职业科学家指导,项目对专业技能要求不高,一般是做数据采集整理还有简单的展示分析。此类项目集中在天文学与生态学领域。公众科学经常可以为职业科研提供大量一手观察数据,反过来也算一种科普教育手段及启发式探索手段 现代社会需要构建公民科学家与职业科学家交流的机制,及时吸取民间智慧而不是傲慢排斥来自民间的发现;要区分公众科学跟民科,民科的特点是隔绝同行信息与妄想症,民科的最大问题在于有理论但不严谨论证;想做好公众科学可能更重要的不在于知识传播而是科学思维的传播
- 科普 科普工作内容主要包括两部分:填补初中与高中背景知识和反应前沿科研成果 科普的第一要务就是要把事情讲清楚讲明白;受益于信息技术进步,科普的方式变得更多了,效果也变得更好了;社交网络的传播与营销方法成了职业科普作者的必修内容
- 科学问题 2005年《科学》杂志提出了 100 个科学问题
4 思维工具
- 科学思维
科学在词源(scientia)上是知识学问的意思,追求的是正确的东西或真理
科学方法论的三个基础:观察或实验、数学还有逻辑工具
- 观察与实验要做到可重复、可比及随机;
- 数学提供量化评价工具;
- 逻辑工具包括不限于归纳演绎、分类类比、公理化及假说演绎
科学思维的发展和主要流派:略
- 数学思维
数学思维主要是证明与计算,前者锻炼逻辑推演思维,后者锻炼计算与算法构造思维
科学思维的发展脉络和人物:略
数学 vs 科学:
- 科学是要做真假判断与验证的;数学则有自己相对完备的逻辑世界,可以进行纯公理演绎
- 数学基础理论无法证伪而科学理论一定存在被推翻的可能,被数学化的科学如果无法与事实接轨只能被看作假说,例如弦论就存在逻辑自洽的多个版本
- 科学是一个不断发展的过程,需要实验与观察来更新自己,数学可以不依赖这些
- 统计思维
统计思维包括但不限于抽象、似然度、回归、因果、残差等
- 众数、中位数等统计量是聚合抽象描述的体现;统计量在描述事物时会丢失一定的信息,获得的信息量与观测数的开方成正比;方差体现了数据的变动或者说异质性,直接影响结论的可靠性;方差对于风险控制与区间估计也很有意义
- 似然度描述了事件在特定分布下的发生概率,是p值理论的根基;传统世界观是决定论的、逻辑的,但统计世界观是概率的,不可知的或可更新的(类似于经典力学vs量子力学)
- 回归是统计学作为世界观最直接的体现,反映了规律性的松弛有度;人类的身高存在均值回归现象;另一种理解方法是将事物/效应拆分为两个部分:固定和变动
- 因果分析通常对专业知识形成的假设因果关系进行了定量分析,需要将统计学、专业知识与计算机科学进行联系;科研实验中的控制变量法或随机本质上就是对所有可能的混杂变量或中介变量进行控制来阻断考察变量间的非因果关系
- 残差描述了科学无法解释的剩余现象;能提示思考实验设计或假设检验之外的东西
拓展:
4. 模型思维
模型思维从相似的事实中提炼出逻辑规律,用规律来指导认知世界
- 一种一对多的思维方法,其优势在于逻辑或者说理性起决策主导参考作用
- 模型化思考:先抽离出变量,然后确定变量间关系,最后运用逻辑推理来进行思考
四种模型思维:
- 可编程思维让模型思维可以落地;计算机语言的核心特质在于描述上的准确性;目前科研应用中侧重交互式数据分析而业界则更看重程序编写与功能实现,前者存在试错且探索为主,后者则更侧重目标;从需求出发回到需求中去是编程思维的要诀,不要在屠龙之术上花费太多时间;
- 决策模型常用于个体行为的决策过程。决策模型分为多准则决策与概率决策,前者可以定性分析,也可以打分定量分析,可以使用空间量表可视化多维选择。概率决策是构建在事件及其后续事件发生可能性基础上的,赋值后根据决策树反推不同选择下的期望结果
- 个体与整体模型。单一行为的聚合模型可以考虑中心极限定理;单一规则的聚合模型可以参考细胞自动机的研究,此时已经有系统高层次动态了;个体的偏好聚合后就会出现系统高层次矛盾,例如博弈论、投票、群体非理性等;关于个体与个体,个体与整体,整体与整体间行为的模型构建,博弈论给出了系统答案与解决策略(投票、选举、拍卖、联盟、反悔等)
- 前面的决策模型大都是静态决策,真实世界要考虑发展的过程,也就是动力学模型;事情的发展可以用马尔可夫模型来模拟,也可以用李雅普诺夫函数;系统的发展会存在反馈与路径依赖(波利亚过程)
- 启发法
启发法的较正式的解释是非最优非理性快速解决问题或作决策的方法,包括试错、经验法还有拟设(类似假设检验),类似直觉经验判断的混合体;
启发法里也存在一组制衡:探索(exploration)与利用(exploitation)权衡
启发法拓展阅读:启发式算法总结
5 实验
实验的基本任务包括描述现象、推断机理与预测验证
解决问题实际就是一个归纳-演绎不断往复的过程,数据起了中介作用
(模型)每天都一样
(演绎)今天车会停在原位
(数据)车不在
(归纳)有人偷车
(模型)车丢了
(演绎)车不在原位
(数据)车又回来了
(归纳)有人偷了车还回来了
- 思想实验:科学实验里非常特殊的一种,通过预设场景进行推演得到结论
著名的思想实验:拉普拉斯妖、戴森球、图灵测试、JTB理论、无知之幕
思想实验的意义在于开拓眼界并学会悖论式思考,通过形象化概念把一些规律性的矛盾展示出来
- 仿真实验:预定义个体或部分的属性与行为规则,然后在整体层面上观察现象
仿真实验的科研应用场景有两个:
- 计算机辅助设计(CAD),多用在工科研究;比如通过建筑建模来考察承重建材选择等问题
- 个体为本模型(ABM),多用在复杂性科学研究,考察博弈论与系统动力学;比如生物圈2号
仿真实验的三大基础是科学计算、机理与统计学;但趋势是虚拟化(计算机模拟)
- 观察实验:科学实验早期的主要形式,用无干涉观察来归纳总结规律
观察实验也需要设计,在流行病学或社会科学研究中,随机对照实验是最理想的但实际更多结论则是来自队列研究或横断面研究(多受限于伦理因素)
观察实验的科学问题侧重归纳性的规律总结;难点在于观察数据不随机,干扰因素多
- 控制实验:最常见的控制变量法就是一组实验只考察一个因素的影响
控制实验很多时候是用来回答因果问题的,所以实验可能需要后续更严谨的验证
临床控制实验要遵守《赫尔辛基宣言》与《贝尔蒙特报告》来设计执行。互联网相关研究要遵守《Internet Research: Ethical Guidelines 3.0》。
- 因素选择:优先考虑环境因素、基本物理指标、混合物的比例及其组成方式
因素的性质:重要性、可控制、可消除、非独立性、样本平衡、冗余/实质等同
- 效应指标:简明直观去主观化,具备物理意义和现实支撑,保证信度与效度
综合指标的设计要用到层级结构与加权,通过理论或现状调查来搜集经验信息,可以用于指示量化复杂现象或过程。此外,综合指标要有能力分拆为独立不相干的子指标来进行深入的机理讨论
- 采样和样品预处理:是很多后续分析的必然步骤,也是最容易被忽视的误差来源
保证采样信息的完整记录、减少储运带来的不确定性、依赖物联网传感器的实时监测
- 预实验:用来评价实验方法的可靠性、可重复性,以及流程熟悉
拓展(R语言工具):
DoE.base
:可用于正交表,寻找最优的因素组合rsm
:响应面分析,考虑了二阶甚至更高阶的交互作用desirability
:解决多响应的同步优化问题
- 质量保证/质量控制:描述实验整体的可靠性,特别是过程控制
质量保证是验证整个实验的过程中误差是可接受的,侧重流程端预防保证实验质量。比如实验人员设计标准操作流程(Standard operation procedure,SOP)、新人培训、分析仪器的专业维护、可追溯的完整日志系统、年检、盲测
质量控制指用一些手段去检测实验中的误差,从结果端评价控制实验质量。比如各类对照、标准参考物质、加标样品、实验室平行测样等
注意区别衡量的是仪器本身的可靠性还是整个分析方法的可靠性
6 数据处理
- 探索性数据分析:对数据中规律性的本质进行直观展示
数据探索基本原则:
- 一维数据看分布与异常值(发现均质性与异质性)
- 二维数据看关系与趋势(自相关、高阶导数、离散/聚集趋势)
- 三维看维度间两两关系(透视图;不要盲目追求可视化的复杂度)
- 高维数据降维(PCA、因子分析、t-SNE、UMAP、SOM)
- 相似个体聚类与网络结构(定义好距离、层级和节点连接条件)
- 统计推断:先抽象出统计量,再对统计量进行假设检验
常用假设检验:常见数据差异性检验方法
多重(分组数大于2)比较的假设检验:
- 从总体控制错误率的角度,如果是两两比较应该选 Tukey’s HSD方法;
- 如果侧重组间差异线性组合的均值用 Scheffe test;
- 如果对比数指定了,功效按 Gabriel、GT2、DST、 Bonferroni顺序来选;
- 如果是各分组都跟控制组比,用Dunnett法;各分组方差不相等时,用GH,C,T3等方法
- 如果打算保证每个比较中的置信水平,应该选 Tukey、 Scheffe、Dunnett法
多重检验:同时进行多次假设检验的场景
- 一般以控制整体错误率为目的(比如1000次假设检验只能接受1个错误)
- 错误率控制的常见方法:Bonferroni、Holm、Sidak、Benjamini-Hochberg(BH)
- 线性模型:科研中最常用的统计模型
在线性模型里加入变量需要谨慎,变量间的随机相关(自相关、共线性问题)会导致整个模型的回归系数估计性能都下降;模型越复杂,对数据的假设就越多,对样本量的要求也就越高
其他技术点:评价指标、过拟合/欠拟合、重采样、正则化、非线性
- 模型组合:对模型的预测结果进行组合来进一步提高预测性能
模型组合的基本假设:不同模型提取了数据中不同角度的信息
- 线性模型捕捉的是自变量与响应间加性关系
- 决策树模型捕捉的是自变量与响应间的层级结构
- 多项式模型捕捉的是自变量与响应间的非线性高阶关系
- 神经网络捕捉的是不同核函数假设下自变量与响应间的复杂关系等
- 深度学习用一个层次数不断叠加的巨大神经网络来捕捉数据中可能存在的模式
进阶阅读:集成算法
计算方法:并行计算、容器(虚拟化)技术、云计算/云存储
主成分分析:常用于数据探索和降维可视化
进阶阅读:主成分分析 PCA
7 文献
- 文献管理:包括文献收集、整理、分析与追踪,目的是获取当前研究趋势
从认知角度可以分成3个阶段
- 从无到有:最好的开端是一本英文教材;或者通过网络公开课来系统学习;先构建知识框架,再定位需要解决的问题,然后形成良好的搜索策略;优先精读近5年的综述,推荐记笔记
- 从有到精:建立一个体系来整理并追踪最新文献(邮件/订阅/期刊/RSS等);注意合理分配时间(平衡精读和泛读);合理使用文献库管理工具+双链笔记软件
- 从精到用:构建参考文献体系的支撑;持续更新知识,避免过度依赖过往经验;方便学术汇报和交流;注意确保正确的引用格式;不要掉到工具选择的坑里
论文搜索途径:twitter +#icanhazpdf
标签、fulltext包、 unpaywall 、Open Access Button
- 文本挖掘:挖掘学术趋势,构建学术间关系
- 文本挖掘的时间跨度不超过10年且最好5年以内
- 以关键词为核心的文本挖掘旨在寻找关键词相关研究的时间趋势与相关子领域
- 以作者或期刊为核心,可以发现研究主题、期刊偏好、变化趋势
- 全学科评价:适当放宽眼界,了解本学科在所有学科中的分量
- S级 年同行发文量超过 5 万的关键词领域(细胞/癌症/血液/心脑血管疾病),疑似有停滞点
- A级 年同行发文量 1 万到 5 万的关键词领域(纳米颗粒/基因组/睡眠/衰老),有停滞点
- B级 年同行发文量 2 千到 1 万的关键词领域(代谢组学/精准医疗),有停滞点
- C级 年同行发文量 100 到 2 千的关键词领域(纳米毒理学/持久性有机污染)
- D级及以下 年同行发文量 100 以下的关键词领域
大多数科研人员的状态:
- 研究在D级,关注C级的动态,参与B级领域的会议,蹭A级的热点,然后远远看下S级开心就好
- 荟萃分析:对已发表的实验结果进行二次分析得到一个更全面的结论
- 荟萃分析有两种基本模型,一种是固定效应模型,一种是随机效应模型
- 固定效应模型适合于不同研究都针对同一群体时,随机效应模型适用于样本存在异质性时(异质性系数低于 25% ,可以直接使用固定效应模型;高于75%,则异质性非常大)
- 荟萃分析的结果通常用森林图来表示,其中会包含单独研究/整体研究的效应估计及置信区间、权重;荟萃分析可以进一步分类,比如引入混合效应模型;荟萃分析一般需要进行敏感性分析
- 荟萃分析能对研究质量进行定量后汇总评价,也可以识别发表歧视问题;
8 学术生活
- 学术道德与伦理是第一位的,在职业化的科研中有一票否决的权力;应避免剽窃、文章挂名、双重发表、数据造假、有害研究实践、合规性、性骚扰及伦理等方面的问题
- 邮件是最常见的学术交流工具,注意内容简明扼要、懂礼貌、给出联系方式
- 学术出版一般包括期刊论文、会议摘要、专著、专利和软件等内容
- 期刊论文的三个阶段:组织材料(70%),初稿(10%),修改(20%)
- 期刊论文的一般写作顺序:图表(一图胜千言,一个图能独立地说明一个问题;抓核心,说服力强)->结果(描述实验结果的现象,与讨论有区分)->方法(实验设计要严谨表述,最好有流程图)->前言(小综述,已知-未知-假说的三段式结构)->讨论(先用结果回答问题,再旁征博引,最后展开讨论未知)->结论(简短,突出亮点+一句话展望)->摘要(5句话:背景+问题+方法+结果+结论/合理推测)
- 其他论文写作细节(略写):用词、语态、标点符号、版本控制、投稿选择、回避原则
- 学术会议是学术生活中比较有意思的一环
- 会议摘要可以是不完整未验证的结果,但要在开会前有明确结论
- 学术专著是研究论文的合集,一般允许在线出版,在线反馈,持续改进
- 口头报告一般控制在3000字/15分钟,说清问题和结论,学会站在听众视角
- 电梯报告(elevator pitch)指用一分钟甚至三十秒来报告你的研究或引发兴趣,跟同行交流要提前准备一套,让别人能快速了解你的研究(问题和结论)并留下联系方式
- 其他学术会议细节(略写):海报报告、听报告、主持报告
- 审稿是最正式的学术交流方式,审稿人需要为学术内容负责;审稿三段式(阐述摘要+指明大问题+小问题/细节);多轮审稿的目的在于消除所有疑惑
- 注意学术合作的责权分配问题;与业界合作集中于盈利项目;与社区合作偏公益科普
- 利益冲突主要包括经济利益冲突、非经济利益冲突和承诺冲突,需要提高透明度来解决;重视数据共享,注意构建自己的发声渠道(博客/社交网络),记录学科内的重要进展
- 学术评价通常从研究领域(邀请报告/项目评审)、学科(连续高引用论文/教材撰写)与公共(新闻报告/公共输出/优秀科普)三个层次上来考核研究人员;期刊评价指标汇总
- 课题组管理可能是现代科研行业里最容易忽视的一环;课题组规章与实验室规章的示例(略);对项目进行SWOT分析和紧急-重要四象限分析;甘特图规划时间;扁平化管理;软件开发中的向后工作法;康奈尔笔记法与费曼学习法;重视回顾与整理;重视资金管理和心理辅导
紧急-重要四象限分析:
是否紧急 | 是否重要 | 对策 |
---|---|---|
紧急 | 重要 | 立即要做;尽量提前做 |
紧急 | 不重要 | 有精力就做;否则让给合适的人做 |
不紧急 | 重要 | 按计划做;避免转为紧急 |
不紧急 | 不重要 | 不做;拒绝 |
- 讲课也是学术生活的重要组成部分,因材施教、学会激励学生、合理评价学习、重视课程设计和互动学习;归纳自己的教学理念
9 就业
- 商业与学术具有相似性:营利与持续改进 vs 成果发表与持续改进
- 尽早进行自己的个人发展规划(individual development plan,IDP)
- 理想职位出现后通过最合适的人替你内推并拿到面试机会(占比80%)
- 回答问题可采用 STAR 方法:先给出场景(situation),然后描述你的任务(task),然后叙述你采取的行动(action)并最终总结结果(result),要言之有物
- 给同事或上下级反馈要采取绩效反馈(performance feedback)的方式来进行持续改进与量化评价管理;职场里谈判分为分配式谈判(distributive negotiation)与整合式谈判(integrative negotiation),前者是零和博弈非此即彼的谈判而后者是提供双方额外价值的双赢谈判,尽量追求后者
- 博士的常见就业方向:博后、常任轨(非升即走/稳定事业编)、非常任轨(研究性教职或偏行政工作)、非高等教育(K12)、 科学顾问、科学传播、政府公务员、 非营利组织与基金会、编辑/出版社、应用专家及销售、 企业科研/药企、医药交流、咨询、金融、数据科学家、创业
附:常见的面试问题
- 介绍下自己
- 你的哪些科研技能符合职位要求
- 你跟其他候选人的最大区别是什么
- 举一个你提高实验室效率的例子
- 实验不成功如何处理
- 如何训练实验室新人
- 讲一个别人让你失望的例子
- 讲一下你用来保障你研究优势的策略
- 当研究中出现意外与挑战如何应对
- 描述下你当前研究的工作流程
- 你的研究专长是如何应对外部挑战的
- 你是如何帮助同事解决你专长的问题的
- 除了科研技能,你了解哪些商业技能,你是否应用过
- 描述一个外部机遇下你如何扬长避短
- 你如何利用人脉来为岗位提高生产力
- 讲一个实验室外体现你领导力的案例
- 你当前研究的商业价值是什么
- 给你1000万美金,你会投给谁
- 我们为什么要雇佣你
- 基于你的背景,我们能给出的薪水是XX,你会接受吗
- 你当前研究项目的成功标准是什么
- 你当前研究项目最贵的组成部分是什么
- 讲一个你管理时间的案例
- 你当前工作的里程碑是什么
- 你入职五年的职业计划是什么
相关资源
本书内容受到以下两部作品的启发:
- Jeef Leek <em>How to be a modern scientist</em>与 Phillip J. Guo 的<em>The Ph.D Grind</em>
其他作品推荐:
- 推荐《统计七支柱》、《为什么》与《女士品茶》作为统计思维的理解读物
- 深入理解模型思维可参考斯科特·佩奇的《模型思维》
科研工具推荐(简单一记录,建议直接看原文):
- 排版语言:Tex、Overleaf、sharelatex、Pandoc、Markdown
- 所见即所得:谷歌文档、石墨文档、腾讯文档
- 在线协作与项目管理:GitHub、Authorea、SciNote
- 数据分析环境部署:R Cloud 、RStudio Cloud、7_software/Docker/Docker 快速上手、Binder、stencila、Rocker、liftr包、CodeOcean
- 文献管理:Endnote、NoteExpress、Mendeley、医学文献王、 JabRef 、Papers、Zotero、Paperpile、CiteSpace
- 数据处理与绘图:Excel、Origin、SigmaPlot 、SPSS、R 、Python、Matlab 、SAS、百度脑图、Autodraw简笔画、plotly在线绘图、Charted、BioRender
- 数据同步: TeamViewer 、iCloud、OneDrive、坚果云、DropBox、谷歌云端硬盘、百度网盘
- 实验室管理:slack、钉钉
- 幻灯片制作与分享:xaringan、countdown 倒计时、DirectPoll 实时投票统计、谷歌幻灯片、slides、strut、slideshare 、Speaker Deck
- 学术交流:接受预印本发表的期刊;偏数学物理计算机科学的arxiv、偏生命科学的biorxiv 与偏化学的chemrxiv;f1000research、PeerJ、Plos、科学网博客
- 线上的学术身份识别:ORCID、Researcher ID、Scopus Auther ID、谷歌学术个人主页、百度学术个人主页;在线交流可通过ResearchGate、Academia、Linkedin及twitter
- 学术审稿记录:Publons
- 数据分享:figshare、Open Science Framework、Dataverse与Zenodo
- 代码管理、单元测试、在线发布、制作教程
其他资源(略):
- 全栈科学家自测题
- 科研常用词典
- 书中所有代码