分享一下我两个月前的回答,这么短的时间内,许多著名AI模型(Stable Diffusion、ChatGPT、New Bing)又多了许多新功能,如同天翻地覆,换了人间,AI时代以来,生化环材人们充分利用AI的前提是也要了解AI。
1 计算机科学的训练样本更多更优秀
ChatGPT的训练集有很大一部分是通过爬虫程序从互联网上获取得到的。然而相较于生化环材内容,计算机类网站的结构化做得更好。国外有Stack Overflow,国内有CSDN、博客园——不管你觉得里面的内容多么坑爹,但毫无疑问的是里面的内容结构化做得很好,爬虫可能更容易识别并学习结构化的问题、解决方案。此外,计算机科学网站的开发者互联网思维更浓,更重视搜索引擎优化等有利于爬虫爬取的策略,爬虫程序能轻而易举地在互联网网站学习到大量知识。反观生化环材类网站,尽管有中科院及各大院校官网等优质内容,但许多论坛、试剂商的网站还停留在宛若小学生的FrontPage作业水平。
2 计算机科学相较于生化环材,文本描述更严谨
计算机科学的内容似乎比生化环材文本逻辑更简单一些(也许是受产品经理的影响)。许多计算机博文在给定需求以后,便会一步一步解决需求。而生化环材类内容并不总是那么精确。例如输入“请用vue框架写一个网页计算器”,ChatGPT不太可能给我输出一个react计算器,但如果我问“什么是负染色技术”,ChatGPT可能会对问题的背景有所疑惑——究竟是电镜的负染色?还是荧光显微镜的负染色?
3 计算机科学的问题更加标准化,而生化环材学科,同样问题的回答可以延伸,多样性带来了复杂度
生化环材类内容很多在关键部分之前,需要大量的背景介绍,背景介绍等内容并不是知识的核心,对AI学习可能有影响。此外,相较于计算机,某个功能实现起来也就那么几种常用方法,而生化环材问题可能有多样化的答案。有时候,计算机科学网站会使用相关HTML或者JSON语法直接将结构化的问题、答案、讨论标注出来。
4 计算机科学问题更容易翻译成英语。
讲一个计算机相关的句子读给正常人听,例如“请用vue框架写一个网页计算器”,人类可能出了计算机专业术语(此案例中是“vue框架”)不了解以外,基本语句完全明白。而生化环材因为其复杂与不确定性,一个句子中可能有大量的修饰词,直接导致跨语言翻译难度明显提高,进而无法有效利用多语言资源进行融会贯通。而英语的互联网资源更加丰富,AI要想汉语表现好。必须从英语中学习到更多内容。
特别地,像是计算机方面的论文,许多新的模型因为要抢先发表,往往放在了开放获取(甚至可以使用API获取)的预印本平台(如arxiv)上,而生化环材文章可能更多的还是传统期刊,除了少部分开放获取期刊以外需要付费阅读,毋论ChatGPT背后的机器人爬虫。