最近一年,大模型大行其道,国内的大模型层出不穷。让人联想到当初的区块链、虚拟现实。
在了解大模型的概念、原理的过程中,一堆新的概念和技术扑面而来。
Transformer、PyTorch、微调、BERT、Agents……让人应接不暇。而且最近新的技术、新的概念还在不断涌现。
那么在学习了解这些概念之前,首先要弄明白几个概念,即什么是模型?模型和算法有啥关系?大模型为什么叫大模型?大模型和深度学习有啥区别?
本文将结合自己的理解进行一一解答。
什么是模型
在了解大模型之前,首先要弄明白一个概念,即什么是模型?
说到模型,抛开技术来说,实物模型,我们已经见过很多。汽车模型、玩具模型等等。
那么软件技术层面的 模型和这些实物模型有什么关系呢?
我认为,模型就是客观事务的一个近似表示。汽车模型,使用等比例缩小的实物代指汽车。那么软件模型,就是用代码或者叫算法对客观对象的一个近似模拟。
注意:这里有两个关键点。1、算法与模型关系。2、模型是“近似模拟”
先说第一个,算法与模型关系
算法与模型关系
简单来说,模型是算法的输出,是算法已经学习的内容的表示。 算法是对计算过程的表示。
比如说“检测电脑过热”这个模型,模拟的就是电脑的当前实际温度。算法很简单,就是获取当前电脑CPU温度传感器的温度与设置值进行比较。超过设定值就返回过热,没有超过就返回正常。
模型是“近似模拟”
为什么说模型是近似模拟呢,因为客观事务纷杂多样,同类产品的每个个体都有差异,一个模型不可能对事务进行100%的还原,只能对事物的特征进行标识,用于满足特定的场景。
例如汽车模型,如果一辆实物车的车漆被刮花了,轮胎换了。那么对应汽车模型并不需要有对应的修改,我们仍然认为,这个汽车模型代表了这辆车。因为车标没换、车的型号没换、车身颜色没换。 只要这些关键特性没变,那么无论实物车损坏成什么样,我们都认为这是这辆车的汽车模型
那么什么是大模型呢。
大模型
顾名思义,大模型就是变大了的模型。什么变大了? 模型的输入参数变大了,由原来的几M个参数,变成了几B个参数。模型参数量变大了有什么好处?
回答问题前,我们先来了解,大模型近似模拟的客观事物是什么? 相信答案不言而喻,模拟的自然人的思维。现在就是要把自然人的思维,用计算机表现出来,这就是大模型
先写这些,未完待续