本篇文章记录ai自学过程。2025年是agent元年,转行之旅从现在正式开始!!!
- 图片+文字等不同的格式输入就算多模态输入。
- 文字输入为传统transformer模型,输入的文字分词后转为向量输入给大模型。大模型根据向量一个个输出对应概率的词。
- 大模型为什么可以按照指定格式输出?因为大模型内部存在一个结构器,不符合结构的词不会出现在候选词语中。
- 图片与文字的向量计算不在同一向量空间里,因此需要训练,找出足够数量的图片-文本描述对,点积越大越匹配,需要对比学习让正样本对点积增大,负样本对点积减小。简单来说就是把图片先转为一段文字的描述。
2.概念
大模型 = 参数量很大的模型
模型 = 一堆参数组成的函数
大语言模型 = 用于语言处理的大模型。