非常简单易懂的大模型和Al科普

阳光普照行业应用 2025-02-20 10:07:15 103阅读 举报

文章来自于公众号:数字化深度思考者


  近期Deepseek爆🔥,一时之间,似乎人人都在谈Al,周末再次作个简单易懂的大模型和Al科普。

一文快速了解大模型和Al关系

(一)、人工智能
广义的AI指机器模拟人类智能的能力,可以包括推理、学习、规划、感知、语言理解等多个领域。
弱人工智能、强人工智能和超级人工智能三个层次
其实目前Al并无标准定义,关于Al定义众说纷纭,有人将Al划为三阶段,弱人工智能(ANl)和强人工智能由通用人工智能 (AGI) 和超人工智能 (ASI) 组成。通用人工智能 (AGI) ,曾经爆火的chatGPT和近期火爆的国内Deep seek被列入通用人工智能。
OpenAI机密五级AGI路线图曝光!GPT-4仍处L1,内部AI接近博士水平18个月诞生
Open AI的5级分层被其它lT巨头指责为炒作!毕竟各个科技巨头都想制定标准成为先驱!
Al范围:Al可以涵盖所有试图让机器表现出智能的技术,从简单的规则系统到复杂的自主决策系统。

Al目前典型应用:自动驾驶、自然语音助手(siri、小度)、机器人和人形机器人、机器翻译/智能翻译、游戏AI(如AlphaGo)和生成式Al等等。
高速公路ETC收费,闯红灯后智能识别车牌并推送短信通知车主,智能家居亦算是简单普遍Al应用。

(二)、AlGC:被爆炒的生成式AI
本文特别提示下生成式Al→AlGC!
AIGC的全称是Artificial Intelligence Generated Content(人工智能生成内容),简称AlGC。它是指利用人工智能技术自动生成各种类型的内容,包括文本、图像、音乐、视频等多种形式‌。
核心能力:通过模型学习数据分布,生成与训练数据相似但全新的样本。
AlGC类型:
 ①文本生成/内容生成(如ChatGPT和Deep seek 生成文章和编写代码);

批量造假的 “论文工厂”:利益链、危害与对策

近期很多用Deep seek R1生产word或PPT的例子,其实未有Al之时,WPS本身就提供有海量参考模板,内容生成会使人们变懒,懒惰亦是人之天性,尤其是大学毕业论文,以中国大部分大学的尿性和脱离社会实践,本科四年大部分学生的论文都相当雷同,再Al生成,批量造假,就很不好了。

现在全网都在讨论Deep seek R1的文生内容,先不谈技术实现,换个思路,它可以看一个升级版的智能搜索+内容生成,比如你不是lT专业,完全不懂大模型,那可以用搜索引擎搜出一堆关于大模型的网页,然后自己审核和筛选下相关内容组织一篇文章,现在deep seek等Al工具将搜索和写文章合并在一起,效率是高了,但你还得审核吧,哦,现在不审核了,直接copy and paste,交差了事!😋😋

 ②图像生成(Al创作艺术);
 ③音频生成:现在很多微信文章都提供文生音频功能,不想眼睛看,就可用音频生成,躺在床上静听!
 ④视频生成:如Deepfake换脸,这种搞破坏的视频生成就不多宣传,说说国内外的Al动态视频生产大模型!
国外的Sora ↓
文生视频大模型Sora:人工智能领域的重大突破 | Engineering

腾讯混元开源↓

Deep seek带了个好头,近期腾讯开源,百度开源

腾讯混元又又又开源了,这次想复刻一个文生视频领域的Flux?

开源形成生态链才是大格局!看看现在的2B软件,低代码开发,几个源代码还藏着掖着的,格局太小!😄😄

AlGC相关技术↓
生成式AI依赖于深度学习技术,尤其是大模型,AlGC是AI的一个应用方向。
下图清晰表达出Al人工智能和机器学习(深度学习)的包含关系!

机器学习 

传统的AI机器学习,是统计学上的概念,比如 逻辑回归(LR),支持向量机(SVM),决策树模型,机器学习是人工智能的一个重要子领域,侧重于利用数据和统计方法让计算机系统自动学习和改进。

深度学习和神经网络

深度学习通常和神经网络放在一起,两者既有联系又有区别!深度学习泛指深度神经网络,意思就是深度的神经网络,是多层的神经网络,而不是传统的单层或两层。与其说深度学习是机器学习的一种,不如说是一种进化。

有人说现在机器学习与深度学习的区分已经不明显了,深度学习也用到机器学习的算法模型。深度学习,在神经网络的基础上,有了更多的层级,以前传统的神经网络,一般有2-3层,而深度学习,可以有更多层,至于能有多少层,需要根据实际的业务而定。


在深度学习中,梯度消失梯度爆炸是训练深层神经网络时常见的两大问题,它们会严重影响网络的训练过程和性能。

梯度消失(Vanishing Gradient)

梯度消失是指在深层神经网络的反向传播过程中,梯度值随着层数的增加而迅速减小,最终趋近于零。这会导致靠近输入层的权重更新变得非常缓慢,甚至几乎不更新,从而阻止网络从输入数据中学习有效的特征表示。


梯度爆炸(Exploding Gradient)


梯度爆炸是指在训练深度神经网络时,反向传播过程中,梯度的值变得异常大,导致参数更新过大,甚至出现溢出的现象。这个问题会导致网络的训练变得不稳定,甚至无法收敛。

TensorFlow 和 PyTorch 是目前最流行的深度学习框架,TensorFlow 和 PyTorch 都非常适合用于开发和训练 Transformer 模型。

不深入细讲,非lT专业开始听不懂了!


(三)、大模型概念和分类

大模型(Large Models,LM):大模型通常指的是具有大量参数的机器学习模型特别是深度学习模型。

大模型的特点是参数数量巨大,通常在百万到数十亿级别;能够处理和理解大量的数据;通常具有较高的泛化能力,能够处理未见过的新数据,数据、训练(如人的学习过程)、模型关系!

图片


大模型分类

(1).大模型按输入数据类型分为语言大模型(其代表为LLM)、视觉大模型(CV )和多模态大模型;    

(2).大模型按应用领域分为通用大模型(L0)、行业大模型(L1)和垂直大模型(L2)。

科普完毕,如果想更深入了解,就是算法,再进一步就是开发工具和编程语言实现,术业有专攻,非lT专业人士没有必要去学习!

应了解的常用算法和Al算法分类

最后Al、机器学习(含深度学习)、AlGC生成式Al(含大语言模型LLM)的关系如下图!


 你看懂了吗?

版权声明:
作者:阳光普照
链接:https://www.erpcool.com/p/135762d08f0449.html
来源:行业应用
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以点击 “举报”


登录 后发表评论
0条评论
还没有人评论过~