图解大模型RLHF系列之:人人都能看懂的PPO原理与源码解读
2024-01-16大家好,最近我又读了读RLHF的相关paper和一些开源实践,有了一些心得体会,整理成这篇文章。过去在RLHF的初学阶段,有一个问题最直接地困惑着我: 如何在NLP语境下理解强化学习的框架?例如,我知道强化学习中有Agent、Environment、Reward、State等要素,但是在NLP语境中,它们指什么?语言模型又是如何根据奖励做更新的? 为了解答这个问题,我翻阅了很多资料,看了许多的公式推导,去研究RLHF的整体框架和loss设计。虽然吭吭哧哧地入门了,但是这个过程实在痛苦,最主要的
“存算一体”是大模型AI芯片的破局关键?
2024-01-16在大算力激增的需求下,越来越多行业人士认识到,新的计算架构或许才是算力破局的关键。 在AI发展历史上,曾有两次“圣杯时刻”。 第一次发生在2012年10月,卷积神经网络(CNN)算法凭借比人眼识别更低的错误率,打开了计算机视觉的应用盛世。 第二次是2016年3月,DeepMind研发的AI程序AlphaGo,战胜世界围棋冠军李世石,让全世界惊叹于“人工智能”的实力。 这两次“圣杯时刻”的幕后,都有芯片创新的身影。适配通用算法的英伟达GPGPU(通用图形处理单元)芯片,以及走专业化路线谷歌TPU
“商汤商量”大模型推动行研数字化进程
2024-01-1112款主流大模型,行业研报撰写能力哪家强? 权威研究机构弗若斯特沙利文(Frost Sullivan)联合头豹研究院最新发布的《2023年中国大模型行研能力评测报告》给出评价结论。 商汤语言大模型“日日新·商量”以总分7.73(满分10分)斩获总榜第一,并在报告撰写能力(八大模块)、模型基础能力(行研基础能力)两个子榜位居第一。 报告中,沙利文这样评价“商汤商量”:在语言、知识、理解、推理和学科五大能力上均处于行业领先水平,不仅可以处理各类文本和信息,还能在协助行业分析师工作时,充分胜任随身综
中科创达魔方大模型亮相CES 2024
2024-01-112024年1月9日,一年一度的全球科技盛会国际消费电子展(CES)于美国拉斯维加斯开幕,全球各类新型消费科技产品齐聚亮相。自去年以来席卷全球的AI浪潮, 在展会上也广受期待。本次CES展会上,中科创达将亮相多款魔方大模型的产品和应用, 凸显生成式AI对产业升级赋能的无限潜力。 近年来,人工智能技术的快速发展为各行各业带来了前所未有的机遇与挑战。在这个极速变化的时代,中科创达不仅依靠领先的操作系统技术持续推动终端、汽车以及物联网领域智能化的发展,更以前瞻性的眼光,推出了软硬件以及服务一体化的魔方
芯华章:AI大模型、汽车半导体驱动EDA市场增长
2024-01-10正值岁末年初之际,芯华章受电子发烧友网邀请参与《2024年半导体产业展望》专题,也借此机会与大家汇报成果,并展望在AI大模型和汽车电子推动下的EDA市场。 感谢《电子发烧友》对芯华章的关注!本文为专访内容精华分享,以飨读者。 回顾2023年,下游消费市场的波动、人才成本的增长、研发难度的增加等等,都给今年半导体产业发展带来了巨大的挑战。叠加美国对中国半导体产业的持续限制,今年的外部环境可以说充满了变化和挑战。 当行业处于高速发展过程中,一切都看上去很顺利;速度变慢甚至下行时,才能更好暴露问题与
边缘侧部署大模型优势多!模型量化解决边缘设备资源限制问题
2024-01-06电子发烧友网报道(文/李弯弯)大模型的边缘部署是将大模型部署在边缘设备上,以实现更快速、更低延迟的计算和推理。边缘设备可以是各种终端设备,如智能手机、平板电脑、智能家居设备等。通过将大模型部署在边缘设备上,可以减少数据传输的延迟和带宽需求,提高模型的实时性和响应速度。边缘端部署大模型的优势边缘侧部署大模型有诸多优势。低延迟:由于边缘计算将数据处理在离用户较近的设备上,大大减少了数据传输的延迟,提高了服务的实时性。这对于许多需要快速响应的应用场景,如智能家居、智能安防等,非常重要。降低带宽成本:
中文大模型基准测评2023年度报告
2024-01-05自2023年以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。中文大模型测评基准SuperCLUE在过去一年对国内外大模型的发展趋势和综合效果进行了实时跟踪。 基于此,SuperCLUE团队发布了《中文大模型基准测评2023年度报告》,在AI大模型发展的巨大浪潮中,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。 国内大模型关键进展012023年大模型关键进展与中文大模型全景图 国内学术和产业界在过去一年也有了实质性的突
华为盘古大模型3.0,重塑千行百业
2024-01-05华为开发者大会 2023(Cloud)在东莞召开。华为发布盘古大模型 3.0,将围绕行业重塑、技术扎根、开放同飞三大创新方向,为行业客户、伙伴及开发者提供更好的服务。 世界AI大会系列:数据为核,迈向多模态AI大模型时代 (一)分层解耦:盘古大模型 3.0 是一个面向行业的大模型系列,包括“5+N+X”三层架构。盘古大模型采用完全的分层解耦设计,可以快速适配、快速满足行业的多变需求。 (二)全栈自主:盘古大模型实现了以鲲鹏和昇腾为基础的 AI算力云平台,以及异构计算架构 CANN、全场景 AI
大模型AI算力剧增,谁来扛国产GPU大旗?
2024-01-05在AI算力、算法和数据人工智能行业三要素中,AI算力更是重中之重,业界厂商通过对各类AI硬件不断迭代为算力狂飙的需求提供强有力保障。自ChatGPTAI、GPT-4模型发布火爆出圈后,在引发了普罗大众对AI大模型热情的同时,也引燃了AI算力的战火。全球科技巨头纷纷发布AI大模型、AI训练卡产品都是入场者争夺AI制高点的战争缩影。 1、AI异构计算三分天下,GPU表现异常亮眼 众所周知,人工智能(尤其是大模型新兴应用领域)对AI算力需求超过了通用CPU的摩尔定律的发展速度,而异构计算的性能增长恰
大模型训练为什么不能用4090显卡,GPU训练性能和成本对比
2024-01-03电子发烧友网>可编程逻辑>大模型训练为什么不能用4090显卡,GPU训练性能和成本对比 --> fpga(588972) fpga(588972) gpu(125229) gpu(125229) 内存(72213) 内存(72213) A100(7416) A100(7416) 大模型(226) 大模型(226) --> 声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联