大模型相关话题

图解大模型RLHF系列之：人人都能看懂的PPO原理与源码解读

2024-01-16

大家好，最近我又读了读RLHF的相关paper和一些开源实践，有了一些心得体会，整理成这篇文章。过去在RLHF的初学阶段，有一个问题最直接地困惑着我：如何在NLP语境下理解强化学习的框架？例如，我知道强化学习中有Agent、Environment、Reward、State等要素，但是在NLP语境中，它们指什么？语言模型又是如何根据奖励做更新的？为了解答这个问题，我翻阅了很多资料，看了许多的公式推导，去研究RLHF的整体框架和loss设计。虽然吭吭哧哧地入门了，但是这个过程实在痛苦，最主要的

芯片资讯

“存算一体”是大模型AI芯片的破局关键？

2024-01-16

在大算力激增的需求下，越来越多行业人士认识到，新的计算架构或许才是算力破局的关键。在AI发展历史上，曾有两次“圣杯时刻”。第一次发生在2012年10月，卷积神经网络（CNN）算法凭借比人眼识别更低的错误率，打开了计算机视觉的应用盛世。第二次是2016年3月，DeepMind研发的AI程序AlphaGo，战胜世界围棋冠军李世石，让全世界惊叹于“人工智能”的实力。这两次“圣杯时刻”的幕后，都有芯片创新的身影。适配通用算法的英伟达GPGPU（通用图形处理单元）芯片，以及走专业化路线谷歌TPU

芯片资讯

“商汤商量”大模型推动行研数字化进程

2024-01-11

12款主流大模型，行业研报撰写能力哪家强？权威研究机构弗若斯特沙利文（Frost Sullivan）联合头豹研究院最新发布的《2023年中国大模型行研能力评测报告》给出评价结论。商汤语言大模型“日日新·商量”以总分7.73（满分10分）斩获总榜第一，并在报告撰写能力（八大模块）、模型基础能力（行研基础能力）两个子榜位居第一。报告中，沙利文这样评价“商汤商量”：在语言、知识、理解、推理和学科五大能力上均处于行业领先水平，不仅可以处理各类文本和信息，还能在协助行业分析师工作时，充分胜任随身综

芯片资讯

中科创达魔方大模型亮相CES 2024

2024-01-11

2024年1月9日，一年一度的全球科技盛会国际消费电子展（CES）于美国拉斯维加斯开幕，全球各类新型消费科技产品齐聚亮相。自去年以来席卷全球的AI浪潮, 在展会上也广受期待。本次CES展会上，中科创达将亮相多款魔方大模型的产品和应用, 凸显生成式AI对产业升级赋能的无限潜力。近年来，人工智能技术的快速发展为各行各业带来了前所未有的机遇与挑战。在这个极速变化的时代，中科创达不仅依靠领先的操作系统技术持续推动终端、汽车以及物联网领域智能化的发展，更以前瞻性的眼光，推出了软硬件以及服务一体化的魔方

芯片资讯

芯华章：AI大模型、汽车半导体驱动EDA市场增长

2024-01-10

正值岁末年初之际，芯华章受电子发烧友网邀请参与《2024年半导体产业展望》专题，也借此机会与大家汇报成果，并展望在AI大模型和汽车电子推动下的EDA市场。感谢《电子发烧友》对芯华章的关注！本文为专访内容精华分享，以飨读者。回顾2023年，下游消费市场的波动、人才成本的增长、研发难度的增加等等，都给今年半导体产业发展带来了巨大的挑战。叠加美国对中国半导体产业的持续限制，今年的外部环境可以说充满了变化和挑战。当行业处于高速发展过程中，一切都看上去很顺利；速度变慢甚至下行时，才能更好暴露问题与

芯片资讯

边缘侧部署大模型优势多！模型量化解决边缘设备资源限制问题

2024-01-06

电子发烧友网报道（文/李弯弯）大模型的边缘部署是将大模型部署在边缘设备上，以实现更快速、更低延迟的计算和推理。边缘设备可以是各种终端设备，如智能手机、平板电脑、智能家居设备等。通过将大模型部署在边缘设备上，可以减少数据传输的延迟和带宽需求，提高模型的实时性和响应速度。边缘端部署大模型的优势边缘侧部署大模型有诸多优势。低延迟：由于边缘计算将数据处理在离用户较近的设备上，大大减少了数据传输的延迟，提高了服务的实时性。这对于许多需要快速响应的应用场景，如智能家居、智能安防等，非常重要。降低带宽成本：

芯片资讯

中文大模型基准测评2023年度报告

2024-01-05

自2023年以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。中文大模型测评基准SuperCLUE在过去一年对国内外大模型的发展趋势和综合效果进行了实时跟踪。基于此，SuperCLUE团队发布了《中文大模型基准测评2023年度报告》，在AI大模型发展的巨大浪潮中，通过多维度综合性测评，对国内外大模型发展现状进行观察与思考。国内大模型关键进展012023年大模型关键进展与中文大模型全景图国内学术和产业界在过去一年也有了实质性的突

芯片资讯

华为盘古大模型3.0，重塑千行百业

2024-01-05

华为开发者大会 2023（Cloud）在东莞召开。华为发布盘古大模型 3.0，将围绕行业重塑、技术扎根、开放同飞三大创新方向，为行业客户、伙伴及开发者提供更好的服务。世界AI大会系列：数据为核，迈向多模态AI大模型时代（一）分层解耦：盘古大模型 3.0 是一个面向行业的大模型系列，包括“5+N+X”三层架构。盘古大模型采用完全的分层解耦设计，可以快速适配、快速满足行业的多变需求。（二）全栈自主：盘古大模型实现了以鲲鹏和昇腾为基础的 AI算力云平台，以及异构计算架构 CANN、全场景 AI

芯片资讯

大模型AI算力剧增，谁来扛国产GPU大旗？

2024-01-05

在AI算力、算法和数据人工智能行业三要素中，AI算力更是重中之重，业界厂商通过对各类AI硬件不断迭代为算力狂飙的需求提供强有力保障。自ChatGPTAI、GPT-4模型发布火爆出圈后，在引发了普罗大众对AI大模型热情的同时，也引燃了AI算力的战火。全球科技巨头纷纷发布AI大模型、AI训练卡产品都是入场者争夺AI制高点的战争缩影。 1、AI异构计算三分天下，GPU表现异常亮眼众所周知，人工智能（尤其是大模型新兴应用领域）对AI算力需求超过了通用CPU的摩尔定律的发展速度，而异构计算的性能增长恰

芯片资讯

大模型训练为什么不能用4090显卡，GPU训练性能和成本对比

2024-01-03

电子发烧友网>可编程逻辑>大模型训练为什么不能用4090显卡，GPU训练性能和成本对比 --> fpga(588972) fpga(588972) gpu(125229) gpu(125229) 内存(72213) 内存(72213) A100(7416) A100(7416) 大模型(226) 大模型(226) --> 声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联

芯片资讯

大模型 相关话题