GPT-4o发布，大模型领域又迎来革新 - 财经资讯(幸福双城资讯网)

5月15日，美国人工智能公司OpenAI的春季功能更新会正式召开，OpenAI首席技术官MiraMurati发布了公司的最新模型GPT-4o。据介绍，GPT-4o的速度是GPT-4（特别是GPT-4Turbo）的两倍，但价格只有一半，且升级了模型在文本、视觉和音频方面的功能。

同时基于GPT-4o，OpenAI还对ChatGPT做了更新，增加了更强的语音和视觉功能，这让ChatGPT对现实的感知能力大大增强。在GoogleI/O发布会前夕，OpenAI用GPT-4o的发布再次向外界证明了，自己是大模型领域毋庸置疑的领先者。

图源：OpenAI春季发布会

四大方面升级，更快更全面

OpenAI在活动中发布了新旗舰模型“GPT-4o”，“可以实时对音频、视觉和文本进行推理。”据介绍，新模型使ChatGPT能够处理50种不同的语言，同时提高了处理速度和质量。

具体来说，GPT-4o大致有以下四个升级：更强的多模态能力、多语言能力的提升、更强的视觉和音频理解、更快的速度和更低的价格。

GPT-4o是迈向更自然人机交互的一步，它可以接受文本、音频和图像三者组合作为输入，并生成文本、音频和图像的任意组合输出，“与现有模型相比，GPT-4o在图像和音频理解方面尤其出色。”

随着GPT-4o的发布，OpenAI也对ChatGPT做了更新，增加了语音模式。

与传统的语音模式不同，ChatGPT的语音模式有三大特点：一是交互过程中，可以随时打断；二是模型是实时响应，几乎没有延迟；三是模型更注重交互的情绪，不仅能够听懂你的情绪，也能够生成不同风格和情感的声音。

过去，人跟AI进行语音对话，基本上都需要经历3步：第一步，AI对你说的话，进行语音识别，即音频转文本；第二步，大模型拿到这段文本，进行回复，产出文本；第三步将大模型的产出文本进行语音合成，变成音频。

由于上述转化过于繁琐，因此在转化过程中会造成大量信息的损耗，既无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。而借助GPT-4o，OpenAI跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理，效率得到了大幅提升。

与之相比，GPT-4o可以在232毫秒内对音频输入做出反应，与人类在对话中的反应时间相近。在录播视频中，两位高管做出了演示：机器人能够从急促的喘气声中理解“紧张”的含义，并且指导用户进行深呼吸，还可以根据用户要求变换语调。

图源：OpenAI春季发布会

新时代的新质生产力

人工智能技术的迅猛发展，使AI大模型成为科技竞争的核心、产业变革的先锋、经济增长的新动力。我国已将人工智能列为国家战略，出台系列政策扶持其发展，为AI大模型产业创造优越环境，我国AI大模型产业展现巨大潜力和广阔前景。

大模型时代已至，通用、行业、端侧大模型蓬勃发展，加速产业应用落地。AI大模型作为新一代人工智能产业的核心引擎，正深度赋能我国经济社会的多领域，引领通用人工智能新纪元，催生科技革命与产业变革。面对大模型时代的挑战与机遇，产业发展方向、挑战与未来路径，亟待社会各界共同探索与努力。

2023年，人工智能大模型迅猛发展，重塑科技创新和生产生活，全球竞争加剧。国产大模型崭露头角，引领变革浪潮，机遇与挑战并存。大模型与电力、零售、出版等传统行业深度融合，改造升级传统产业。在金融、医疗等行业，大模型促进提质增效，成为新质生产力快速发展的关键动力。大模型稳健发展离不开政策法规的保障，确保隐私与数据安全。展望未来，期待大模型技术创新深化，赋能各业，为社会注入高质量发展的新活力。

AI大模型的崛起，引领内容生成从“可用”迈向“好用”的新纪元。各行业对内容生产的渴求得到满足，尤其在电商、影视、传媒领域，大模型的应用已蔚然成风。

目前大模型商业化需供需协同：供给侧需解决Transformer等根技术的成本问题，提升性价比；需求侧则需企业深度数字化，投入资金、人力与时间。未来，AI内容生成将从“好用”迈向“高效”，或将迎来技术范式的多次革新。双方共同发力，将推动大模型商业化迈向新高度。

图源：Pexels

政策大力助力产业发展

我国高度关注人工智能发展，自2017年国务院发布《新一代人工智能发展规划》以来，已出台多项支持政策。2022年，科技部等六部门进一步发布《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》，推动经济高质量发展。

《政府工作报告》2024年倡议实施“人工智能+”行动，借大模型技术东风，地方政府积极出台支持政策，推动大模型产业蓬勃发展，引领未来科技新潮流。

北京着力推动大模型相关技术创新，构建高效协同的大模型技术产业生态；上海强调打造具备国际竞争力的大模型；安徽从资源方面着手吸引大模型企业入驻；成都全力推动大模型技术创新，聚焦研发与迭代CV、NLP、多模态等前沿大模型，并深耕医疗、金融、商务、交通等行业，引领行业智能化升级。

行业积极拥抱变化

中国AI大模型产业蓬勃发展，源于办公、制造、金融、医疗、政务等多领域对降本增效、生产自动化、风险降低、诊断准确率提升及政务服务效率增强的迫切需求。这些领域的创新共筑产业繁荣，预示AI大模型市场前景广阔。

办公场景

近年来，文字、语音、图像处理能力飞速跃升，大模型化身为智能“助理”，融入办公与会议，结合传统软件，实现智能化升级。

大模型智能办公产品，轻松应对文案生成、PPT美化、数据分析等日常需求。自然语言交互，让“助理”代劳繁琐工作，释放创造力。智能文档助力构建大纲、生成模板、优化表达；智能演示实现自动排版、生成备注、幻灯片一键生成；智能表格则通过对话，实现公式生成、数据处理、表格自动化。让工作更高效，创意更多样。

智能会议领域，大模型卓越赋能，覆盖策划、传译、记录全程。策划环节，仅需输入主题等关键词，大模型即可自动生成详尽策划，包括环节设计、分论坛划分、时间安排及预算等，全面高效。

大模型赋能下，同声传译的精准性、即时性与多语能力大幅跃升，同时会议记录结构清晰、要点明确，为会后回顾提供高效支持。

图源：Pexels

制造场景

人工智能革新制造业，重塑研发设计、生产及供应链管理。大模型结合EDA/CAE/CAD，显著提升研发效率。赋能数字孪生与机器人，增强感知与执行能力。与供应链管理的融合，实现智能化工厂管理转型，引领制造业迈入全新时代。

研发设计阶段，以大模型+EDA为核心，云端扩展性实现设计自动化，精准电气设计，简化流程，缩短PCB设计周期，助力企业缩减研发时间、成本，提升竞争力。生产环节，AIGC与数字孪生技术模拟真实环境，虚拟人替代人工进行风险排查，仿真设备助力沉浸式教学，引领智造新篇章。

大模型机器人运用机器视觉技术，实现路径规划与物体识别。集成于供应链系统，重构数字化办公，通过自然语言指令实现人机交互。高效管理决策、便捷数据分析与可视化，预测需求降本增效。在仓库与物流端，智能调度、跟踪与预警，显著提升运营效率。

金融场景

金融行业存在前、中和后台的业务划分，在数字经济时代的浪潮中，相关业务已被大模型全局赋能提升效率。以银行为例，对话机器人、虚拟助理已经逐渐出现在个性化服务、电子营销、金融欺诈检测、信贷支持等服务场景中。

个性化服务方面，银行大模型以客户数据为依据，为客户提供定制的财务和产品计划；电子营销方面，大模型根据客户行为偏好生成个性化电子邮件；金融欺诈检测方面，大模型赋能专业人员检索大量数据识别欺诈行为；信贷支持方面，大模型通过分析海量生产生活和信用数据，为信贷部门人员生成高质量的信贷方案建议，减少银行贷款收益损失。

医疗场景

得益于近年来医疗大模型的不断迭代，复杂的医疗数据分析任务得以解决。由于患者行为数据的独特性，大模型通过个性化设计，满足患者“千人千面”的医疗服务需求，应用于智慧影像、智慧手术、智慧健康等领域。

智慧影像覆盖 CT、MR、DR、US、DSA、钼靶等医疗影像场景，为患者进行早期检测、诊断及健康风险评估；智慧手术功能大幅提高患者病情评价准确度，打牢术前风险评估、术中手术规划、术后预后估计的基础；智慧健康则作为一般患者的贴身健康助手，通过小程序等便捷方式为患者提供高质量导诊服务和个性化健康建议。

图源：Pixabay

政务场景

在办公、制造、金融、医疗场景得到助力的同时，政务场景下的效率、信息参考范围、经验共享、规范性等常见痛点也获得大模型能力加持得以解决。

为提升效率，大模型利用自动化的政策检索、政策比对解决海量政策参考、人工分析比对的耗时问题；为缩小信息参考范围，政策撰写助手结合政策数据权威白名单，并接入政策全量库，避免不可靠信息来源引发舆论风险；为提高政策管理经验共享，大模型引入政策经验知识库，提升政务业务理解和政策管理能力；为规范政策撰写，政务大模型凭借规范化生成、检查功能维护成果的规范性、权威性。

机器人产业取得长足进步

自大模型出现，让高成本的垂直领域AI开发，变成“预训练大模型+特定任务微调”的形式，可以大幅提高模型的泛化能力，提高开发速度。尤其是在机器人相关领域，多模态基础模型可以将从不同传感器收集的多模态异构数据融合和对齐成为紧凑同质的表征，提升感知、决策和控制等环节能力。大模型能够更好训练机器人、使任务级编程成为可能、有望降低机器人交互门槛、提升感知能力，或将解决传统机器人泛化能力弱、落地难度高等痛点，加速应用推广。

2024年2月29日，美国机器人初创公司Figure宣布从OpenAI、微软、英伟达、JeffBezos、英特尔、ParkwayVentureCapital等公司筹集到新一轮6.75亿美元融资，估值达到26亿美元，并将与OpenAI合作开发下一代人形机器人大模型。

在过去短短一个月的时间，2024年3月13日，Figure公司发布了一段公司最新人形机器人Figure01展示视频，其智能大脑为OpenAI大模型。在该视频中，机器人Figure01不仅实现与人进行流畅对话，理解人类对其的指令，还可以在理解指令的同时对面前的物体进行抓取和摆放，从而模拟了人类在处理家务的场景。OpenAI加持下的Figure01机器人展现了优秀的智能反馈，显示了其较强的泛用能力，有望扩展机器人更广泛的应用场景。

图源：Pexels

中国经济迈向高质量增长，AI大模型催动新产业、模式与动能，强势助力经济社会高质量发展，与《国家创新驱动发展战略纲要》中创新驱动、产业升级的要求高度契合，展现巨大发展潜力。

大模型应用在我国产业高质量发展中扮演关键角色，人工智能技术的升级推动其产业化。面向未来，我国需深化资源研发统筹，强化大模型场景引领，以推动经济社会高质量发展。确保大模型技术突破，引领实体经济蝶变与产业革新，迈向更高发展境界。

第一时间获取更多财经资讯与报告，敬请关注微信公众号——“独角兽时间”（ID：Unicorn-Zone）：关注数字产业、行业价值、最新IPO信息，提供有价值的项目投资分析及专业资讯与报告，呈现出不同视角的专业分析。