一觉醒来AI科技圈发生的大小事儿05月06日

📳CVPR 2024 | 借助神经结构光，浙大实现动态三维现象的实时采集重建

本文介绍了浙江大学团队在动态三维密度场采集重建方面的研究成果。他们通过人工智能优化算法和物理采集方式，实现了高效高质量的动态三维密度场建模。研究团队设计了硬件原型和深度神经网络，实现了每秒40个三维密度场的实时高质量重建。他们的方法在真实静态物体和动态仿真数据上的重建质量优于现有方法。未来展望包括在更先进的采集设备上应用该方法，结合神经表达等。

🔗

📳告别偏科，能玩转多模态、多任务、多领域的强化智能体终于来了

随着 Llama 3 发布，大模型参数量已达到 4000 亿，AI 应用期待着 ‘ChatGPT 时刻’。研究者提出了基于 Transformer 的多模态通用强化学习智能体框架 JAT，解决了智能体在多领域任务中的挑战。JAT 使用嵌入机制处理不同数据类型，通过平衡任务学习进度和优先级实现全能型智能体。实验结果显示 JAT 在多个智能体训练环境中表现优异，达到专家水平。通过预测观察嵌入任务，JAT 智能体学得更好更快，适当选择权重参数 k 可显著提升表现。未来展望包括改进数据质量、使用离线强化学习和优化多任务采样策略。

🔗

📳ICLR 2024 Spotlight | 负标签挖掘助力基于CLIP的分布外检测任务

本研究关注机器学习模型中的分布外（OOD）数据识别和处理问题，提出了一种名为NegLabel的方法，利用视觉-语言模型（VLMs）进行OOD检测。该方法引入了负标签机制，通过分析图像与ID标签和负标签的亲和性，有效区分出分布外样本，提高模型对OOD样本的识别能力。实验结果显示NegLabel在多个基准测试中表现优越，达到94.21% AUROC和25.40% FPR95。该方法不需额外训练过程，且在不同VLM架构上表现通用性和鲁棒性。研究结果有助于提高模型在实际应用中的安全性和可靠性。

🔗

📳特斯拉机器人进厂打工，马斯克：手的自由度今年将达到22个！

特斯拉最新机器人Optimus展示了在厂房内分拣电池的自主能力，具备高度灵巧和耐用的手，未来手的自由度将达到22个；机器人使用神经网络进行训练，数据来源于2D摄像头和手部传感器，神经网络在嵌入式FSD计算机上运行；特斯拉机器人部署多个机器人进行各种任务，如分拣电池、叠衣服等；另一实验展示了机器狗在瑜伽球上行走的训练方法，通过模拟环境和零样本迁移实现技能学习和部署。远程操作虽解决问题，但无法扩展，自动化流程将是未来发展方向。

🔗

📳《嬛嬛朕emo啦》但马斯克！阿里这项技术开放试玩

阿里通义实验室推出的EMO技术在全民演唱功能中受到热捧，用户只需上传一张人物正面大头照即可生成逼真的视频。该技术采用弱控制设计，通过面部定位器和速度编码器实现自然头部运动。未来计划扩展到半身、全身，实现更多可能性。此外，团队还开发了Animate Anyone模型，通过参考图像引导的去噪生成过程实现特定对象ID的生成式模型。团队专注于数字人，但用户更感兴趣的是动物玩法，如奶牛猫跳舞。团队致力于提供简单高质量的内容，通过新技术实现更多可能性。

🔗

幸福双城资讯网

文浩Free