7B 最强长视频模型来袭!LongVA 视频理解超千帧,霸榜多个榜单

免费获取chatGPT 3.5 账户,或购买GPT 4.0plus 会员账户,扫描文章内微信公众号二维码,或加微信:yuke36

1.6700万参数抗衡万亿巨兽GPT-4!谷歌MIT等联手破解推理密码。

2.AI大模型有望再扩1000倍!剑桥哈佛康奈尔:PNN是改革关键。

3.3分钟让老相片动上去,这个AI功能让我闪避。

4.7B最强长视频模型!视频理解超千帧,霸榜多个榜单。

5.盘点ACL2024RAG和检索方向都发了啥。

6.直击真实的乙方AGI需求,人工智能赋能产业融通发展峰会顺利举办。

6700万参数抗衡万亿巨兽GPT-4!谷歌MIT等联手破解推理密码

图片[1]-7B 最强长视频模型来袭!LongVA 视频理解超千帧,霸榜多个榜单-云上资源整合网

创新的训练范式:微型抗衡GPT-4的推理能力

1.来自谷歌、MIT等机构的学者提出了一种创新的训练范式,通过因果模型建立数据集,使67M参数的微型模型还能抗衡GPT-4的推理能力。

2.研究人员间接教模型学习公理,仅使用简单的因果链作为训练数据,结果表明该模型在复杂因果关系的推论上表现赶超了十亿级参数的LLM。

因果推理与大模型训练

1.因果推理是当前生成AI风潮下的冷门领域,但它有像YannLeCun这样的坚定支持者。

2.YannLeCun觉得,引入风波的因果关系可以提高模型的泛化能力,降低训练数据的使用。

3.近来,研究人员提出了公理框架()作为模型的新训练范式。

公理化训练的过程

1.通过公理化训练(),模型可以从被动的符号演示中直接学习因果关系。

2.论文引用了JudeaPearl和David的研究,证明了有限公理集合可以充分表征有向因果图。

3.论文中,结构化因果模型被应用于给定系统中的变量,以传递性公理教会模型推理因果关系。

训练数据和数据扰动

1.训练数据以因果链作为基础,通过应用传递性公理生成数据集。

2.数据扰动(如节点名称、因果图拓扑结构、链宽度)被引入以提高模型的泛化能力。

实验结果与数据多样性

1.模型在次序链和带有随机翻转的链上训练,并在更复杂的图结构上进行评估。

2.通过训练数据的多样性和位置编码选择,研究证明模型还能从简单因果序列的演示中推理出更复杂的因果结构。

3.在不同实验设置中,执行公理训练的模型TS2(NoPE)在更长的因果链和复杂结构上表现优异,确切率胜于或抗衡Pro、Phi-3以及GPT-4。

推测和影响因果关系

1.作者研究了公理化训练是否可以从观察数据中的相关性陈述推论因果关系,发觉大型模型的表现优于所有基线模型,在复杂的因果任务上确切率达到64%。

2.研究人员觉得,公理化训练是一种教模型学习因果关系的有前景的技巧。

总结

1.这项研究展示了经过训练的大型模型在因果图推理方面的潜力。

2.结果显示,通过公理化训练,模型可以从简单因果序列的演示学校会推理更复杂的因果关系,同时具备更高的泛化能力。

AI大模型有望再扩1000倍!剑桥哈佛康奈尔:PNN是改革关键

图片[2]-7B 最强长视频模型来袭!LongVA 视频理解超千帧,霸榜多个榜单-云上资源整合网

1.随着Law的成功,AI模型的煤耗和算力需求达到了惊人的程度,现有模型无法再扩充1000倍。

2.实现大规模AI模型扩充须要重新思索当前的训练和工作方法,关注底层硬件的化学约束,PNN(化学神经网路)可能是答案。

PNN是哪些

1.当前AI系统煤耗高、吞吐率低、延迟高,根本问题在于显存和处理单元的分离及数据传输速率低。

2.PNN借助化学系统的属性进行估算,与ANN(人工神经网路)不同,在性能和效率上可能赶超数字硬件。

3.PNN有两类:同构PNN和破坏同构PNN,前者估算效率更高。

PNN的训练方式

1.估算模拟训练:在计算机上模拟和优化PNN,成本效益高,但精度受限。

2.化学感知反向传播训练:结合化学系统前向估算与数字模型反向传播,精度较高。

3.反馈对齐:不转移前向估算权重到后向估算,效率高但性能差。

4.化学局部学习:不一定能完全复现反向传播性能,有提高效率潜力。

5.零阶梯度和无梯度训练:无需化学系统详尽知识,但扩充性差。

6.通过化学动力学进行梯度增长训练:与基于GPU的训练相比,有能量增益。

7.持续学习:避免神经网路因新数据训练而遗忘旧知识。

实现对小型模型的高效模拟

1.PNN硬件设计得当可能比数字系统更有效率,尤其在大规模模型下。

2.光学点积能量缩放优势有望在AI模型推理中显露。

新兴前沿的PNN技术

1.PNN技术有多个应用方向,包括量子估算、概率估算、光子估算等。

2.量子估算在PNN训练中具有潜力,但当前实用性受限。

3.机率比特技术弥补现有估算的空缺,有望成为有效的硬件加速器。

4.光学神经网路在能效和速率上有明显优势,是数学系统的潜力方向。

3分钟让老相片动上去,这个AI功能让我闪避

图片[3]-7B 最强长视频模型来袭!LongVA 视频理解超千帧,霸榜多个榜单-云上资源整合网

老相片让AI动上去

1.近来网路上盛行了使用AI让老相片“动上去”的时尚,许多网友通过技术让记忆栩栩如生。

2.麻省理工大学的You项目借助AI建立未来自我,让参与者“看到”60岁后的自己,进行深度对话。

AI情感抒发

1.一位65岁的AI艺术家松尾公也借助AI技术修补与过世父亲的老相片,并制做了动态视频,记念她们的过去。

2.松尾使用UTAU软件合成父亲的歌声,帮助完成了记念歌曲。这个故事诠释了AI在情感抒发中的巨大潜力。

3.通过使用LumaDream和其他AI工具,松尾将老相片转化为动态影像,实现了对父亲的深情想念。

AI技术实现方式

1.使用美图秀秀的“照片勾线”和“画质修补”功能提高老相片的质量。

2.使用可灵AI图生视频功能,将相片转化成动态视频,可以配上背景音乐。

技术与情感的对话

1.AI的动态相片除了是一种技术上的创新,更是一种对已逝亲戚的情感记念。

2.虽然AI未能记录情感、意识和价值等纯个人体验,但它足以给人们带来抚慰。

3.这些技术创造了更多元的相片呈现形式,为人们提供了情感慰藉的新的可能性。

7B最强长视频模型!视频理解超千帧,霸榜多个榜单

图片[4]-7B 最强长视频模型来袭!LongVA 视频理解超千帧,霸榜多个榜单-云上资源整合网

1.本文介绍了LMMs-Lab团队及南洋理工学院推出的长视频模型,该模型能理解超过千帧的视频数据,性能赶超了现有开源视频多模态模型。

2.团队主要成员包括南洋理工学院的研究助理、四年级大专生、三年级博士生以及指导班主任刘子纬院士。

理解长视频的挑战

1.视觉token数目过多造成现有LMMs在处理长视频时面临困难。

2.缺少高质量的长视频数据集,现有数据集大多为短视频,长视频也缺少密集的监督讯号。

长上下文迁移

1.作者提出“长上下文迁移”思路,致使LMMs就能在不进局长视频训练的情况下处理和理解超长视频。

2.她们通过扩充语言模型的上下文厚度,将这些能力传递到视觉模态上,具体做法是通过长文本数据训练语言模型,之后用短图象数据进行模态对齐。

3.在训练过程中使用了多种优化策略(如-2、Ring等)来提升训练效率和显存借助率。

4.统一编码方案确保了在将图象数据扩充到视频时保持一致的表示方式。

5.采用“短上下文训练,长上下文测试”策略,在训练使用图象-文本数据,在测试直接进局长视频处理。

的强悍性能

1.团队提出了-In-A-(V-NIAH)基准测试,用于评估LMMs长视频视觉上下文宽度的问题。

2.在V-NIAH测试中,表现出了几乎全对的成绩,展示了其长视频理解能力。

3.在腾讯、中科大等机构提出的Video-MME榜单上,排行第七且达到了7B模型的SoTA。

4.在智源联合农大、北大和复旦推出的MLVU基准测试中,高踞最强开源模型,仅次于GPT-4o。

作者团队在论文中提供了更多疗效展示,有兴趣的读者可以查看原论文。

盘点ACL2024RAG和检索方向都发了啥

图片[5]-7B 最强长视频模型来袭!LongVA 视频理解超千帧,霸榜多个榜单-云上资源整合网

面向RAG提出专门的LLM训练方式

1.ofLargefor-:本文提出了将LLM作为文档信息优化器,并提出了一种无监督学习方式,促使LLM就能借助不同质量的文档进行正确答案的输出,在多个任务上都优于RAG的。

2.AnforNoiseon-:使用信息困局理论来优化上下文压缩器,为SFT数据选择和加强学习提供了有效的技巧。

面向特定任务或需求的RAG流程优化

1.M-RAG:LargeModel-with:当数据库过大时,提出RAG的多片范式,用于有效处理文本摘要任务。

2.:with-in-Zero-shot:使用T5模型的-In-(FiD)技术,对文档进行多级排序,并提出一种高效的多级排序策略。

3.OntheRoleofLong-tailinLarge:提出了Error(GECE)指标评估长尾知识,并优化RAG流程中的推理速率和任务疗效。

4.-then-in-forMulti-hop:提出一种新的多跳问答流程,使LLM交替生成答案和检索文档进行验证。

5.-for-LevelCode:提出数据流引导的检索提高方式DRACO,用于库房级的代码补全。

6.for-Image:为了避免检索到的错误token欺骗模型,提出从多元化标题集合中取样的方式。

7.RAM-EHR:Meetson:提出从多个知识来源获取信息,通过这些方法解决基于EHR的临床预测问题。

-free的上下文检索

1.Modelwith-FreeIn-:通过不须要分块的上下文检索,解决长文本分块不精确的问题。

2.:A-FreeForLong-Large:提出,不须要分块的表征编码。

优化检索器

1.AMulti-TaskForLLM:基于bge进行多任务指令表征微调,解决多个任务下的文本块检索问题。

2.DAPR:Aon-Aware:提出文档感知的段落检索任务,并改进了检索方式。

3.Small,Big:SlimProxyToWhenandWhattoforLLMs:使用大型LM作为评估器,决定是否须要检索,并确保检索过程中的确切性。

4.-:for:提出了一种新的方式——搜索适配器,以订制LLM的信息检索表征。

5.ARL2:withBlack-boxLargeviaSelf-:借助自指导自适应相关性标签训练来对齐检索器和LLM的问题-文档相像度数据。

实证研究/

1.of:HowisLargeModel?——ACaseStudyonOpen:发觉将AI生成内容加入数据库会引起沉默螺旋现象,实证了这些现象对问答任务的影响。

2.Dwellinthe:HowEmbedLongforDense:阐述了基于的文本表示学习模型中位置误差的存在怎样影响表示学习。

3.andLargefor:通过检索模型和LLM的协同作用提高检索性能。

4.Noiseof-with:研究检索噪音对LLM影响,并提出自适应对抗训练方式RAAT。

5.Factby:提出通过综合对比论证提高事实核查的方式RAFTS。

直击真实的乙方AGI需求,人工智能赋能产业融通发展峰会顺利举行

图片[6]-7B 最强长视频模型来袭!LongVA 视频理解超千帧,霸榜多个榜单-云上资源整合网

峰会简介

1.2024WAIC人工智能赋能产业融通发展峰会于7月6日在世博展览馆举办,主要议程包括阐述人工智能赋能新型工业化及推动产业融通发展。

2.峰会活动包括领造成辞、签约典礼、主题讲演、央央企人工智能场景需求发布和圆桌峰会等环节。

嘉宾致词

1.中国电子信息产业发展研究院领造成辞,指出了人工智能在新型工业化中的重要作用及其赋能场景落地的重要方向和目标。

签约合作

1.中国电子信息产业发展研究院和国家电网客服中心签订战略合作合同,提高电力智能服务水平。

2.中国软件评测中心和机器之心的代表也进行了合作签约,实现资源共享和优势互补。

主题讲演

1.达摩院决策智能实验室分享电力场景应用,包括求解器和红色能源AI解决方案等。

2.中国石化胜利油田分享了油田智能化尝试,提出数改智转目标和四个方面的改革方向。

3.百度智能云总工裁喻友平介绍了百度智能云在企业内部应用场景的解决方案,包括“甄知”、“客悦”和“曦灵”等产品。

4.中电昱创介绍了传统电力运维的挑战及其智能化运维解决方案。

5.中国联通研究院介绍了智能时代的人工智能发展战略和实践成果。

央央企人工智能场景需求发布

1.北方电网数字电网集团发布了“人工智能驱动的电能量数据创新应用技术研究”项目需求,涉及计量装置故障预警及运维效率优化等技术应用。

圆桌峰会

1.由中国软件评测中心代表主持,讨论了人工智能赋能新型工业化的初步经验。

2.中电昱创提到其在新型工业化中应用机器人智能感知和控制技术的实践。

3.创新奇智首席技术官张发恩提及智能涌现和大模型技术的潜力。

4.达摩院决策智能实验室能源行业负责人刘乐阐述了大模型在精准天气预报和AI气象方面的应用,同时指出安全性、可靠性和可解释性。

5.北方电网数字电网集团介绍了电力行业在人工智能方面的广泛应用。

总结与展望

1.2024WAIC谢幕,人工智能赋能产业融通发展峰会顺利结束。

2.人工智能将不断推动产业融合与创新,促使传统产业变革升级,为经济增速和社会发展带来新动力。

欢迎关注我的公众号“”,AI领域最新文章第一时间推送。

的使命是构建人与AI之间的联接。

让AI来填补人类不擅长的事情。我们将每晚给您推送最新的AI技术,动态,研究成果。

目前全网已监控:

1.

2.

3.

4.

5.arxiv

6.

帮用户节省大量获取信息的时间,提升筛选信息的效率。

图片[7]-7B 最强长视频模型来袭!LongVA 视频理解超千帧,霸榜多个榜单-云上资源整合网

免费获取chatGPT 3.5 账户,或购买GPT 4.0plus 会员账户,Gmail 邮箱注册,异常,停用相关问题,扫描文章内微信公众号二维码,或加微信咨询:yuke36

© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容