微软亚研院新作:让大模型一口气调用数百万个API!
近年来,人工智能发展迅速,尤其是像ChatGPT这样的基础大模型,在对话、上下文理解和代码生成等方面表现出色,能够为多种任务提供解决方案。
近年来,人工智能发展迅速,尤其是像ChatGPT这样的基础大模型,在对话、上下文理解和代码生成等方面表现出色,能够为多种任务提供解决方案。
大佬何恺明还未正式入职MIT,但和MIT的第一篇合作研究已经出来了:他和MIT师生一起开发了一个自条件图像生成框架,名叫RCG(代码已开源)。这个框架结构非常简单但效果拔群,直接在ImageNet-1K数据集上实现了无条件图像生成的新SOTA。
在人形机器人领域,有一个非常值钱的问题:既然人形机器人的样子与人类类似,那么它们能使用网络视频等数据进行学习和训练吗?如果可以,那考虑到网络视频的庞大规模,机器人就再也不用担心没有学习资源了。近日,德克萨斯大学奥斯汀分校和 NVIDIA Research 的朱玉可团队公布了他们的一篇 CoRL 20
在开源社区中把GPT-4+Dall·E 3能⼒整合起来的模型该有多强?香港中文大学终身教授贾佳亚团队提出多模态模型Mini-Gemini:Mini-Gemini还提供了2B小杯到34B的超大杯,最强模型在多个指标上相比谷歌的Gemini Pro甚至GPT-4V都不遑多让。
啥?AI都能自己看电影大片了?贾佳亚团队最新研究成果,让大模型直接学会了处理超长视频。丢给它一部科幻大片《星际穿越》(片长2小时49分钟):它“看”完之后,不仅能结合电影情节和人物轻松对电影进行点评:还能很精准地回答出剧中所涉的细节:例如:虫洞的作用和创造者是谁?男
谷歌「Alpha」家族又壮大了,这次瞄准了量子计算领域。今天凌晨,新晋诺贝尔化学奖得主、DeepMind 创始人哈萨比斯参与撰写的新论文登上了 Nature,主题是如何更准确地识别并纠正量子计算机内部的错误。我们知道,量子计算机有潜力彻底改变药物发现、材料设计和基础物理学。不过前提是:我们得让它们可
ControlNet作者新作,玩儿得人直呼过瘾,刚开源就揽星1.2k。用于操纵图像照明效果的IC-Light,全称lmposing Consistent Light。
CV大神何恺明,也来搞扩散模型(Diffusion Model)了!大神最新论文刚刚挂上arXiv,还是热乎的:解构扩散模型,提出一个高度简化的新架构l-DAE(小写的L)。
四个 10 分!罕见的一幕出现了。您正在收看的,不是中国梦之队的跳水比赛,而是 ICLR 2025 的评审现场。虽说满分论文不是前无古人,后无来者,但放在平均分才 4.76 的 ICLR,怎么不算是相当炸裂的存在呢。
比斯坦福DPO(直接偏好优化)更简单的RLHF平替来了,来自陈丹琦团队。该方式在多项测试中性能都远超DPO,还能让8B模型战胜Claude 3的超大杯Opus。而且与DPO相比,训练时间和GPU消耗也都大幅减少。这种方法叫做SimPO,Sim是Simple的简写,意在突出其简便性。