早报: 谷歌Gemini生图功用紧迫封闭;谷歌发布VideoPrism:通用视觉编码器改写30项SOTA
时间: 2024-02-27 10:06:23 | 作者: 码垛机器人
时间: 2024-02-27 10:06:23 | 作者: 码垛机器人
我会每日推送 AI 范畴资讯新闻,每双月推送关于 AI 的精选线下活动。
很多用户在运用人像生成服务时发现,Gemini 好像回绝在图画中描绘白人,以至于生成了不少违反根本现实(性别、种族、宗教等)的图片。图灵奖获得者 Yann LeCun表明图画重建使命会遭到练习数据集计算的严峻误差影响,生成图画模型的功用会遭到练习数据会集种族组成的影响。对此,谷歌承认了过错,谷歌高管为Gemini性别歧视致电马思克抱歉,暂停了 Gemini 的人物图画生成功用,表明正在开发改善版别。
谷歌团队推出「通用视觉编码器」VideoPrism,旨在处理广泛的视频了解使命,包含分类、本地化、检索、字幕和问答。在3600万高质量视频字幕对和5.82亿个视频剪辑的数据集上完成了练习,能够经过单一冻住模型,处理各种视频了解使命,功用改写30项SOTA。
根据Transformer的架构和LLM仍然难以处理规划和推理使命。已有研讨证明,LLM难以应对多步规划使命或高阶推理使命。根据此,MetaFAIR田渊栋团队近来提出了Searchformer,提出了一种新办法:查找动态引导(searchdynamicsbootstrapping)。据悉该办法首先是练习一个Transformer模型来仿照A∗的查找进程。
谷歌将付费拜访 Reddit 的数据 API,Reddit 将向谷歌供给其论坛上发布的内容,谷歌将使用这一些内容来练习和更新人工智能谈天机器人,据报道,这一笔买卖每年价值 6000 万美元。谷歌并不是仅有一家掏腰包的公司。OpenAI 赞同每年付出数百万美元来获取和德国出版商 Axel Springer SE 的新闻文章
多模态大模型草创公司香港WeituAI公司完成了天使轮融资,天使轮估值一亿美金。据WeituAI公司介绍,多模态大模型的研发最重要的是两种才能需求一起具有,一种是根底的大模型的研发才能,一种是长时刻专心的多模态才能,对多模态数据,建模,使命的了解和认知。WeituAI团队不仅仅具有全栈式多模态大模型的研发才能,还将瞄准多模态大模型驱动的AI产品研发,给用户所带来愈加智能,愈加好用的人工智能产品。
字节跳动发布了最新的文生图模型——SDXL-Lightning,现已向社区敞开。该模型经过渐进式对立蒸馏(ProgressiveAdversarialDistillation)技能生成速度,能够在2步或4步内生成极高质量和分辨率的图画,将计算成本和时刻下降十倍,官方介绍还能够在1步内为超时灵敏的使用生成图画。
谷歌最近的Chrome更新引入了一个立异东西“帮我写作”,展现了人工智能经过了解用户上下文并供给量身定制的主张来彻底改变日常使命的潜力,特别是在写作方面。GoogleChrome中由AI驱动的写作东西彻底改变了数字写作使命的游戏规则。它简化了电子邮件的编撰和在线内容的制造,为用户更好的供给了情境化的主张。对企业而言,该东西能够简化客户交流并增强产品描述,然后有或许消除对专业案牍的需求。