新闻中心 /News
Gemini 阵容扩大生成式 AI 能力更强搜索重置更新多模态 AI 助理看点多
Gemini 阵容扩大生成式 AI 能力更强搜索重置更新多模态 AI 助理看点多一个半小时的主题演讲,120 次提及「AI」。不,是 121 次,刚刚我又说了一次,我甚至还想多说几次,让这个数字再扩大一些……
甚至为了给 AI 让路,Google Pixel 8a 在 I/O 大会前就开启预售。而以往的重头戏 Android 部分的解说,直接和谷歌大模型 Gemini 绑定,变成以 AI 为内核的操作系统。
Gemini 不甘示弱,更新了多项大模型和工具,发布了诸多新功能。在生成式 AI 方面,谷歌还展示了与 OpenAI 分庭抗争的文生图、文生视频的新能力星空体育官网。
今年 2 月,Gemini 1.5 Pro 正式发布,具有 100 万 tokens 参数、长上下文处理能力、多模态交互能力。
会上桑达尔·皮查伊公布了一组数据,目前有超过 150 万开发者使用 Gemini 模型,Gemini 也已进驻至 Android、iOS 系统。
随着使用量的增加,需求也发生着巨大的变化,比如用图片提问,现在已经变得越来越常见。此次 Gemini 家族的诸多更新,即是为了响应用户需求。
首先迎来的是 Gemini 1.5 Pro 的功能改进,在翻译、推理、编码等关键用例上做了优化,能够胜任更复杂的任务处理。
未来 Gemini 1.5 Pro 还将继续扩大适用范围,预计将向全球 200 多个国家和地区提供使用。
Gemini 1.5 Flash 是 Google 发布的一款新的轻量级模型,主要用于处理高频、简单任务,具备快速响应能力。
和 Gemini 1.5 Pro 一样,具有 100 万 tokens 参数,以及支持文本、图像、语音、视频等多模态交互能力。
Gemini nano 是一款端侧轻量级大模型,将集成在 Android 底层系统,作为一项能力向设备提供,首先是自家的 Pixel 手机。
Gemini nano 能支持语音理解、图像识别,以及将消息、邮件和文档,提炼合成简洁、可读的摘要内容。
具体用例方面,Gemini nano 可以读懂手机界面上的信息、提炼 PDF 等文档关键信息,并支持语音问答。
另外,Gemini nano 还能根据陌生电话涉及的索要身份信息、银行账号等敏感词汇,识别电话。
而当前的 Gamma 则新增了 PaliGemma 视觉语言模型,并针对图像字幕视觉问答和其他图像标签任务进行了优化。
Veo 可以生成 1 分钟时长 1080P 分辨率的短视频,并能理解文本中的「延时拍摄、航拍」镜头拍摄风格。
搜索引擎将支持语音、图片、圈选,甚至是视频搜索,给出的结果也将是度、极丰富的,谷歌称这种新的呈现方式「Overviews 概览」。
搜索引擎就会基于需求,从海量的真实商家信息中,抽离出符合需求的课程。不仅如此,「Overviews 概览」界面还会给出地图、商户的评价,甚至是瑜伽练习的要领提示等信息。
再比如,对于我们日常较为苦恼的饮食安排,你也可以在搜索引擎中直接提出:帮我安排为期七天的饮食菜谱,而即刻获得包含图片、文字、做法的搜索内容。
会上透过一段用户拍摄的唱片机摇臂安装问题发起搜索。AI 通过对视频逐帧分析后,一份包含唱片机厂商、型号,安装方式等内容的「Overviews 概览」即出现在眼前。
Gmail、文档、幻灯片、表格的侧面板中的 Gemini 将升级至全新的 Gemini 1.5 Pro,通过上下文窗口和更高级的推理,提供服务。
如在 Gmail 中,Gemini 可以对多封邮件,进行关键信息提炼,形成一份待办事项清单。
其中之一,丈夫发给妻子希望修缮屋顶的邮件。妻子利用 Gemini 在众多供应商回应邮件中,快速寻找到合适价格、合理工期的供应商。并且 Gemini 还具体问题,生成了自动回复,这着实让妻子大为满意。
而另一个例子,是一个自由摄影工作者,在繁忙的工作中,收到各种出差时的差旅单据时,通过 Gemini 将单据快速生成条目清晰的表格。
另这位摄影工作者欣喜的是,Gemini 还能一键设置命令,Gmail 中所有同类单据都并入至一份表格,而可统一管理。
工作助理基于所掌握的信息,瞬间列明项目进度、待解决的重要事项,并且将任务发送给所负责的同事。
经过全新设计的 Gemini APP,直接以语音、图片、视频为输入口,并能访问 Gemini 最新的版本。
基于此,Gemini APP 还提供支持创建 Gems 个性化聊天机器人,可让用户与不同角色的机器人对话。
作为 Gemini 等大模型背后的硬件支柱,第六代 TPU Trillium 在会上也仅作为配角低调发布。
就性能而言,Trillium 还算够强大。会上谷歌表示,相比 TPU v5e,Trillium 每个芯片峰值计算性能提高了 4.7 倍,能效高出 67%。
其中 Trillium 还配备了第三代 SparseCore,一款处理超大嵌入的专用加速器。同时,Trillium TPU 可以更快速训练下一代基础模型,并以比较短的延迟时间及低成本提供模型服务。
深圳湾(公众号 ID:shenzhenware)创办于 2014 年,是最早也是最活跃的硬件创新媒体和社区。深圳湾还有一个英文名:shenzhenware,起源于 software + hardware。深圳湾不仅是地标,更是大湾区创新的动力,用精致有料的科技报道,推动产业创新!
微信私人客服:小炫(ID:warexx)。欢迎读者和社会各界与我们联系,创始人「深圳湾的炫姐姐」欢迎你随时来湾里做客。