
Gemini 是谷歌公司开发的一款先进的多模态人工智能模型,能够同时识别和处理文本、图像、音频、视频和代码等多种类型的信息,具有强大的语言理解、复杂推理、高级编码等能力,并在多个基准测试中表现出色。
Gemini 它从一开始就被创建为多模态的模型,可同时识别并理解文本、图像、音频、视频等多种类型的信息,能更好地理解具有细微差别的信息,回答与复杂主题相关的问题。
在被大型语言模型研究和开发中广泛使用的 32 项学术基准中,Gemini Ultra 的性能有 30 项都超过了目前最先进的水平。其得分率为 90.0%,是第一个在 MMLU 测试中超过人类专家的模型,在新的 MMMU 基准测试中,也取得了得分率为 59.4% 的优异成绩。
可以理解、解释和生成 Python、Java、C++ 和 Go 等多种编程语言的高质量代码,在多个编码基准测试中表现出色,如 HumanEval 和 Natural2Code 等。利用专门版本的 Gemini 创建的 AlphaCode 2,擅长解决需要复杂数学和理论计算机科学知识的竞赛性编程问题。
支持 100 万 Tokens 的上下文窗口,相当于 1500 页 PDF,能够一次性处理大量文本,可对多个文件进行交叉引用、对比分析。
Gemini 2.5 Pro 在模拟数学竞赛(AIME 2025)中准确率高达约 88%,接近人类高手水平;面对高难度数学题(HiddenMath – Hard),也能解出约 82%,在研究生级别的科学问题(GPQA diamond)上达到约 86%。
作为谷歌的产品,它与谷歌全家桶的联动非常丝滑,在输入框输入一个 “@”,就能调用 YouTube 视频总结、Gmail 邮件处理、Google 日程规划、Google 文档 / 表格等功能。
相关导航


文心一言

文小言

Claude

ChatGPT

腾讯元宝

DeepSeek


