Google 最近发布的 Gemini
模型在全球引起了巨大反响,其在多模态领域的 Video demo 无比震撼。对于 Android 开发者而言,其中最振奋人心的消息莫过于 Gemini Nano
模型将内置到 Android 系统当中,并开放给开发者使用。
事实上,能够自研 LLM
大模型的企业屈指可数,大多数的企业或个人都是在搞基于 LLM 的应用创新。而各大模型们各自为政,提供的能力、对接方式都参差不齐,即便在应用这个维度,开发者也很难整体、高效地去开发、拓展。
要是能够将 AI 相关接口统一、能力整合封装、甚至结合端侧硬件去内置默认的 AI 模型,这将是非常高效、安全的创举!
Google 坐拥全球顶尖的 AI 技术,同时掌控着市占率最高、各领域全面开花的 Android 平台,自然非常有理由、也有实力去做这样的事情。目前已知的是 Google 将在 Android 平台提供 AICore 服务,当前还在宣传阶段、尚未完整公布 API 细节。
笔者将基于披露出来的所有信息,跟大家分享 AICore 的目的和架构思路。
早在 Android 14 Beta3 发布的时候,一位开发者 Mishaal Rahman 便在 Pixel 的 /product/priv-app 目录下发现了一个名为 “Google AI Services” 的系统 App。
"com.google.android.aicore"
stub
版本按照 Google 的描述:AICore 是运行在 Android 平台上,可以让开发者便捷访问端侧内置的 AI 模型(on-device model)的系统服务。通过 AICore 可以对类似 Gemini Nano 这种端侧模型实现模型管理、运行时调用、安全检查、多模态等能力,并保留相应的 API 给开发者进行灵活的运用。当然这需要端侧模型本身针对移动芯片等设备做专门的优化。
那么具体来说,AICore 可以做哪些场景的支持呢?
包括但不限如下等强大功能:
高质量文本摘要、问题回答、问题扩展
上下文智能回复
高级校对和语法纠正
以 Gemini Nano 在 Pixel 8 Pro 设备上为例:
即使在手机网络断开的情况下,也能简明扼要地概括录音机应用中的内容,提供端侧摘要能力。
利用 Gemini Nano 的支持,开发者可以通过 AICore 实现在 Gboard
、WhatsApp
等更多的聊天 App 中实现智能回复,给出高质量的回复建议,节省用户的时间。
这是 Google 公布的 AICore
的 high-level architecture:
Private Compute Core
的设计方式,通过开源 API 与网络隔离,兼具透明度和可审计性细看内部:
LoRA
低等级适配程序,以支持开发人员根据自己的训练数据对大模型进行微调Gemini Nano
Safety features
层,确保数据的安全此外,AICore 支持部署在很多的机器学习芯片上,比如最新的 Google Tensor TPU、旗舰产品 Qualcomm Technologies、Samsung S.LSI 和 MediaTek 芯片中的 NPU 等更多的芯片设备。
目前来说,AICore 只支持 Pixel 8 Pro 设备,API 也仍在开发当中,需要的话可以在如下链接申请内测资格:
我已经申请了内测资格,通过之后深入分析下 API 和整体链路,届时再分享给大家。
每当出现新的技术,Google 总会整合这些能力,建立统一标准,集成到 Android 框架当中,供开发者便捷地封装,App 灵活地调用。从语音兴起时候的语音识别 SpeechRecognizer
、语音播报 Text-to-speech
到智能助理活跃时候的语音交互 VoiceInteraction
,再到增强现实、虚拟化盛行时候的 ARCore
。
这次的 AICore
也是一样,将 AI 能力规范化、接口/协议统一化,方便开发者进行 LLM 的选择、调整以及应用创新。再借助数以亿计的 Android 设备的呈现,必将加速 AI 技术的发展和普及。
事实上,AICore 内置到 AOSP 当中的话,那么 Android Automotive
OS 也将受益。所有从 Android、Automotive 延伸出来的车载机系统,只要芯片硬件上兼容,未来都可以利用 AICore 技术进行很多车载场景的拓展,包括但不限于:
大家总说 Android 已趋于成熟、缺乏新意,那么本次的 AICore 绝对是新颖、有趣的话题,赶紧支棱起来。