随着人工智能技术的迅猛发展,机器学习平台服务(ML PaaS)已经成为企业数字化转型的关键工具。在这样的背景下,谷歌云的Vertex AI平台应运而生,它提供了一个强大的环境,让客户能够训练和部署机器学习模型以及AI应用,并支持自定义大型语言模型(LLM),以满足AI驱动应用的多样化需求。
客户对大模型的需求也与日倍增。近一年来,企业客户在Vertex AI上调用Gemini API的数据量激增了36倍,而Imagen 3的推出更是推动了Imagen API在Vertex AI上的数据增长达到5倍。全球范围内,中国出海企业的表现尤为引人注目。在Google Cloud的Top10客户中,中国企业已经占据了两个位置。
接下来,让我们看看两个具体的合作案例,它们展示了Vertex AI平台如何助力企业实现创新和增长。Snapchat X Gemini 案例:全球知名的社交媒体平台Snapchat通过利用Gemini API,成功构建了智能助理、内容翻译生成、内容总结以及多模态内容理解等功能,极大地提升了用户体验。YouTube分析:只需一个URL即可将YouTube视频导入Gemini,解锁多模态洞察。通过提供视频URL,直接从YouTube轻松分析视频,可以在Vertex AI Studio用户界面或通过API使用,与Batch API配合使用,分析大量视频并降低成本,使客户更容易从Gemini的多模态性中获益,非常适合用于收集产品反馈或竞争分析等场景应用。
多模态流媒体API:允许用户直接将音频和视频流传输给Gemini,以实现会话交互。目前仅在Gemini 1.5 Flash 002版本中提供,我们正在添加更多功能,以期最终完善。用户可以流式传输声音和视频至Gemini,并得到由VoiceLM技术支持的声音响应。
Model Garden家族:Gemini 1.5 Flash & Pro 002:这些模型在所有领域都进行了质量改进,使它们更具竞争力,而Pro版新的价格使其对前沿质量模型具有很高的吸引力。Gemini 1.5 Pro 2M Context:这是一个行业领先且具有差异化的能力。最新的002模型还改进了它们对长文本上下文的理解。这开启了只有Gemini才能做到的多模态用例。YouTube分析API:这是谷歌独有的能力,通过简化从YouTube提取视频的过程,提升了开发者体验。多模态流媒体API:这使得客户能够构建会话式用户体验,并利用Gemini的多模态性和长上下文输出自然声音的语音。Gemini 1.5 002的动态共享配额:客户将不再需要提出配额增加请求,减少了之前扩展用例的摩擦。Chirp v2:Chirp v2通过增加流媒体功能,增强了Google Cloud管理的语音模型的能力,这对于实时交互等许多应用至关重要。内置的语言检测和翻译功能也使其更易于使用。4. Model Evaluation:适用于所有模型的服务,通过评估模型在特定任务上的表现,用户可以了解模型的优缺点,并据此做出进一步的优化决策。
这些服务共同构成了一个强大的工具集,使用户能够根据自己的需求和资源,对Google Cloud上的基础模型进行有效的调优和定制。用户可以输入他们的需求以及原始的提示词,Google Cloud后台将依据众多案例所积累的能力,帮助用户生成更优的、经过修订的提示词。
2、Prompt Optimizer:该工具能够自动围绕用户的提示词及其上下文进行优化。它采用类似于蒙特卡洛方法和AlphaGo技术的手段,为用户生成一系列种子提示词,随后对这些种子进行测试。最终,通过大量实验,工具将为用户提供在测试集上表现最佳的提示词。
3、Supervised Fine Tuning:在某些业务场景下,如果现有解决方案仍无法满足需求, Google Cloud会提供业界领先的LLaMA技术进行轻量级的微调(Fine Tuning)来辅助客户优化模型。当然需要注意的是,这些模型必须是由Google提供的。用户可以利用几百个自行标注的数据样本,对模型进行适当的微调。该功能同时支持文本、图像和音频的多模态微调,并且用户只需为训练计算付费。
4、Distillation for Gemini:除了简单的微调之外,Google Cloud还支持大型模型蒸馏技术。包括已经开源的Gemma模型,用户可以在Google Cloud上基于Gemma 2这种特别大的模型蒸馏出一些规模较小的模型,如Gemma 22B、9B、27B等,以适应自己的业务场景。在这个过程中,不需要大型标记数据集,并且可以自我托管目标模型以管理成本和延迟。
5、GenAI Eval Service:若用户需对不同模型进行比较,包括Google Cloud上不同版本的Gemini以及市面上一些第三方模型,可以利用Vertex AI平台上的通用AI评估服务来对比这些模型在自己的测试集上的表现。
6、Controlled Generation for Gemini 1.5:该服务旨在提高结构化输出的性能,使AI能够生成易于使用、机器可读的数据,减少繁琐的后处理和解析需求。此外,该服务还增加了结果的可预测性,允许用户可靠地预测AI模型产出数据的格式和结构,例如指定字段属性是否为枚举类型、列表项、可为空或必填等。
除了提供上述能力之外,lmagen 3提供的各种生成能力,达到了非常高的标准,将加速企业创意过程,以适应其广告、营销和协作的自动化需求。与市面上其他一些文本到图像的开源或商业解决方案相比,lmagen 3提供了更多的选择。例如,针对不同手机和平板厂商的大量使用需求,不再局限于1:1的传统比例,而是提供了3:4、4:3、9:16等多种不同的长宽比规格。此外,在图像中嵌入了DeepMind技术CCID,这使得在生成图像并获取水印后,能够在商业使用中避免许多潜在的版权问题。
此外,其具备非常灵活的编辑能力。lmagen 3图片编辑功能包括新增的“绘画特性”,允许用户通过遮罩或无遮罩技术快速添加或移除对象;以及“背景编辑特性”,让用户可以通过简单提示改变图像背景或调整图像的宽高比。
Few-Shot Customization功能允许用户通过仅提供一张或几张图片来定制Imagen 3,以增强对特定产品、对象或风格的控制。这有助于提高图像的准确性和相关性,确保品牌一致性和产品特征的准确呈现,尤其是在个性化产品图像方面。此外,定制化的图像能够更有效地吸引目标受众,提高转化率,同时降低产品的上市时间和生产成本。相关知识
全面盘点:主流AI动态风景生成软件与工具一览,满足你的创意需求
生成式AI持续发力 推动ServiceNow(NOW.US)订阅营收大增23%
ai生成景观设的软件有哪些:好用工具一览
生成式AI技术如何提升花卉市场的客户体验?
四张图表告诉你关于生成式AI的最新洞见
Google的60款开源项目
个人智能化系统 Apple Intelligence 为 iPhone、iPad 和 Mac 引入强大的生成式模型
全面盘点:庭院设计与景观规划AI生成软件推荐指南
ai生成景观的是什么软件:探寻AI景观设计工具
Scaling Law假设是否成立?所谓的AI难道只是镜花水月?从模型的底层构架方面探讨一些关于生成式AI的粗浅认识
网址: Google Cloud中的生成式AI:最新进展一览 https://m.huajiangbk.com/newsview690861.html
上一篇: 农妇最拿手的菜做了30年, 全家 |
下一篇: HMI创意工作坊 |