4月10日凌晨,谷歌在官網(wǎng)正式發(fā)布了Gemini1.5Pro,現(xiàn)在可在180多個(gè)國家/地區(qū)使用。
Gemini 1.5 Pro 不僅能夠生成創(chuàng)意文本和代碼,還能理解、總結(jié)上傳的視頻和音頻內(nèi)容,并且支持高達(dá)100萬tokens的上下文。
在Google AI Studio開發(fā)平臺中,用戶可以免費(fèi)試用Gemini 1.5 Pro,并且它支持中文提示。這使得用戶能夠通過簡單的操作,上傳視頻或音頻文件,并獲取內(nèi)容的深度總結(jié)。例如,用戶可以上傳一個(gè)視頻并詢問影片的內(nèi)容,Gemini 1.5 Pro能夠快速解析并提供答案。
Gemini 1.5 Pro還提供了音頻理解功能,能夠快速解析音頻文件并總結(jié)其內(nèi)容。這對于需要處理大量視頻和音頻內(nèi)容的用戶來說,無疑是一個(gè)巨大的幫助,因?yàn)樗梢怨?jié)省大量的時(shí)間。
谷歌還對Gemini API進(jìn)行了性能優(yōu)化,包括系統(tǒng)指令、JSON模式以及函數(shù)調(diào)用優(yōu)化,這些改進(jìn)顯著提升了模型的穩(wěn)定性和輸出能力。系統(tǒng)指令功能允許用戶根據(jù)特定需求控制模型的行為,JSON模式可以幫助開發(fā)者從文本或圖像中提取結(jié)構(gòu)化數(shù)據(jù),而函數(shù)調(diào)用優(yōu)化則支持開發(fā)者實(shí)現(xiàn)更全面的查詢響應(yīng)。
詳情點(diǎn)此查看:
https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html
音頻理解能力:
https://github.com/google-gemini/cookbook/blob/main/quickstarts/Audio.ipynb