摘要:OpenAI 在 "ship-mas" 系列活动中发布了 Sora Turbo 视频生成 AI,支持生成20秒1080p 视频,用户可通过文本、图片或视频进行创作,具有多种风格和剪辑功能。该平台强调创意表达与内容安全,用户可浏览其他创作者的视频。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:https://top.aibase.com/
1、OpenAI正式上线Sora,ChatGPT Pro用户可无限生成、最长20秒
OpenAI 在 "ship-mas" 系列活动中发布了 Sora Turbo 视频生成 AI,支持生成20秒1080p 视频,用户可通过文本、图片或视频进行创作,具有多种风格和剪辑功能。该平台强调创意表达与内容安全,用户可浏览其他创作者的视频。
【AiBase 提要:】
🌟 Sora Turbo 支持生成最高1080p 分辨率的20秒视频。
🎨 用户可以使用多种工具进行创意视频制作。
🔒 所有生成视频均附加水印和 C2PA 元数据确保安全。
详情链接:https://sora.com/
2、智谱AI上线免费多模态模型GLM-4V-Flash:图像处理精确度提升
北京智谱华章科技有限公司推出了其首个免费多模态API——GLM-4V-Flash,旨在提升图像处理的精确度,降低开发者的使用门槛。该模型支持多种语言,并具备多项高级图像处理功能,如图像描述生成和视觉问答等,能够为特定行业提供精准解决方案。
【AiBase提要:】
🌐 GLM-4V-Flash是首个免费多模态API,支持26种语言,降低开发门槛。
📊 具备图像描述生成、分类、视觉推理等高级功能,适用于多个行业。
🚀 该模型已在社交媒体、教育、美容等领域展现出显著效益。
详情链接:https://www.bigmodel.cn/console/trialcenter
3、腾讯云AI代码助手上线,基于混元大模型打造
腾讯云推出的AI代码助手旨在通过预测和提供代码建议来帮助程序员提升开发效率。该工具利用混元大模型,能够深入理解代码上下文,提供精准的代码补全建议,超越传统的关键词匹配方式。它不仅能适应程序员的编码风格,还在多个关键场景中展现了强大的编码辅助能力,如生成正则表达式、快速生成前端页面以及清晰解读复杂代码。
【AiBase提要:】
⚙️ AI代码助手通过深入理解代码上下文,提供精准的代码补全建议,显著提升开发效率。
📈 该助手能够学习程序员的编码风格,提供定制化的代码补全,贴合个人习惯。
🔍 通过混元大模型,AI代码助手在多个场景中展现强大能力,包括生成正则表达式和快速适配新接口规范。
4、可灵AI API V1.5模型新增标准std模式、V1.0模型新增运动笔刷
北京快手科技有限公司近日推出了可灵AI的API V1.5模型标准模式和V1.0模型的“运动笔刷”功能。这些更新旨在提升用户体验,增强艺术创作的灵活性与效率。V1.5模型以其卓越的效果和快速的处理速度为用户提供了高性价比的选择,而V1.0模型的新功能则允许用户为图片中的人物或物体指定运动轨迹,带来了更精准的运动控制和生动的表现。
【AiBase提要:】
✨ V1.5模型标准模式提供了出色的效果和快速的处理速度,提升用户体验。
🖌️ V1.0模型新增的“运动笔刷”功能允许用户指定运动轨迹,实现精准控制。
🌟 新功能丰富了可灵AI的功能,为视觉艺术创作带来了创新的可能性。
5、书生·万象多模态大模型InternVL2.5开源 性能媲美GPT-4o
上海 AI 实验室推出的书生·万象InternVL2.5模型在多模态理解基准上取得了超过70%的准确率,成为首个开源模型与商业模型如GPT-4o和Claude-3.5-Sonnet相媲美。该模型通过链式思考推理技术提升了性能,并在多个领域展现了强大的测试时间可扩展性及多学科推理能力。
【AiBase提要:】
🚀 InternVL2.5模型在多模态理解基准上达到了超过70%的准确率,表现出色。
📈 通过链式思考推理技术,该模型实现了3.7个百分点的性能提升,展现了强大的可扩展性。
🌐 开源特性使得研究人员和开发者能够自由访问和使用该模型,推动多模态AI技术的发展。
详情链接:https://www.modelscope.cn/collections/InternVL-25-fbde6e47302942
6、Swift Ventures发布AI公司指数 明确人工智能投资标准
Swift Ventures推出了一项新的人工智能公司指数,旨在帮助投资者识别真正进行AI技术投资的上市公司。该指数分析了数千份数据,发现尽管公司在财报中频繁提及AI,实际大规模投资的公司却寥寥无几。当前追踪的90家公司在AI研究和人才密度方面表现突出,年增长率远超市场平均水平。
【AiBase提要:】
📊 该指数追踪约90家公司,依据AI研究投资、人才密度和AI收入进行评分。
💡 投资AI研究的公司,其平均毛利润是未投资公司的两倍,显示出研究与盈利能力的正相关。
🚀 一些低调公司在AI领域表现出色,年增长率超过50%,表明AI转型已超越大技术公司。
7、量子计算惊天一跃!谷歌Willow芯片5分钟搞定138亿年计算,OpenAI都看傻了
谷歌的Willow量子芯片在量子计算领域取得了划时代的突破,成功将计算任务从传统计算机需要的10^25年缩短至仅5分钟,展示了量子技术的巨大潜力。通过精细的工程设计,Willow在增加量子比特数量的同时,显著降低了计算误差,推动了量子计算的进步。
【AiBase提要:】
⚡ Willow芯片在量子计算中实现了低于阈值的误差控制,错误率显著降低。
⏱️ 计算速度惊人,10^25年的任务仅需5分钟,展现了量子计算的巨大潜力。
🔒 Willow的进步引发了对加密安全的担忧,尤其是对比特币等加密货币的潜在威胁。
8、宅男福音!VR角色扮演AI来了,南洋理工“造人”新突破,唱跳互动还能陪你聊!
新加坡南洋理工大学的研究团队推出了名为SOLAMI的AI技术,能够创造出活灵活现的3D虚拟角色,支持实时互动、语音理解和动作响应。该技术利用深度学习,将用户的语音和动作转化为虚拟角色可理解的语言,提供自然流畅的互动体验。SOLAMI还配备VR界面,用户可通过VR设备与虚拟角色进行面对面交流。
【AiBase提要:】
🎮 SOLAMI是一个端到端的社会视觉-语言-动作建模框架,实现用户与虚拟角色的自然互动。
📊 SynMSI合成数据集为训练提供了丰富的对话和动作数据,解决了数据缺乏的问题。
🌐 SOLAMI的沉浸式VR界面让用户能够身临其境地与虚拟角色互动,提升了社交体验。
详情链接:https://solami-ai.github.io/
9、X 正式表态,全新AI图像生成器Aurora将在本周内向所有用户推出
近日,社交网络 X(前身为推特)推出了新的图像生成器Aurora,经过数十亿个样本训练,具备高质量图像生成能力。虽然最初被撤下,但现已重新上线,计划在一周内向所有用户推广。Aurora能够精准渲染真实世界的视觉细节,尽管在测试中发现其生成的图像偶尔存在不自然的融合和细节缺失问题。
【AiBase提要:】
✨ Aurora是由xAI开发的新图像生成器,具备照片级渲染能力。
🌍 目前已在部分国家上线,预计一周内向所有用户推广。
🔍 测试发现Aurora生成的图像有时存在不自然的融合和人物细节缺失问题。
详情链接:https://x.ai/blog/grok-image-generation-release
10、Reddit 推出 AI 问答功能,但用户却不买账!
Reddit最近推出了名为“Reddit Answers”的新功能,旨在通过AI驱动的问答提升用户搜索体验。然而,尽管该功能可以基于平台内的帖子和评论提供答案,用户的反馈却并不积极,许多人认为改善搜索功能的优先级更高。该功能目前仅在美国的有限用户中测试,且尚未在Android平台上推出。
【AiBase提要:】
🔍 新功能“Reddit Answers”开始在美国有限用户中测试,旨在提升搜索体验。
🤖 该功能利用Reddit平台内的帖子和评论,提供AI驱动的问答服务。
😟 用户反响平平,许多人对搜索功能改善的优先级表示不满。
11、特斯拉陶琳:将坚持自动驾驶纯视觉路线
特斯拉副总裁陶琳重申了公司在自动驾驶技术上坚持纯视觉路线的决心。她强调,只有通过摄像头和视觉神经网络的结合,才能更好地模拟人类的驾驶习惯,从而实现更安全、更智能的完全自动驾驶。特斯拉的AI4芯片已在所有在售车型中配备,算力提升显著,标志着公司在硬件上已为完全自动驾驶做好准备。
【AiBase提要:】
🔍 特斯拉坚持通过纯视觉技术实现完全自动驾驶,认为这是最安全、最智能的方案。
💡 自动驾驶技术采用端到端大模型,已实现从光子输入到决策输出的全过程。
📈 所有在售车型均配备最新AI4芯片,算力提升5倍,为实现完全自动驾驶奠定基础。
12、惊人复苏!Stability AI新管理层六个月实现无债务、三位数业务增长
Stability AI在新任首席执行官普雷姆・阿卡拉朱的带领下,经过六个月的努力,成功实现了业务的三位数增长,并清除了所有债务。阿卡拉朱强调公司资产负债表的健康状态,并专注于API和许可服务的快速发展。新管理团队的形成吸引了曾经离开的投资者回归,标志着公司前景的向好。
【AiBase提要:】
💼 Stability AI新CEO普雷姆・阿卡拉朱表示,公司业务已实现三位数增长,且无债务。
📈 新管理团队在六个月内完成复苏,吸引曾离开的投资者回归。
🎥 知名导演詹姆斯・卡梅隆已加入Stability AI董事会,显示行业信心回升。
13、智源开源无标注视频学习的3D 生成模型 See3D
北京智源人工智能研究院推出了 See3D 模型,能够利用无标注互联网视频进行3D 生成。该模型通过视觉条件技术,生成相机方向可控且何一致的多视角图像,避免传统相机标注的需求,具有良好的数据扩展性和适用性。See3D 已开源,支持多种3D 创作应用。
【AiBase 提要:】
🌟 See3D 利用大规模无标注视频进行3D 学习,降低数据采集成本。
🎥 模型支持从文本、单视图到3D 生成,功能多样。
🔍 开源模型和数据集促进3研究社区关注无相机标注数据。
项目地址: https://vision.baai.ac.cn/see3d
来源:站长之家一点号