摘要:Domo AI 推出 v2v 真实模型,可以进行反向操作,将动漫类型的视频转换成真人视频,还可以通过 Prompt 将视频里的对象转成别的真实事物,如将一个圣诞老人转成一只圣诞兔子,功能类似于 Runway 推出的 Act one 功能。
2025年1月份的AI重大资讯,看这篇就够了!
Domo AI 推出 v2v 真实模型,可以进行反向操作,将动漫类型的视频转换成真人视频,还可以通过 Prompt 将视频里的对象转成别的真实事物,如将一个圣诞老人转成一只圣诞兔子,功能类似于 Runway 推出的 Act one 功能。
讯飞星火对其浏览器插件进行升级,增加了多项 AI 能力。集成了讯飞星火 V4.0 底层能力,兼容 Chrome、Edge 等主流浏览器。新增“继续提问”功能,随时深入讨论,获取高质量答案;实现网页全局对照翻译;新增“一键朗读”功能,实现边听边看;支持句子、段落总结。
Hume AI 推出 OCTAVE 的文本与语音引擎,该引擎能够通过简单的文本描述一段 5 秒的语音录音,生成或克隆出逼真的语音和人格特质。不仅能够生成自然的语音,还能精确地模仿说话者的性别、年龄、口音、情绪语调及职业特定的说话风格,能够在毫秒级别内完成语音生成,实现了真正的实时对话,并且还允许用户实时动态地调整生成内容。
南洋理工大学的研究团队发布图像超分辨率(SR)技术,该技术基于扩散反演(Diffusion Inversion),通过充分利用大型预训练扩散模型中的图像先验信息,提升图像的分辨率和清晰度。与现有的超分辨率方法相比,这项技术具有更加灵活高效的采样机制,可以支持从一个到五个任意数量的采样步骤。
清华大学与腾讯 ARC 实验室的研究团队推出 ColorFlow 的新型图像序列上色模型。解决了在黑白图像序列上色的同时,保持角色和物体身份一致性的问题,能够利用上下文信息,通过参考图像池为黑白图像序列准确生成颜色。与以往需要针对每个角色进行微调的技术不同,ColorFlow 通过具备泛化能力的检索增强上色管道,简化了色彩生成的过程。
OpenAI 在第十二天技术直播中正式发布了 o3 模型,在全球著名的编码竞赛平台 Codeforces 中得分是 2727,位于排列榜单第 175 名,超越了 99.99%的人类。在数学竞赛 AIEM2024 中接近满分,在评估人工智能在高级数学推理方面能力的 FrontierMath 中成功率为 25.2%,与之对比,GPT-4 和 Gemini1.5Pro 的成功率不足 2%。
往期AI圈重磅消息: OpenAI 的 12 天直播,终于来到了最终章。
AI 创意工具 Krea AI 宣布在 Krea Editor 推出自定义训练功能,可以在几秒钟内将真实产品添加到任何图像中。从官方的演示视频来看,在实际操作中只需涂抹需要替换的区域,如“涂抹模特脸上的墨镜”,然后选择商品图“VR 眼镜”,AI 就会自动处理,将 VR 眼镜戴到模特脸上。用户还可以继续扩图处理,用同样的方法继续涂抹区域,选择其它商品,AI 就会把商品融合到模特身上。
支付宝宣布推出 AI 创意平台“蚂上有创意”,这是一个面向商务机构的 AI 营销服务。“蚂上有创意”可以为客户提供 AI 快速生成创意素材、营销广告智能分析等服务,还免费开放多项营销图片素材。据介绍,过去一年支付宝将 AI 全面应用于商业开放生态,共接入近 70 个业务场景,累计为生态商家机构生成 8700 万张 AI 素材。
快手旗下 AI 视频生成工具可灵(Kling)发布 1.6 版,主要在物理规律真实感、人物表演能力和语义理解水平三个核心维度提升。①对物理世界的精准演绎:在切西红柿的测试中,可灵1.6版展现出近乎专业厨师的精准操作,无论是刀具与食材的互动,还是切片的力度都非常真实。倒茶、猫咪踩沙发、狗狗奔跑等日常场景中的物理效果也更加真实;②人物表情和动作:从细微的眉头皱起到优雅的芭蕾舞姿,再到中国古典水下舞蹈,可灵1.6版都能准确捕捉人物细微的情感变化和复杂的肢体动作;③语义理解:更强的场景理解能力,无论是“摘下眼镜拥抱小鹿”这样的连续动作,还是“后退举枪”等复杂场景,都能准确理解并生成符合预期的视频内容。
Google 发布新 AI 工具 Whisk,允许用户使用图片作为提示词生成图片。可以上传图片来指定 AI 生成图像的主题、场景和风格,并且可以为这三者分别使用多张图片。如果你手头没有合适的图片,可以点击骰子图标,让谷歌自动填充一些图片作为提示。Whisk 还为每张生成的图片提供了文字提示。如果对结果满意,可以收藏或下载图像,如果想要进一步优化,可以在文本框中添加更多文字,或直接点击图像编辑文字提示。
来源:梦想精通设计