欧阳良宜 | 外行视角看AI的发展从工具到未来
人工智能(AI)近年来取得了令人瞩目的进展,尤其是大语言模型(LLM,Large Language Model)的崛起,使其成为科技竞赛的核心领域。然而,对于外行而言,理解AI的发展往往伴随着误解与夸大。本文将从外行的视角分析大语言模型的本质、应用前景、技术瓶
人工智能(AI)近年来取得了令人瞩目的进展,尤其是大语言模型(LLM,Large Language Model)的崛起,使其成为科技竞赛的核心领域。然而,对于外行而言,理解AI的发展往往伴随着误解与夸大。本文将从外行的视角分析大语言模型的本质、应用前景、技术瓶
格隆汇3月27日|阿里巴巴(BABA.US)涨超2%,报134.91美元。消息面上,北京时间周四凌晨,阿里巴巴发布通义千问系列的最新旗舰模型Qwen2.5-Omni。这款端到端多模态模型专为广泛的多模态感知设计,能够处理文本、图像、音频和视频等多种输入,同时能
消息面上,北京时间周四凌晨,阿里巴巴发布通义千问系列的最新旗舰模型Qwen2.5-Omni。这款端到端多模态模型专为广泛的多模态感知设计,能够处理文本、图像、音频和视频等多种输入,同时能够通过生成文本和合成语音提供实时流式响应。模型性能方面,Qwen2.5-O
具身智能与大模型频频被提及,但具身智能 = 机器人 + 大模型吗?本文摘自北京邮电大学人工智能学院副教授陈光(@爱可可-爱生活)的新书《走进具身智能》,作者很明确地表示,大模型虽然是实现具身智能的重要工具,但并不是其全部。当前,包括英伟达、智源、智元等多家机构
R1-Omni能够更清楚地理解视觉和听觉信息如何促进情绪识别,能够明确展示哪些模态信息对特定情绪的判断起到了关键作用。与SFT(传统监督微调)相比,RLVR显著提高了情绪识别任务的性能,在同分布测试集(DFEW和MAFW)上,R1-Omni相较于原始基线模型平
昨天还看到有人拉踩 deepseek v3 的时候说 deepseekv3 缺少多模态能力,除夕 deepseek 就发了 Janus-Pro, 一个7B 的多模态模型,可以进行多模态理解和生成。
DeepSeek深夜再放大招,将其在AI相关基准测试中击败了包括Open AI在内多个统一的多模态大语言模型的7B参数人人可用的视觉多模态模型Janus-Pro-7B开源。据官方介绍JanusFlow引入了一种极简架构,它将一种最先进的生成模型方法相集成。
模态 模态模型 deepseek深夜 2025-01-29 00:10 7
言归正传,今天凌晨风头正盛的Deepseek再次放出“王炸”——多模态模型Janus-Pro发布,并给出了开源部署方法和研究论文,一时间再次抓住了公众眼球。那么这个Janus-Pro(中文译名可以是“吉娜婆”,哈哈)究竟给我们带来哪些惊喜呢?胖胖老师就借助De
这一全模态模型不仅能同时支持文本、图像、音视频全模态理解,还支持文本、音频双模态生成。与此同时,百川还开源了两个评测集,助力国内全模态模型研发生态蓬勃发展。
距离国产大模型做考研数学题“过线”刚过两个月,月之暗面在春节前一周,又扔出了一个分量十足的“王炸”——这一次,他们拿出了能媲美Open AI 满血版 o1(Full Version,而非 preview)的K1.5多模态模型,在文字和视觉两大领域实现了“超英赶
春节前最后一周,能媲美 Open AI 满血版 o1(Full Version,而非 preview)的模型终于出现了!刚刚,月之暗面公布了他们的 Kimi k 系列模型最新版本 ——k1.5 多模态思考模型。新模型在数学、代码、多模态推理能力等方面全面对标
随着人工智能(AI)技术的快速发展,一个长期存在的挑战愈发凸显:如何在模型规模、效率和性能之间找到平衡。传统上,模型越大,性能往往越强,但这也意味着对计算资源的要求更高,使得AI技术在广泛应用时面临障碍,尤其对于缺乏高端计算设备的组织和个人来说更是如此。而多模
在 2024 年的 NeurIPS 会议上,Ilya Sutskever 提出了一系列关于人工智能发展的挑战性观点,尤其集中于 Scaling Law 的观点:「现有的预训练方法将会结束」,这不仅是一次技术的自然演进,也可能标志着对当前「大力出奇迹」方法的根本
在 2024 年的 NeurIPS 会议上,Ilya Sutskever 提出了一系列关于人工智能发展的挑战性观点,尤其集中于 Scaling Law 的观点:「现有的预训练方法将会结束」,这不仅是一次技术的自然演进,也可能标志着对当前「大力出奇迹」方法的根本
近日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。
人类的沟通交流充满了多模态的信息。为了与他人进行有效沟通,我们既使用言语语言,也使用身体语言,比如手势、面部表情、身体姿势和情绪表达。因此,为了理解和生成人类动作,理解这些多模态的行为至关重要,而且这一研究方向最近受到的关注也越来越多。
人类的沟通交流充满了多模态的信息。为了与他人进行有效沟通,我们既使用言语语言,也使用身体语言,比如手势、面部表情、身体姿势和情绪表达。因此,为了理解和生成人类动作,理解这些多模态的行为至关重要,而且这一研究方向最近受到的关注也越来越多。
OpenAI 在 "ship-mas" 系列活动中发布了 Sora Turbo 视频生成 AI,支持生成20秒1080p 视频,用户可通过文本、图片或视频进行创作,具有多种风格和剪辑功能。该平台强调创意表达与内容安全,用户可浏览其他创作者的视频。
法国AI企业Mistral AI周一(11/18)发布了全新的多模态模型Pixtral Large,以及采用Pixtral Large的新一代聊天机器人Le Chat,它能理解文件与图像,得以生成形象,还能替用户搜索网络。