摘要:今天,和大家分享何凯明教授一个最新的Talk。这个Talk是他在 NeurIPS 2024 的 NewInML Workshop 大会上分享的,主题是:ML Research, via the Lens of ML。凯明通过机器学习的视角,重新审视了机器学习研
今天,和大家分享何凯明教授一个最新的Talk。这个Talk是他在 NeurIPS 2024 的 NewInML Workshop 大会上分享的,主题是:ML Research, via the Lens of ML。凯明通过机器学习的视角,重新审视了机器学习研究的过程,并提出了四个深刻的类比,帮助我们更好地理解机器学习的本质及其研究方向。
Research is SGD in a chaotic landscapeLook for ‘surprise’Future is the Real Test setScalability: Your research vs. Moore’s law原文链接:何恺明 NeurIPS 2024 Talk 分享:从机器学习模型的视角看机器学习研究
何恺明教授将研究过程比作在一个混乱且不确定的环境中进行随机梯度下降。SGD的目标是通过不断调整参数来最小化损失函数,而研究则是通过不断探索和实验来寻找最优解。
嘈杂且不确定:研究过程常常伴随着各种不确定性和噪声,就像SGD在非凸损失函数中寻找全局最小值一样。在研究中,我们无法保证每一步都是朝着最优解前进的。
大与小学习率(lr):大和小的学习率象征着研究中的不同思维方式。大学习率意味着快速探索大胆的想法,而小学习率则反映了细致入微的深入研究。找到适合的平衡能够有效帮助研究者在探索新知识与深化已有理论之间取得最佳效果。
探索与开发:研究不仅仅是对已知领域的深入挖掘,也包括对未知领域的探索。
站在巨人的肩膀上:正如SGD依赖于初始参数,研究既要学习前人的成就,又要敢于挑战传统。
在演讲中,何恺明指出,机器学习模型的目的是在可预见的范围内最大化期望收益,而实际研究的目标是寻找“惊喜”,即那些挑战现有常识、拓展知识边界的新发现。
挑战常识:研究往往需要打破常规思维,提出新的假设和理论。
拓展知识视野:通过发现“惊喜”,研究者能够拓宽自己的视野,发现潜在的新领域。
“惊喜”将成为新的“期望”:在研究中,偶然的发现可能引发新的理论,而这些理论经过反复验证后,可能会成为未来的“期望”。这种循环的关系使得科研工作充满了活力与可能性。
何恺明强调,研究的真正价值在于其对未来的影响。因此,未来可以被视为研究的“测试集”。为了减少研究的“过拟合”,研究者需要坚持“少即是多”的原则,并在真实的场景中验证其成果。
减少“过拟合”:一项研究如果过于依赖历史数据而非未来情境,容易导致过拟合。何恺明在此提醒研究者,需要保持对新环境和新挑战的敏感以及对过拟合的警觉。
坚持“少即是多”:在复杂的研究中,追求简约至关重要。简单而有效的方法往往在实际应用中表现优越,因此在进行机器学习研究时,应时刻关注简化与实用化。
真实场景验证:在真实的“验证”场景中测试研究结果,确保其在实际应用中的有效性。
帮助社区实现下一个SOTA:通过关注未来,研究者可以为社区的发展做出贡献,推动技术的进步。
最后,何恺明讨论了机器学习研究的扩展规律。他指出,随着计算能力的不断提升(如摩尔定律),研究者需要关注其工作的可扩展性,以确保其研究能够跟上技术发展的步伐。
可扩展性:在目前的数据和计算资源日益增长的背景下,如何有效地应对这种扩展是每位研究者都需要面对的挑战。理解和利用好扩展规律将有助于推动解决更复杂的现实问题。
与摩尔定律的竞争:随着研究规模的不断扩大,研究者需要思考如何在可持续的框架下进行研究。从长远的角度看,只有那些符合扩展规律的研究方法,才能在科学的发展中占据一席之地。
未来导向:研究的扩展性不仅关乎当前的应用,更关乎未来的发展潜力。
理解上述类比不仅有助于我们更好地进行研究,也为未来的技术发展指明了方向。希望大家在今后探索未知的道路上,打磨自己的方法论,在未来的研究中寻求更多的惊喜与突破。
看到这里,也顺手转发给关注大模型及人工智能技术的朋友们吧!
► 3 小时从零完全训练一个 26M 的小参数GPT?仅需 2G 显卡即可推理!即是开源项目又是LLM入门教程
► 顶配版OCR工具!支持任何语言、任意表格、图表与文档的文本检测和识别工具
► 迈向OCR-2.0新时代:通过统一的端到端模型,实现文本、数学公式、表格、图表及乐谱等内容的精确处理,同时支持场景和文档风格等
► AI应用案例分享:面向食堂、团餐及自助餐厅菜品视觉结算台方案
来源:码科智能