摘要:来自罗切斯特大学的Robert Novy-Marx和宾夕法尼亚州立大学的Mihail Velikov,共同创作论文“AI-Powered (finance) Scholarship”,该论文系统介绍了使用大语言模型(LLMs)自动生成金融学术论文的过程,展示了
来自罗切斯特大学的Robert Novy-Marx和宾夕法尼亚州立大学的Mihail Velikov,共同创作论文“AI-Powered (finance) Scholarship”,该论文系统介绍了使用大语言模型(LLMs)自动生成金融学术论文的过程,展示了人工智能在提高金融研究效率方面的潜力,同时也预警了滥用HARKing(Hypothesizing After the Results are Known,即在已知结果后提出假设)的风险。
作者简介
Robert Novy-Marx
罗切斯特大学
Mihail Velikov
宾夕法尼亚州立大学
摘要
This paper describes a process for automatically generating academic finance papers using large language models (LLMs). It demonstrates the process’ efficacy by producing hundreds of complete papers on stock return predictability, a topic particularly well-suited for our illustration. We first mine over 30,000 potential stock return predictor signals from accounting data, and apply the Novy-Marx and Velikov (2024) “Assaying Anomalies” protocol to generate standardized “template reports” for 96 signals that pass the protocol’s rigorous criteria. Each report details a signal’s performance predicting stock returns using a wide array of tests and benchmarks it to more than 200 other known anomalies. Finally, we use state-of-the-art LLMs to generate three distinct complete versions of academic papers for each signal. The different versions include creative names for the signals, contain custom introductions providing different theoretical justifications for the observed predictability patterns, and incorporate citations to existing (and, on occasion, imagined) literature supporting their respective claims. This experiment illustrates AI’s potential for enhancing financial research efficiency, but also serves as a cautionary tale, illustrating how it can be abused to industrialize HARKing (Hypothesizing After Results are Known).
本文介绍了一种使用大语言模型(LLMs)自动生成金融学术论文的过程。通过生成数百篇关于股票收益可预测性的完整论文,证明了该过程的有效性,这一主题特别适合用于我们的示例。我们首先从会计数据中挖掘出超过30,000个潜在的股票收益预测信号,并应用Novy-Marx和Velikov(2024)的 “异象检测” 协议,为通过该协议严格标准的 96 个信号生成标准化的 “模板报告”。每份报告都详细描述了一个信号在预测股票收益方面的表现,使用了大量的测试,并将其与 200 多个其他已知异象进行了对比。最后,我们使用最先进的大语言模型为每个信号生成三个不同版本的完整学术论文。不同版本包括信号的创造性名称、提供对观察到的可预测性模式不同理论解释的自定义引言,以及引用现有(有时是虚构的)文献来支持各自的观点。这个实验说明了人工智能在提高金融研究效率方面的潜力,但也敲响了警钟,展示了它如何被滥用于将 “结果已知后假设”(HARKing)产业化。
Part1
介绍
考虑这样一个场景:一位年轻教授提交了一篇论文,记录了一个新的收益预测因子,其中包括精确制定的假设和稳健的实证证据。论文写得很好,分析似乎正确,假设准确地预测了数据中观察到的模式。如果这些假设是人工智能系统在看到结果后生成的,这有关系吗?这个问题触及了我们如何理解科学发现和假设形成的核心,以及我们的观点如何受到大语言模型(LLMs)引入的考验。
在现代学术界,我们在对待假设形成方面面临着内在的矛盾。我们常常对事后理论化持怀疑态度,将其称为 “结果已知后假设”(HARKing)(Kerr, 1998)。主流学术标准坚持认为,研究人员应该首先发展他们的理论和预测,然后用数据进行检验。然而,历史上很少有重大科学发现遵循这一标准。传说在1666年,牛顿观察到一个苹果从树上掉落。这一观察使他假设万有引力的存在,形成了可检验的预测,不仅解释了苹果掉落,还解释了行星运动、潮汐和无数其他现象。牛顿是在观察到这些现象之后才发展出他的假设的。事后假设生成一直是,并且将永远是,科学发现的关键部分。
这种理想化的科学方法与实际发现之间的矛盾在实证资产定价中尤为明显。Chen, Lopez-Lira, & Zimmermann (2024)的最新研究表明,数据挖掘和传统同行评审之间存在惊人的相似之处,发现两者都达到了相似的预测率,只有大约 50% 的预测能力在样本外持续存在。他们发现同行评审系统地将错误定价或运气错误标记为风险,这与一种观点一致,即市场异象相关的文献往往是事后发展理论解释以适应观察到的实证模式,而不是测试预先指定的经济机制。事实上,同行评审过程强烈鼓励这种做法。审稿人和编辑经常要求那些发现了有趣结果的论文作者写一个“经济故事”,即使其他作者可能更适合解释论文中记录结果背后的经济学原理。
强大的大语言模型的出现将这种矛盾从科学实践问题转变为技术能力问题。van Inwegen et al. (2023) 表明,算法写作辅助可以在不损害信号价值的情况下改善结果,而Horton (2023)探讨了大语言模型如何作为 “智人模拟”——“经济人” 的计算类似物发挥作用。这些进展表明,人工智能系统可以有意义地参与经济推理和预测。在此基础上,Manning et al. (2024)提出了在计算机上自动生成和测试科学假设的方法,尽管指出大语言模型可能难以进行精确的数量估计。Si et al. (2024) 表明,大语言模型可以生成新颖的研究想法,同时保持高可行性和科学价值标准。Bail (2024), Korinek (2023),Liang et al. (2024) 记录了大语言模型在研究领域不断扩展的能力。最值得注意的是,Lu et al. (2024)开发了一个“人工智能科学家” 系统,能够独立生成研究想法、进行实验并生成超过典型接受阈值的论文。
利用这些大语言模型不断发展的能力,本文作者展示了一个完整的金融学术研究自动化生产流程,从假设生成到完整论文创作。
以股票收益可预测性为测试基础,我们首先挖掘会计数据以识别超过 30,000 个潜在预测因子。随后,我们应用Novy-Marx 和 Velikov (2024)的“异象检测”协议,确定 96 个通过严格统计标准的信号。然后,使用 GPT3.5 - turbo,我们系统地为这些通过实证发现的 “收益预测因子” 生成描述性名称,确保论文之间术语一致且有意义。使用 Claude 3.5 - Sonnet 和 “异象检测” 协议生成的 “模板报告”,我们用机器为每个预测因子生成完整的学术论文。对于每个信号,我们创建三个不同版本的完整论文,包括摘要、引言、数据、结果和结论部分。对于每个信号,三个不同版本的论文包含不同的假设和经济学 “解释”,同时与实证结果保持一致。
这288篇完全通过编程生成的论文包含遵循标准学术惯例的引言,发展将记录的收益模式与既定经济机制联系起来的理论论点,并引用现有(至少目前有时是虚构的)文献。每篇论文都包括对数据和方法的全面描述、对结果的详细讨论以及情境化的结论。所有这些论文都可以在获取。虽然论文及其理论框架是自动生成的,但需要注意的是,所有实证分析和统计验证都是使用学术文献中开发的严格方法进行的,确保了基础发现的可靠性(如果不是解释的话)。
人工智能驱动的这种规模化和自动化研究流程对学术金融界的知识生产完整性提出了根本性的担忧。
该行业设有制度保障措施,以防止数据挖掘和事后理论化的潜在滥用。也许最重要的是,该行业(至少从长期来看)奖励通过持续贡献有影响力的作品而建立的学术声誉,而不仅仅是出版物的数量。那些持续发表低质量论文的研究人员,即使数量众多,也很少获得该领域的最高荣誉或最负盛名的职位。
同行评审过程提供了额外的筛选,审稿人和编辑不仅审查统计显著性,还审查理论基础、方法严谨性以及对文献的更广泛贡献(尽管如前所述,无论好坏,这个过程在实践中可能鼓励更多的HARKing)。论文发表前,作者往往在研究研讨会和会议上展示工作论文,这一做法为其他学者详细询问其理论机制和研究设计选择创造了机会。
最近对可复制性的日益重视,包括公开分享数据和代码的要求,增加了另一层质量控制。在一个由人工智能驱动的世界里,这一要求尤为重要。
这些制度保障措施在维持研究标准方面总体上对该行业起到了很好的作用。然而,能够大规模生成(多个)合理理论框架的复杂人工智能系统的出现,对这些传统机制提出了新的挑战。Chen and Dim (2024)展示了严格的数据挖掘如何能够产生与顶级金融期刊相当的预测信号。当人工智能系统能够迅速为挖掘出的实证结果生成数百个看似合理的理论解释时,我们如何通过现有的制度维持有意义的质量控制,并避免使我们传统的同行评审过程不堪重负(这个过程已经因该行业的增长超过了该行业高质量产出渠道数量的增长而受到压力)?
实际挑战加剧了对学术诚信的这些担忧。我们的每篇人工智能生成的论文自然都包括对文献的引用,以支持其假设发展。当扩展到数百或数千篇论文时,这种自动引文生成可能会人为地夸大现有作品的引用次数,包括我们自己的作品。人工智能能够轻松生成引用先前文献的令人信服的理论框架,这可能会无意中创造一种新的学术套利形式 —— 研究人员可以通过自动论文生成来提高他们的引用次数。实际上很容易想象这样一种情景:一个文献的整个虚构子领域出现,其中所有引用都来自人工智能生成的论文到其他相互引用的人工智能生成的论文。实际上很难想象有一项任务比实施大规模版本的 “索卡尔骗局” 更适合大语言模型当前的能力。
我们的论文对这一新兴文献做出了几个贡献。首先,我们具体展示了大语言模型如何用于大规模自动生成学术金融论文。其次,我们强调了通过人工智能驱动的论文生成系统操纵传统学术指标的可能性。最后,我们主张制定对这些技术能力具有鲁棒性(Robustness)的新研究评估标准。
实证资产定价领域为展示这些问题提供了一个理想的实验室,因为我们通过对会计比率的全面数据挖掘确定了稳健的收益预测因子,并使用人工智能生成可检验的假设来解释这些发现。结果挑战了我们对在人工智能时代科学假设是(或应该是)如何产生和验证的理解。虽然我们在金融领域展示了这种能力,但其影响远远超出了金融领域:任何研究人员开发理论框架来解释实证模式的领域 —— 从生物学到物理学再到社会科学 —— 都可能被类似的人工智能驱动的假设生成方法所改变。正如Lu et al. (2024) 在他们开发的 “人工智能科学家” 系统中所展示的那样,这些能力正在科学领域迅速普及,这表明我们的发现可能预示着整个科学领域理论框架发展的更广泛转变。
Part2
方法论
本节概述了用于识别稳健的横截面收益预测因子,并随后通过人工智能驱动的方法大规模生成可供发表的研究成果的程序。
2.1 数据驱动的信号构建与筛选
我们识别潜在收益预测因子的方法遵循了近期关于因子发现和横截面资产定价文献中建立的广泛框架。我们首先从 COMPUSTAT 收集一组全面的公司层面信号候选集。这个初始数据集包含31,460个潜在预测因子,每个预测因子由会计变量及其时间差异组合而成。这些信号的构建旨在涵盖广泛的公司特征,确保丰富多样的搜索空间。
然后,我们实施一系列数据质量和充分性筛选来优化候选集。首先,我们消除冗余度量,即多个基础会计项目的组合产生基本相同的指标,将范围缩小到 29,315 个独特信号。其次,我们施加最小广度要求,仅保留那些在每个横截面中至少有 30 只股票代表的信号,确保生成的投资组合具有足够的分散性。这一标准将集合减少到 25,852 个信号。
接下来,我们将样本期限制为截至2023年12月可用的信号,并要求至少360个月的历史数据,以实现稳健的统计推断,在时间限制后留下 19,834 个信号,在实施样本区间长度要求后留下17,074个信号。
2.2 统计验证与稳健性检验
我们对剩余信号进行一系列越来越严格的验证测试,旨在识别那些在股票收益横截面中产生具有经济意义和统计可靠性模式的信号。
首先,我们通过将股票排序为等权重十分位投资组合来评估每个候选信号的预测能力。在 17,074 个候选信号中,7,102 个(约 41.6%)在 5% 的水平上产生了统计显著的收益价差。进一步缩小范围,我们考虑等权重五分位投资组合;在这种更严格的排序方法下,只有 1,249 个信号(7.3%)仍然显著。
然后,我们通过使用纽约证券交易所(NYSE)断点进行五分位构建来实施更严格的投资组合构建标准,这有助于减轻与公司规模相关的潜在偏差并提高横截面可比性。在这些条件下,808 个信号(4.7%)使用等权重投资组合产生显著的收益价差,640 个信号(3.7%)在使用价值权重投资组合时保持显著性,这进一步降低了对小公司效应的敏感性。
为了考虑已知的系统风险,我们接下来使用Fama和 French (2018)的六因子模型调整每个信号的收益。在控制了这些既定风险因素后,只有 183 个信号(1.1%)仍然具有统计显著性,这表明在标准因子基准之外具有真正的增量预测能力。
最后,我们将剩余的 183 个信号提交给Novy-Marx和 Velikov (2024)的 “异象检测” 协议。这种最先进的方法严格地将每个候选预测因子与Chen和Zimmermann (2022)发表的广泛的 “异象动物园” 进行基准对比,为衡量其相对表现提供了一个透明和标准化的基础。该协议自动为每个信号生成详细的 PDF “模板报告”,包括全面的统计评估和稳健性检查。在审查这些结果并过滤掉那些相对于密切相关异象未能表现出稳健性能的信号后,我们只剩下 96 个信号(0.6%)通过了所有层级的验证。这些高质量信号和 “异象检测” 协议的相关 PDF 输出构成了大规模生成全长学术论文的基础。
2.3 人工智能驱动的论文生成流程
该方法的最后阶段利用最先进的大语言模型(LLMs)和自动化文本处理脚本来为 96 个经验证的收益预测因子中的每一个生成完整的学术手稿,从 “异象检测” 协议的 PDF “模板报告” 开始。
我们首先应用一个人工智能驱动的命名系统为每个经验证的信号分配一个描述性、学术上可信的名称。使用 GPT - 3.5 - turbo,我们生成整合了 COMPUSTAT 变量名称和首字母缩写的信号标识符,形成一个信息丰富、非通用的标签。这一步骤确保每个信号在文献中易于解释和区分,即使我们在数十个收益预测因子上扩展论文生产。
接下来,我们使用更高级的大语言模型(Claude 3.5 - Sonnet)生成每篇论文的核心文本内容。引言部分约 1100 字,分为四个部分,以确保平衡、学术上连贯的叙述:
动机(200 字):在更广泛的资产定价文献背景下阐述研究问题,讨论市场效率、横截面可预测性和因子研究的最新发展。假设发展(300 字):提出证明信号预测能力的经济机制,引用相关理论和实证研究以保持学术语气,并将新因子置于背景中。结果总结(300 字):呈现关键实证发现,突出统计显著性、稳健性检查以及与既定异象的比较。贡献(300 字):将提出的信号与 3 - 4 篇密切相关的研究联系起来,阐明新证据如何增强我们对系统收益驱动因素的理解,并为文献中的持续辩论做出贡献。所有生成的文本都遵循正式的学术写作风格并使用主动语态。它仔细区分相关性与因果关系,避免无端主张,并确保适当使用时态以反映既定知识与新发现。引用使用 LaTeX 格式的参考文献嵌入,所有写作惯例都与领先金融期刊的规范一致。
每篇手稿的其他添加部分,包括数据和结论部分,也是根据类似结构的提示生成的。
最后的组装依赖于自定义脚本来将生成的内容合并到标准化的 LaTeX 模板中。我们通过编程将人工智能生成的部分插入到手稿的适当组件中,保持一致的文档结构,维护学术格式标准和内部一致性。
我们为参考文献维护专门的、特定信号的.bib 文件,将新引入的引用合并到基本参考文献中。这一步骤确保每篇手稿都有正确的引用,并且支持文献始终如一地整合到文本中。
最终文档使用多遍 LaTeX 构建过程进行编译,以确保正确的格式、稳定的引用和专业的外观。自动化清理程序删除多余的辅助文件并简化文件管理。最终产品是一个完全成型、具有学术风格的 PDF,适合提交给期刊。这个完全集成的流程 —— 包括数据驱动的预测因子识别、严格的统计验证、基于人工智能的内容创建和自动化文档准备 —— 展示了一种可扩展的生成和传播学术金融研究论文的方法。
Part3
结果
3.1 人工智能驱动研究的规模与效率
自动化流程成功生成了96篇完整学术论文的三个版本(共288篇),每篇论文都记录了一个新的收益预测因子。下图提供了一篇生成论文的示例。
下表(原文附录 B 中的表 2)记录了信号和生成的论文名称。这个过程效率极高 —— 虽然数据挖掘、验证和从 “异象检测” 协议生成 PDF “模板报告” 需要大约一天的计算时间,但最终论文生成只需几分钟。与传统研究论文开发相比,这是一个巨大的加速。
人工智能生成的论文有几个显著特点。首先,信号名称和缩写具有描述性并展示了创造性的命名惯例。例如,其中一个信号是流动资产(COMPUSTAT 项目 ACT)与 EBITDA(COMPUSTAT 项目 EBITDA)的比率。GPT 3.5 - Turbo 为这个信号选择的名称是 “运营流动性边际”。同样,已缴税款(TXPD)与营业收入(AO)被称为 “税收效率”。提示中建议的命名算法试图捕捉会计变量所代表的经济关系,同时避免使用 “比率” 或 “差异” 等通用术语。
其次,生成的引言与学术论文有显著的相似之处。Claude 始终如一地:
确定将信号与收益联系起来的看似合理的经济机制。通过突出信号表现特别好的测试,熟练地总结实证结果。通过(大多)适当的引用将发现与现有文献整合。提出与实证结果一致的可检验假设。在更广泛的文献中定位每项研究的贡献。第三,数据部分对信号构建提供了清晰、技术上准确的描述。这些部分成功地将 COMPUSTAT 变量代码转换为有意义的经济数量,同时保持对测量过程的精确记录。
最后,结论通过转述摘要有效地综合了研究结果。
3.3 进一步的内容评估
我们目前正在从多个维度对人工智能生成的内容质量进行系统评估。首先,我们计划通过将生成论文中的所有引用与学术数据库进行交叉引用,检查引用的准确性,以识别虚构的参考文献。初步分析表明,虽然对顶级金融期刊中基础论文的大多数引用是准确的,但大语言模型在试图引用更具体或近期的作品时偶尔会生成虚构的参考文献。我们正在努力量化引用虚构的比率,并分析这些虚构情况何时以及如何发生的模式。
其次,我们正在通过几个可量化的指标评估生成的假设与实证结果之间的一致性。对于每篇论文,我们将手动提取引言中陈述的主要假设,并将其与 “异象检测” 协议中的关键统计发现进行比较。例如,如果一个假设预测在小公司或市场低迷期间有更强的影响,我们将验证这些特定的横截面或时间序列模式是否确实出现在数据中。我们还将跟踪大语言模型在描述发现时是否正确纳入了主要投资组合排序和因子模型结果的幅度和统计显著性。此外,我们将检查关键的分析选择,如投资组合构建方法和控制变量,是否在每篇论文的引言、方法和结果部分中始终如一地引用。我们也在考虑通过金融教授的专家评估来补充这一分析,以判断大语言模型提出的理论机制是否为记录的收益模式提供了经济上合理的解释。
Part4
讨论
我们对人工智能驱动的学术论文生成的演示对金融研究的未来具有广泛的影响,并引发了关于研究诚信、验证以及理论在实证金融中的作用的重要问题。
我们围绕三个关键主题组织我们的讨论:方法学影响、研究诚信面临的挑战和未来方向。
4.1 方法学影响与研究生产
96篇完整学术论文的成功生成既展示了金融领域自动化研究生产的潜力,也揭示了其风险。首先,我们的结果表明,人工智能现在能够以前所未有的规模开发假设。这种能力从根本上改变了我们对待实证发现与假设发展之间关系的方式。虽然传统研究通常从假设发展开始,然后进行实证测试,但人工智能使实证发现与理论论证之间能够快速迭代。
其次,这种自动化方法可能通过降低进入门槛使研究生产民主化。然而,它同时引发了对研究质量和验证的担忧。快速生成和测试多个假设的能力可能加速市场低效性的发现,但随着这些发现的更广泛传播,也可能通过增加交易活动更快地消除它们。
4.2 研究诚信面临的挑战
人工智能融入研究生产对维护研究诚信提出了几个关键挑战。最显著的是,我们的流程体现了 “结果已知后假设”(HARKing)产业化的风险。虽然个别事后推理的情况可能难以察觉,甚至可能反映有效的科学实践,但通过自动化流程系统地生成数百篇论文从根本上挑战了传统的理论贡献概念。这种风险因计算能力的最新进展和机器可读金融数据的日益可用性而急剧放大,这使研究人员能够几乎即时测试数百万个潜在预测因子。当与自动假设生成相结合时,这些技术能力可能使实证资产定价文献中已经记录的数据挖掘和 p 值操纵(p - hacking)的范围呈指数级增长。
虽然传统的 p 值操纵可能涉及研究人员有意识地选择有利的设定,但人工智能系统现在可以系统地探索和合理化大量潜在关系,为任何统计显著的模式生成看似合理的理论解释。
生成与现有文献无缝整合的令人信服的理论框架创造了新的潜在学术套利形式。我们的过程自然会生成对现有文献以及偶尔虚构文献的引用。当扩展到数百或数千篇论文时,这种自动引文生成可能会人为地夸大引用次数,并创建看似合法但缺乏实质性理论基础的引文网络。鉴于大语言模型的易用性和学术界强烈的出版激励,很可能一些研究人员已经在利用这些能力来提高他们的引用次数和出版记录。随着语言模型的复杂性使这种人为生成的内容越来越难以检测,这种担忧尤为严重。
此外,人工智能生成的论文洪流可能会使传统的同行评审过程不堪重负。即使论文包含统计显著的发现和看似合理的理论解释,确定真正的科学贡献也变得越来越具有挑战性。这表明在人工智能时代,我们需要新的研究贡献评估标准,可能更多地关注新颖性和实际相关性,而不仅仅是统计显著性和理论合理性。
4.3 提示工程的作用
人工智能生成的研究内容的质量在很大程度上依赖于提示工程(Prompt)——为语言模型设计有效指令的艺术和科学。
我们的经验表明,对提示的微小修改可以产生截然不同的叙述、理论依据和学术严谨程度。精心设计的提示对于保持一致的学术写作标准、确保适当的引用实践、发展逻辑结构的假设以及避免投机性或未经证实的主张至关重要。通过改进这些提示 —— 纳入更强的引用相关性指南、在假设构建中增加怀疑态度以及明确指示保持理论克制 —— 我们可以减轻与 “结果已知后假设” 和虚构内容相关的一些风险。因此,提示工程代表了一种必须与大语言模型技术同步发展的关键技能集,以实现更可靠和严谨的研究输出。
4.4 不断发展的格局中的一步
这项研究是对人工智能在大规模生产学术金融研究方面能力的早期探索。这里展示的工具和方法还处于起步阶段,我们预计未来几年会有重大进展。正如过去十年见证了计算金融的突破一样,我们预计人工智能驱动的研究工具将迅速发展。
当前的局限性 —— 如引用虚构、理论框架模糊和对既定叙述的机械复制 —— 可能随着大语言模型变得更具上下文感知和基于证据而变得容易解决。未来的系统可能会纳入自动事实验证机制、动态引文验证、集成复制能力和自我改进的研究验证。随着这些技术的成熟,人类生成和人工智能辅助研究之间的界限可能会变得越来越模糊,这就需要新的框架来理解和评估学术贡献。
4.5 未来方向与建议
展望未来,我们确定了几个关键的发展领域,这些领域有助于在人工智能支持的环境中维护研究诚信。首要任务应该是开发增强的验证系统。我们需要能够验证引用、确保参考文献准确性和验证理论框架的自动化工具。这些系统应该能够检测循环推理、冗余理论和虚构引用。
学术界必须为人工智能辅助研究建立新的质量控制机制。研究自动化的未来迭代应该纳入内置的质量控制,包括自动检查理论一致性、检测重叠或冗余假设、验证引文网络以及与复制数据库集成。这些机制将有助于确保人工智能生成的内容保持高学术标准,同时为文献贡献有意义的见解。
金融界还需要制定反映人工智能支持的研究生产现实的新评估标准。这些标准应该更加注重样本外验证,并关注实际实施和经济意义。解释观察到的现象的经济故事至少应该部分地通过它们在主要发现之外做出的可检验预测来评估。透明地报告人工智能在研究生产中的参与也将有助于读者更好地评估每篇论文的方法严谨性和理论贡献。
实施这些建议需要学术金融界内部的大量协调或激励其采用的机制。然而,随着人工智能能力的不断进步,这些努力对于维护研究诚信至关重要。重点应该从仅仅识别潜在问题转向开发可以在整个领域实施的实际解决方案。这包括建立人工智能在研究中披露的标准化协议、创建用于验证的共享数据库以及制定评估人工智能辅助研究的全社区标准。
Part5
结论
我们的发现表明,人工智能引入学术研究生产不仅仅是一种技术进步 —— 它有可能成为我们在金融领域生成和验证知识方式的根本性转变。假设生成的自动化能力促使我们重新考虑什么构成有意义的研究贡献。
这里提出的问题没有简单的答案,但在我们进入一个人工智能成为研究过程中越来越不可或缺的一部分的时代时,需要仔细考虑。
金融研究的未来可能更少依赖于我们生成假设的能力,而更多地依赖于我们区分有意义的见解与统计显著但理论空洞的发现的能力。
来源:学术圈