研究发现，GPT和其他人工智能模型无法分析SEC文件

2023-12-19 HelloWorld

Source: CNBC

Patronus AI这家初创公司的研究人员发现，类似ChatGPT的大型语言模型经常无法回答从美国证券交易委员会（SEC）文件中提取的问题。该公司的创始人告诉CNBC，即使是他们测试过的表现最好的人工智能模型配置——OpenAI的GPT-4-Turbo，即使可以阅读几乎整个文件并回答问题，也只有79%的正确率。这种大型语言模型有时会拒绝回答问题，或者会“产生幻觉”并产生不在SEC文件中的数字和事实。这些发现凸显了AI模型面临的一些挑战，尤其是在金融等受监管行业中，大公司试图将尖端技术纳入其运营，无论是用于客户服务还是研究。从去年底发布ChatGPT以来，提取重要数字并对财务叙述进行分析的能力一直被视为聊天机器人最有前途的应用之一。SEC文件中充满了重要数据，如果机器人能准确概括它们或快速回答其中的问题，就能让用户在竞争激烈的金融业中占据优势。在过去的一年里，彭博LP开发了自己的金融数据AI模型，商学院教授研究了ChatGPT是否能解析财经头条，而根大通（JPMorgan）则正在开发一款由人工智能驱动的自动投资工具，CNBC之前报道过这些。麦肯锡最近的一份预测报告称，生成式人工智能每年可能为银行业增加数万亿美元的价值。但GPT进入金融行业并不顺利。当微软首次推出使用OpenAI的GPT的必应聊天时，其主要示例之一是让聊天机器人快速概括一份盈利新闻稿。观察人士很快意识到微软示例中的数字是错误的，而且有些数字完全是瞎编的。

Patronus AI的联合创始人表示，将LLM纳入实际产品的一部分挑战是LLM是非确定性的，它们不能保证每次针对同一输入产生相同的输出。这意味着公司需要进行更严格的测试，以确保它们的操作正确，不偏离主题，并提供可靠的结果。该公司的创始人在Facebook子公司Meta工作时就AI问题进行了研究，包括理解模型如何得出答案并使其更具“责任感。他们创办了Patronus AI，该公司获得了Lightspeed Venture Partners的种子资金，以使用软件自动化LLM测试，这样公司就可以放心他们的AI机器人不会给客户或员工带来意外或错误的答案。现在的评估主要是手动的，感觉上就像检查测试一样简单，”Patronus AI的联合创始人Rebecca Qian说。一家公司告诉我们这是‘感受检查’。Patronus AI的工作是从主要上市公司的SEC文件中编写一套超过10,000个问题和答案的集合，该集合被称为FinanceBench。这个数据集包括正确的答案，以及在任何给定文件中找到这些答案的确切位置。并非所有答案都可以直接从文本中提取，有些问题需要一些简单的数学或推理。Qian和Kannappan说，这是金融领域语言AI的“最低性能标准”测试。

Patronus AI测试了四种语言模型：OpenAI的GPT-4和GPT-4-Turbo、Anthropic的Claude2以及Meta的Llama 2，使用了其生成的150个问题的一个子集。他们还测试了不同的配置和提示，例如一个设置，其中OpenAI模型会在问题中提供与答案相关的确切来源文本，这被称为“Oracle”模式。在其他测试中，模型被告知哪些基础SEC文件将被存储，或者给出“长上下文”，即在提示中除了问题还包含几乎整个SEC文件。GPT-4-Turbo在该初创公司的“闭卷”测试中失败，即没有获得任何SEC源文档的访问权限。它未能回答其被问到的150个问题的88%，只回答了14次正确。当它可以访问基础文件时，它能够显着改进。在“Oracle”模式下，即指向答案的确切文本，GPT-4-Turbo在85%的时间内正确回答问题，但错误回答的概率仍达到15%。但这个测试是不现实的，因为它需要人工参与来找到文件中确切的相关位置，而这正是许多人希望语言模型能够解决的确切任务。Meta开发的开源AI模型Llama2在访问一系列基础文档时产生了最严重的“幻觉”，70%的时间回答错误，只有19%的时间回答正确。Anthropic的Claude2在给予“长上下文”的情况下表现良好，能够回答75%的问题，21%的问题给出错误答案，未能回答的问题仅占3%。

GPT-4-Turbo在长上下文中的表现也不错，正确回答了79%的问题，给出了17%的错误回答。尽管这些模型表现良好，但Patronus AI发现它们仍然不够好。因为尤其是在受监管的行业中，即使这些模型有20次中只有1次回答错误，这个准确率仍然不够高，”Qian说。但Patronus AI的创始人相信，像GPT这样的语言模型在金融业中能够帮助人们——无论是分析师还是投资者——如果人工智能继续改进的话。我们肯定认为结果可能非常有前景，”Kannappan说。模型在未来会继续变得更好。我们非常希望在长期来看，很多事情都可以自动化。但是在今天，您肯定至少需要一个人来协助和指导您的任何工作流程。一个OpenAI代表指向了公司的使用指南，该指南禁止在没有有资格人员查看信息的情况下使用OpenAI模型提供定制金融建议，并要求任何在金融行业使用OpenAI模型的人提供使用AI并声明其局限性的免责声明。Meta未立即回应置评请求，Anthropic也未立即发表评论。

人工智能模型在解析美国证券交易委员会（SEC）文件时经常失败，这给金融行业的自动化应用提出了挑战。尽管存在问题，但语言模型在金融领域仍有巨大潜力。

特别声明：本文及配图均为用户上传或者转载，本文仅代表作者个人观点和立场，不代表平台观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本平台不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如发现稿件侵权，或作者不愿在本平台发布文章，请版权拥有者通知本平台处理。
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to info@microheadline.com

来源：https://www.cnbc.com/2023/12/19/gpt-and-other-ai-models-cant-analyze-an-sec-filing-researchers-find.html https://www.brookings.edu/articles/the-three-challenges-of-ai-regulation/ https://www.sec.gov/news/speech/gensler-isaac-newton-ai-remarks-07-17-2023

更多阅读

研究发现，GPT和其他人工智能模型无法分析SEC文件

种族主义AI深度伪造音频引发社区分裂与恐慌

苏丹战争中的可怕现实：她们呼喊“别侵犯我的女儿”

梅拉尼娅·特朗普支持女性堕胎权利，挑战丈夫观点

美国及其盟友呼吁黎以边境实现21天停火

中国股市创下16年来最佳单日表现，美国相关ETF大幅上涨

网球明星及时尚偶像Lea Pericoli去世，享年89岁

AI驱动的能源转型与替代能源增长潜力

以色列空袭后，黎巴嫩小女孩生命垂危

美国乡村音乐明星Kris Kristofferson去世，享年88岁

美联储主席杰罗姆·鲍威尔将在纳什维尔会议上发表关于经济和政策的看法

房主在更换抵押贷款服务提供商时不再需要进行压力测试

非洲本周精彩瞬间：火 breathing者与雪人

德克萨斯州黑学生因发型受到惩罚，法院拒绝保护请求

Mastercard收购瑞典企业Minna Technologies，简化订阅管理与取消

巴基斯坦喀拉蚩国际机场附近爆炸致一死六伤