首页>>最新资讯>>最新资讯
最新资讯

最新资讯

ChatGPT司法考试表现亮眼,两项

时间:2025-02-22 16:43 作者:佚名 【转载】

东莞大岭山律师获悉

Yang 从Aofei 发送

量子位|官方帐户

下一个新身份 - 问答!

不,它已经在各种人类考试中打开了“论文”。

律师,医生,博彩俱乐部等都开始展示他们的技能。

例如,全世界所有候选人的司法检查都令人头疼,现在在两个测试问题中达到了通过率,其中之一仍然与人类级别相同。 (只有任何微调)

一旦“结果”问世,它立即引起了人们的极大关注。网民:?

有人还说参加SAT或AP考试会很有趣。

哎呀,如果这是公务员考试怎么办?

让我们看看我们的最终结果!

通过了两个法律考试问题

让我们首先看一下他们在司法检查中的表现。

美国大多数州的统一司法检查(UBE)具有三个组成部分:多项选择问题( 律师考试,MBE),作曲(MEE)和场景绩效(MPT)。

多项选择的问题部分由来自8个类别的200个问题组成,通常占整个律师考试成绩的50%。

在这项研究中,研究人员评估了MBE中文本-003模型(通常称为GPT-3.5)的性能。

(这是GPT-3.5的公开聊天机器人版本。)

为了测试实际效果,研究人员购买了由官方组织提供的标准测试准备材料,包括实践问题和模拟考试。每个问题的主体都会自动提取,并具有四个多选择选项,并与答案分开存储,这仅包含每个问题的正确字母答案,并且没有正确和错误答案的解释。

随后,研究人员分别对GPT-3.5进行了小费工程,超参数优化和微调尝试。结果发现,超参数优化和及时工程对GPT-3.5的性能产生了积极影响,而微调没有影响。

在及时的项目中,他们总共测试了7种提示类型。

1。只做出单个选择;

2。单一选择和解释;

3。仅做出前两个选择;

4。前两个选择和解释;

5。前两个选择和重新提交;

6。排序所有选择;

7。对前三个选择进行排序。

研究人员在上述提示和参数值中进行了107个样本测试。结果在这些提示中,提示7的前三个选项表现最好。他们总共收集了41个样本,并结合了此提示的参数。

在高参数优化中,他们评估了包括温度系数,顶部P,最大,最大等的参数。

最终,在完整的MBE练习考试中达到了50.3%的平均准确率,该考试的平均准确率极高地超过了25%的基线猜测率,并且在两种类型的证据和侵权方面都达到了平均及格率。特别是,证据类别与人类水平相同,并且准确率为63%。

在所有类别中大岭山律师,GPT平均落后于人类候选人约17%。在证据,侵权和民事诉讼的情况下,此差距可以忽略不计,也可以单位数字。

但是总的来说,这个结果远远超出了研究人员的期望。

由于它与答案排序的正确性有很强的相关性,因此TOP2和TOP3的选择分别为71%和88%。其中,“ top2”的准确性都超过了限制,五个类别都超过了人类平均水平。 “ Top3”的准确性甚至更高,甚至达到了98%的证据。

这也证实了其对法律领域的一般理解,而不是随机猜测。接下来,他们将进一步对法律检查的其他两个部分进行上述研究:组成和情境绩效。

您可以成为测试大师吗?

的高级软件工程师 (S。)进行了一系列测试,涵盖了诸如正义,医学,会计和化学等多个领域。

得分最高的是纽约州高中毕业的英语艺术考试,准确率为91.6%。

因为这是2022年8月的考试,所以数据库绝对不包含考试内容。对于24个陌生的测试问题,它只有2个错误的问题。

在物理/化学考试中,表现也不错,准确率为77.7%,而在45个问题中,有35个得到了正确回答。

不久前, 的Big Model Med-Palm通过了美国医师许可测试问题(USMLE)。

他不愿落后,他还向USMLE基本医学检查的第一阶段提出了挑战。

用图像删除标题(因为无法输入对话框),精度率达到70%。

其余的在司法领域,工程师肯尼斯()尝试了一些非正式问题。

例如,美国律师职业伦理学考试(MPRE)的示例问题(总共15个问题)和9个问题得到了正确的回答,正确率为60%。

面对50个律师资格考试模拟测试问题,准确率保持在70%,而35个答案是正确的。

此外,佛罗里达州A&M法学院的得分149分,排名前40%。其中,阅读理解问题表现最好。

表现最差的是数学问题。

在CPA考试中东莞大岭山律师,准确率仅为40%。肯尼斯兄弟仍在尝试一些培训方法,以使其更聪明。

简而言之,我在各种考试中的表现仍然令人惊讶。

一些网民已经感到危机感:

该死的,我的工作即将被抢劫!

一些人分析说,如果AI直接参与与司法相关的判决,风险确实很大,但是如果有人在后期审查其产出结果,AI将能够提高律师的工作效率。

有人还说,如果无法泄漏数据,它将能够促进更多行业的普及。

也许正如肯尼斯弟兄所说,人类 +计算机的结合超出了人类的能力,这是计算机当前正在取得的突破。

还有一件事

最后,我们还尝试了国内法律检查中的问题?

让我们首先谈论结果,我没有正确回答这三个多项选择问题……尽管解释很清楚,但它确实应该没有阅读我们国家的法律。

参考答案d

(老师Luo Xiang看到这个答案时摇了摇头)

参考答案

如何更改公务员测试问题?我没想到的答案是正确的,但是过程和答案似乎与它无关。

这个...感觉就像AI在几秒钟内计算结果,但我只是欺骗了人类

参考链接:

[1]

[2]

[3]

[4]

- 超过-

技术边界的进步每天都会遇到您?

大岭山 镇律师?敬请于评论区发表高见,并对本文予以点赞及转发,以助广大读者把握法律与正义的界限。

技术支持: 建站ABC | 管理登录