GPT-4震撼发布:解读图文、通过专业考试、还精通中文?
发布人:北欧公寓发布时间:2023-03-15 10:19
AI的革新还在继续,就在凌晨,OpenAI发布了最新的迭代模型GPT-4。
GPT-4 有几点重大更新:解读图文;能轻松通过人类专业考试,如SAT(美国高考);变得更加“人”化,语气变得幽默;对非英语语种得到进一步支持;还有报税、写诗、写代码等等。
值得一提的是,GPT-4使用了微软Azure来训练模型,在超算加持下,GPT-4的训练运行获得更强的稳定性,实现性能飞跃。
处理图像
在此前的版本中,ChatGPT只能处理文本,而4.0将可以接受图像作为输入。
以OpenAI提供的示例中,当你问道:“冰箱里的食材能做几顿饭?”GPT回答可以做酸奶冻糕和鹰嘴豆泥包裹。
它还能学着讲笑话,比如给 GPT-4 一个长相奇怪的充电器的图片,问为什么这很有趣?它就会回答,用VGA线充iPhone。
当然,这些还只是趣味性。可以直接甩给它物理题。
除了这些,如果你甩给它InstructGPT论文,它可以帮你进行总结摘要,直接省去麻烦。这也怪不得很多学术机构不允许用ChatGPT,因为这大大增加了人们的懒惰。
轻松通过SAT、模拟律师考试
GPT-4在人类通用、专业性考试上的成绩较前代有大大提高。
它能在模拟律师考试中分数位列应试者的前10%,相比3.5得分则是倒数10%左右;在SAT阅读和数学模块则是分别录得前7%和11%。OpenAI同样还测试了GPT-4,GPT-4(无图形处理版)和GPT-3.5在AP学科考试(美国大学先修课程)的表现,GPT-4整体表现高出了前代一大截。
GPT-4在事实性问题上的精度也有所提高。如果你问Oren Etzioni和Eli Etzioni的关系是什么。GPT-4会回答他们是父子关系,而Oren是艾伦人工智能研究所(AI2)的CEO,Eli是企业家;3.5则会回答他们是兄弟关系。
当然,GPT还是存在自己的局限性。比如事实上Oren目前已辞任AI2的CEO。这是因为,GPT-4的训练是去年8月完成,剩下时间都在微调。
OpenAI指出,GPT在许多现实世界场景的能力不如人类,同时喜欢“编造”一些事情,并在错误的时候坚持认为自己是正确的。GPT-3.5和GPT-4之间的区别可能是微妙的。当任务的复杂性达到足够的阈值时, GPT-4会更可靠,更有创造力,能够处理更细微的指令。
精通24种语言 中文准确度高达80%
目前市面上的许多机器学习基准测试都是用英语编写的。为初步了解GPT-4在其他语言上的能力,OpenAI使用 Azure Translate,将一套涵盖57个主题的1.4万多项选择题的MMLU基准,翻译成了多种语言,然后进行测试。
在测试的26种语言中,有24种语言,GPT-4优于 GPT-3.5和其他大语言模型的英语语言性能。
其中英文达到了85%,中文达到了80.1%的准确性,这甚至高于3.5的英文的准确性(70.1%)。在这个测试中,GPT-4对于中文的语言理解,已经优于此前ChatGPT对于英文的理解。
变身专业机器人 总结文章、写代码、报税、写诗等等
OpenAI的总裁和联合创始人Greg Brockman还进行了一把直播,展示了GPT-4的总结文章、写代码、报税、写诗等等
Greg Brockman展示了GPT-4的新的使用界面,左侧是系统框,可以规定AI的角色,以及整体的回答原则,中间则是对话框,可以输入具体的对话形态来对具体的内容进行调整、追问或者给出反馈。最右侧是一些参数设置。
Brockman就使用使用左侧的“系统”框,让GPT-4相继成为“ChatGPT”、“AI编程助手”、“TaxGPT”,来解决不同的问题。
在“AI编程助手”模式下,可以让它写代码,生成一个网站,或者更复杂的,写一个基于Discord的机器人,如果出现错误,直接把错误代码复制进去,它就会自动纠错,生成新的代码。
可以看出,ChatGPT在微软超算的加持下,性能正在进一步蜕变,而它未来的潜力增长还远没有结束。