- 长臂猿-企业应用及系统软件平台
专注AIGC领域的专业社区,关注GPT-4、百度文心一言、华为盘古等大语言模型(LLM)的发展和应用落地,以及国内LLM的发展和市场研究,欢迎关注!
结果还没歇两天,差评君又遇到了一个非常特殊的参赛选手。
按理来说,它是游戏起家的,手握《 海岛奇兵 》、《 皇室战争 》的发行权。
曾经控股的同性社交平台 Grindr ,出售后帮他们一把赚到了 30 多亿。。

而这一次,他们又带来了和 AI 团队奇点智源合作的大语言模型——天工。
这回,差评君也是很幸运地拿到了天工的测试资格。
在正式测试开始之前,咱们要先摸底考核一下。
第一关考核通过。
向上滑动 ▼

之后,差评君又向天工咨询了宠物饲养的问题。并且,在交谈中,我无意中跟它透露了, “ 我不希望和小明家一样养狗 ” 这个信息。
小明家养了什么宠物?

在我引导下, GPT-4 甚至已经追溯到了有信息的提问段落,但是没有办法理解 “ 小明养的宠物是狗 ” ,这么一个简单的事实。
看来天工这小子,基本功夫相当扎实,是能处的。

带着这些疑问,让我们继续下去。
为了解释清楚测谎仪的前世今生,我让天工围绕测谎仪,帮我列一份大纲。
几秒钟之后,一份脉络清晰的大纲就被生产出来了。
从测谎仪的原理、历史、应用以及争议几个方面来解答这个选题,基本上和差评君平时写文章的路线差不多。
稍微有点惊喜的是,它帮我考虑到了在不同类型案件中,测谎仪可能会有不同的使用范围。

但这还不是极限,我们可以让天工,进一步细化这份大纲。
比如,差评君让它详细讲述了一下,在案件中嫌疑人是怎么使用测谎仪的。
天工基本能分点罗列出来了,逻辑上来讲是挺清晰的。就是文字处理,有点像百度百科的介绍,能读,但是不出彩。。
不过,它倒是贴心地反复提醒差评君,测谎仪这玩意不准的,生怕我上当受骗。

一些外文的资料,我也可以直接丢给天工去翻译。
比如这段维基百科里对测谎仪的介绍,天工基本上几秒钟就翻译好了。
通过天工翻译后的内容,我们能知道在测谎仪的程序里,会有测试员故意要求被测者撒谎,以此来证明测谎仪有用。

甚至,差评君发现天工还能当做整理助手使用。
丢一段文字给它,天工能分析数据和信息,一键总结成表格。比如测谎仪的检测,主要是靠呼吸频率、血压心压、皮肤抗性。
这样一来,原本复杂的资料,就被梳理的很清晰了,能大大节省消化资料的时间。

不过,当给天工的数据一多,它很容易会处理卡壳。就需要人工去梳理,这样一来二去,效率上有点拉了。

但总的来说,在文本生成方面,天工算是有两把刷子在身上。尤其是表格整理,差评君觉得相当实用了。
不过,光有文本能力还不够,逻辑、代码、数学题等基础测试,差评君也给天工安排上了全套。
测试第一轮代码题的时候,天工的表现还是很不错的。差评君用一句话,让天工帮我做了一个简单的小网站。按钮变动的大小和效果,页面和按钮颜色,都做对了。
黑色的网页中间,有一个蓝色的圆形按钮,当鼠标移动到按钮上,按钮会缓慢放大

就是不知道为什么,最后有点画蛇添足。天工在代码中,多写了一行位移效果,导致按钮放大的同时,还出现了漂移。

但到了第二轮的数学题测验,天工慢慢就有点吃不消了。
面对题干里的各种数据和条件,天工蒙圈了。它一直纠结在了,青蛙跳 3 米花的时间上。。
谢谢你,把我的时间规划到了小数点后两位

后面,差评君又试着问了经典的鸡兔同笼问题,天工也是在带入方程的时候,计算错误了。
看来很可能是因为数学题的变数太多了,大语言模型很容易在某一步出错。

所以,当天工遇上变数更多,逻辑更诡异的逻辑题时候,就容易在题目的陷阱里中招。
比如当我问,A 参加跑步比赛,刚刚他超过了第三名,请问他现在是第几名?
天工给了我正确的回答,A 现在是第三名。

可当我们换一种问法,就会发现天工的逻辑不适用了。

但总的来说,天工有强项,也有弱项。
在逻辑和数学能力上,可能还需要打磨打磨。但在,文科方面,天工还是能拿得出手的。
尤其是多轮对话、制作表格、提高写作效率各方面,已经可以一定程度上解放人力。
而且,就在差评君拿到测试资格的几天里,天工一直在不断地迭代更新。不仅在各种问题处理上也肉眼可见的进步,而且资料库更新很快。

连热腾腾的淄博烧烤梗,天工这小子居然也门清。
图片、资料来源:
天工、ChatGPT
本文来源差评,如有侵权请联系删除
END


本文来自AIGC开放社区