研究人员比来对一个名叫ConceptNet的人工智能系统进行了测评。在一项为检测儿童智商而设计的测中,ConceptNet的得分跨越了一名智商正常的四岁儿童。该测试共包含五项与词语推理和词汇有关的测验,ConceptNet的总得分为69分,与之进行对照的学龄前儿童得分则为50分。而且专家认为,该系统的智能程度还会进一步加强。
在测试过程中,试题会经由过程说话措置赏罚工具转换成ConceptNet 4能够懂得的说话,如“我们为什么要握手?”、“我们为什么要在炎天戴太阳镜?”和“为什么将刀子放进嘴中是欠好的步履?”等等。
北京时刻10月31日动静,假如你原本就忧虑自己的工作有一天会被机械人取而代之,那么下面这则来自麻省理工学院的最新动静可能会让你加倍惊恐。
研究人员比来对一个名叫ConceptNet的人工智能系统进行了测评。在一项为检测儿童智商而设计的测试中,ConceptNet的得分跨越了一名智商正常的四岁儿童。
该测试共包含五项与词语推理和词汇有关的测验,ConceptNet的总得分为69分,与之进行对照的学龄前儿童得分则为50分。而且专家认为,该系统的智能程度还会进一步加强。
ConceptNet是一项由麻省理工学院常识策画筹算团队(MIT Common Sense Computing Initiative)打点的开源项目。该团队研发的ConceptNet 4运用了所谓的“关系”这一概念。例如,当让该系统诠释什么是“小鹿”时,它会明确“小鹿是一种鹿”,而不是”鹿是一种小鹿“。也就是说,它能够懂得这种动物的概念,以及“小鹿”和“鹿”这两个词汇和概念之间的关系。同时,该系统还可以应用所谓的“坚持标识表记标帜”浮现负相干关系,好比“企鹅不会飞”等。
研究人员让ConceptNet 4介入了“韦克斯勒学龄前儿童智力量表”测试(WPPSI-III),并将研究功效揭晓在论文《Measuring an Artificial Intelligence System's Performance on a Verbal IQ Test For Young Children》上。WPPSI-III测试包含14项测验项目,以及一份针对独霸智商和言语智商的完整评估表。
在对单项测试计分时,研究人员先应用每道问题得分最高的谜底计分,然后再应用每道问题得分最高的前五个谜底中最好的谜底计分。他们将前者称为“严酷计分”,后者称为“放松计分”。图中左侧为ConceptNet得分,右侧为受测儿童得分。 在对单项测试计分时,研究人员先应用每道问题得分最高的谜底计分,然后再应用每道问题得分最高的前五个谜底中最好的谜底计分。他们将前者称为“严酷计分”,后者称为“放松计分”。图中左侧为ConceptNet得分,右侧为受测儿童得分。
独霸智商测验凡是会请求受测人完成绘画、解谜、记忆等使命。言语智商测验则会查核儿童的词语推理、词汇及懂得能力。每种智商得分的平均分都为100分。本次研究则首要针对言语智商进行测试。
在测试过程中,试题会经由过程说话措置赏罚工具转换成ConceptNet 4能够懂得的说话,如“我们为什么要握手?”、“我们为什么要在炎天戴太阳镜?”和“为什么将刀子放进嘴中是欠好的步履?”等等。
该研究由芝加哥大学的斯特兰?奥尔森(Stellan Ohlsson)带领。在对单项测试计分时,研究人员先应用每道问题得分最高的谜底计分,然后再应用每道问题得分最高的前五个谜底中最好的谜底计分。他们将前者称为“严酷计分”,后者称为“放松计分”。
在“信息”测试中,ConceptNet获得了20分,而同时列入测试的四岁儿童经由过程转换后的得分为10分。这名儿童在词语推理和懂得上得分更高,均为7分,而ConceptNet在这两项上的得分分辨为2和3分。此外,ConceptNet浮现出了更丰硕的词汇量,词汇得分为20分,而儿童得分为13分。
“ConceptNet系统的得分与四岁儿童相仿,但低于五至七岁儿童的平均得分,”研究人员诠释道,“该系统在每个单项中得分分歧很大,阐明还有改良的空间。在所有测试中,‘懂得’是最关乎人类常识的测试项目。得分分歧大、常识方面浮现一般,这阐明ConceptNet尚不具有四岁儿童的说话能力。但本次研究阐明,儿童智商测试可认为人工智能系统的评估和斗劲供给一种客不雅观的怀抱手段。”
ConceptNet是一项由麻省理工学院常识策画筹算团队(MIT Common Sense Computing Initiative)打点的开源项目。该团队研发的ConceptNet 4运用了所谓的“关系”这一概念。例如,当让该系统诠释什么是“小鹿”时,它会明确“小鹿是一种鹿”,而不是”鹿是一种小鹿“。也就是说,它能够懂得这种动物的概念,以及“小鹿”和“鹿”这两个词汇和概念之间的关系。 ConceptNet是一项由麻省理工学院常识策画筹算团队(MIT Common Sense Computing Initiative)打点的开源项目。该团队研发的ConceptNet 4运用了所谓的“关系”这一概念。例如,当让该系统诠释什么是“小鹿”时,它会明确“小鹿是一种鹿”,而不是”鹿是一种小鹿“。也就是说,它能够懂得这种动物的概念,以及“小鹿”和“鹿”这两个词汇和概念之间的关系。
“此外,良多由ConceptNet给出的短处谜底和儿童给出的短处谜底不仅相往甚远,而且违反常识。”
例如,在关于“狮子”的词语推理测验中,该AI系统和首测儿童被给以三条线索——“雄性长着鬃毛”,“该动物糊口在非洲”,以及“它是一种体型很大的棕黄色猫科动物”。
由ConceptNet给出的排名前五的谜底按次序枚举为:狗,农场,生物,家庭,猫。
研究团队诠释道,“生物”和“猫”尚且还能与“狮子”沾边,但其它的谜底就显著有悖于常识了。
“按照常识,受测者理当至少能将谜底限制在动物的领域内,同时能做出简略的推理:“既然线索说它是猫科动物,那只有猫科动物能够被列进考虑领域。”
该论文被揭晓在期刊《arXiv》上,配合作者包含罗伯特?斯隆(Robert Sloan)、捷尔吉?图兰(Gy?rgy Turán)和阿隆?尤拉斯基(Aaron Urasky)。
ConceptNet系统的得分与四岁儿童相仿,但低于五至七岁儿童的平均得分。这阐明该系统并不具备“四岁儿童”的说话能力,但可认为评估近似系统供给带领方法。
ConceptNet系统的得分与四岁儿童相仿,但低于五至七岁儿童的平均得分。这阐明该系统并不具备“四岁儿童”的说话能力,但可认为评估近似系统供给带领方法。
测试方法
研究人员让ConceptNet 4介入了“韦克斯勒学龄前儿童智力量表”测试(WPPSI-III),并将研究功效揭晓在论文《Measuring an Artificial Intelligence System's Performance on a Verbal IQ Test For Young Children》上。WPPSI-III测试包含14项测验项目,以及一份针对独霸智商和言语智商的完整评估表。
独霸智商测验凡是会请求受测人完成绘画、解谜、记忆等使命。言语智商测验则会查核儿童的词语推理、词汇及懂得能力。每种智商得分的平均分都为100分。本次研究则首要针对言语智商进行测试。
在测试过程中,试题会经由过程说话措置赏罚工具转换成ConceptNet 4能够懂得的说话,如“我们为什么要握手?”、“我们为什么要在炎天戴太阳镜?”和“为什么将刀子放进嘴中是欠好的步履?”等等。
该研究由芝加哥大学的斯特兰?奥尔森(Stellan Ohlsson)带领。在对单项测试计分时,研究人员先应用每道问题得分最高的谜底计分,然后再应用每道问题得分最高的前五个谜底中最好的谜底计分。他们将前者称为“严酷计分”,后者称为“放松计分”。
什么是ConceptNet
ConceptNet是一项由麻省理工学院常识策画筹算团队(MIT Common Sense Computing Initiative)打点的开源项目。该团队研发的ConceptNet 4运用了所谓的“关系”这一概念。
例如,当让该系统诠释什么是“小鹿”时,它会明确“小鹿是一种鹿”,而不是”鹿是一种小鹿“。也就是说,它能够懂得这种动物的概念,以及“小鹿”和“鹿”这两个词汇和概念之间的关系。
同时,该系统还可以应用所谓的“坚持标识表记标帜”浮现负相干关系,好比“企鹅不会飞”等。