据「中国信通院」公众号消息,中国信息通信研究院人工智能所基于前期的 AI Safety Benchmark 测评工作,发起大模型幻觉测试。
本轮幻觉测试工作将以大语言模型为测试对象,涵盖了 “事实性幻觉” 和 “忠实性幻觉” 两种幻觉类型。
测试数据包含 7000 余条中文测试样本,测试形式包括对应于忠实性幻觉检测的信息抽取与知识推理两类题型,以及对应事实性幻觉检测的事实判别题型。
总体涉及人文科学、社会科学、自然科学、应用科学和形式科学五种测试维度。
据「中国信通院」公众号消息,中国信息通信研究院人工智能所基于前期的 AI Safety Benchmark 测评工作,发起大模型幻觉测试。
本轮幻觉测试工作将以大语言模型为测试对象,涵盖了 “事实性幻觉” 和 “忠实性幻觉” 两种幻觉类型。
测试数据包含 7000 余条中文测试样本,测试形式包括对应于忠实性幻觉检测的信息抽取与知识推理两类题型,以及对应事实性幻觉检测的事实判别题型。
总体涉及人文科学、社会科学、自然科学、应用科学和形式科学五种测试维度。