1.产品介绍

AICS 自动化测试平台介绍

AICS自动化测试平台旨在简化智能客服系统的日常运营和持续测试流程。针对在调整BOT身份提示词、更新知识库内容或BOT关联插件等变更后,难以进行问答内容横向比较,以及重复测试所带来的工作量问题。

平台特点与能力

·无缝对接智能客服平台:自动化测试平台完全适配智能客服平台,只需配置相关BOT参数配置即可获取聊天记录,便于自动生成测试用例;支持多环境配置,可同时测试生产、预生产、测试环境等BOT 测试任务。

·测试任务执行调度:灵活编排自动化测试的定时任务,大大减少运维测试人员重复性测试工作;可配置企微群助手消息,当测试任务结束时通知相关运维和测试人员。

·测试结果横向对比:多次测试用例问答结果可横向对比,且可以使用BGE模型进行语义对比,快速定位有问题或差异大的问答结果。

2.功能概览

2.1.测试配置

2.1.1.新增站点配置:可配置多个自动化测试的目标环境;

2.1.2.新增Bot配置:关联AICS Bot和所建自动化测试的站点。Bot的接口信息需到AICS站点上进行查看:

AI_BotID 编辑BOT属性可查看
AppID 编辑BOT-上架-API接口启用后查看
SecretKey 编辑BOT-上架-API接口启用后查看

LLM评分提示词:可使用大语言模型编写提示词设定评分规则,对问答质量进行打分,以方便快速定位有问题的问答内容。相关提示词可参考测试环境配置的内容。

2.1.3.企微消息配置:需新建执行调度任务后进行关联;在企业微信的群中添加群机器人后,获得群消息地址进行配置。当关联的执行调度任务完成时,群机器人会发送测试任务完成的提醒消息。

2.2.聊天数据分析

2.2.1.查询已配置的Bot在AICS中产生的聊天记录,可按日期、聊天记录结果类型、以及其标记情况进行筛选出相关数据,进而对问答结果进行评分,且一键下载生成测试用例集。

LLM评分提示颜色分值区间:

80分以上 黑色
70-79分 棕色
60-69分 紫色
60分以下 红色

2.2.2.下载聊天记录生成测试用例集:

支持多轮对话 – 同一个测试用例编号,不同轮次编号;

2.3.测试用例集

测试用例集上传:上传测试用例需保持下载的同一excel文档格式和内容字段,可自行删减调整测试用例内容;同一个测试用例集文件不可重复上传。

2.4.执行调度

根据测试用例设置自动化测试的任务,支持多线程运行。

触发类型说明:

DateTrigger 特定日期时间执行一次任务。
CronTigger 时间条件定时触发,相关触发参数表达式解释可参考文档 Cron TriggerTutorial (quartz-scheduler.org);或直接使用UI设置参数表达式。
Realtime 点击“执行”按钮后运行一次任务。

2.5.执行记录分析

2.5.1.执行记录列表:执行调度任务运行执行测试用例集的记录列表,可用执行时间或测试用例集进行筛选;

Bot版本信息:每次执行测试任务时会记录当前Bot相关版本信息,包括问答模型信息和身份提示词、重写模型、function call模型和提示词;

2.5.2.执行记录明细:具体执行任务结果明细信息,可具体查看测试集是否有命中知识、插件以及耗时等。

a.若Bot配置了LLM评分提示词,默认会对每条测试结果进行评分,便于快速发现问答结果不合理的情况;

b.若对话命中了Bot关联的工具(Plugin、Flow),可点击查看调用关联工具的入参和返回信息;

c.点击查看调用请求;

2.5.3.多选查看:选择2个或以上执行记录测试用例结果进行横向对比,便于运维测试人员快速定位问题;非相同测试用例结果不可多选对比查看。

2.5.4. BGE语义对比:选择2个执行记录的测试用例结果进行问答内容语义对比。BGE开源模型对两次测试用例结果进行语义相似度运算,内容越相同或意思相近分值越趋近于1,内容越迥异分值越趋近于0,旨在可让运维或测试人员快速定位差异大的问答测试记录。

相似度分值颜色提示区间:

0.9500以上 黑色
0.9000-0.9499 棕色
0.8000-0.8999分 紫色
0.8000以下 红色

3.演示视频

Copyright vanke all right reserved,powered by Gitbook该文件修订时间: 2024-11-14 08:01:03

results matching ""

    No results matching ""