1.产品介绍
AICS 自动化测试平台介绍
AICS自动化测试平台旨在简化智能客服系统的日常运营和持续测试流程。针对在调整BOT身份提示词、更新知识库内容或BOT关联插件等变更后,难以进行问答内容横向比较,以及重复测试所带来的工作量问题。
平台特点与能力
·无缝对接智能客服平台:自动化测试平台完全适配智能客服平台,只需配置相关BOT参数配置即可获取聊天记录,便于自动生成测试用例;支持多环境配置,可同时测试生产、预生产、测试环境等BOT 测试任务。
·测试任务执行调度:灵活编排自动化测试的定时任务,大大减少运维测试人员重复性测试工作;可配置企微群助手消息,当测试任务结束时通知相关运维和测试人员。
·测试结果横向对比:多次测试用例问答结果可横向对比,且可以使用BGE模型进行语义对比,快速定位有问题或差异大的问答结果。
2.功能概览
2.1.测试配置
2.1.1.新增站点配置:可配置多个自动化测试的目标环境;
2.1.2.新增Bot配置:关联AICS Bot和所建自动化测试的站点。Bot的接口信息需到AICS站点上进行查看:
AI_BotID | 编辑BOT属性可查看 |
AppID | 编辑BOT-上架-API接口启用后查看 |
SecretKey | 编辑BOT-上架-API接口启用后查看 |
LLM评分提示词:可使用大语言模型编写提示词设定评分规则,对问答质量进行打分,以方便快速定位有问题的问答内容。相关提示词可参考测试环境配置的内容。
2.1.3.企微消息配置:需新建执行调度任务后进行关联;在企业微信的群中添加群机器人后,获得群消息地址进行配置。当关联的执行调度任务完成时,群机器人会发送测试任务完成的提醒消息。
2.2.聊天数据分析
2.2.1.查询已配置的Bot在AICS中产生的聊天记录,可按日期、聊天记录结果类型、以及其标记情况进行筛选出相关数据,进而对问答结果进行评分,且一键下载生成测试用例集。
LLM评分提示颜色分值区间:
80分以上 | 黑色 |
70-79分 | 棕色 |
60-69分 | 紫色 |
60分以下 | 红色 |
2.2.2.下载聊天记录生成测试用例集:
支持多轮对话 – 同一个测试用例编号,不同轮次编号;
2.3.测试用例集
测试用例集上传:上传测试用例需保持下载的同一excel文档格式和内容字段,可自行删减调整测试用例内容;同一个测试用例集文件不可重复上传。
2.4.执行调度
根据测试用例设置自动化测试的任务,支持多线程运行。
触发类型说明:
DateTrigger | 特定日期时间执行一次任务。 |
CronTigger | 时间条件定时触发,相关触发参数表达式解释可参考文档 Cron TriggerTutorial (quartz-scheduler.org);或直接使用UI设置参数表达式。 |
Realtime | 点击“执行”按钮后运行一次任务。 |
2.5.执行记录分析
2.5.1.执行记录列表:执行调度任务运行执行测试用例集的记录列表,可用执行时间或测试用例集进行筛选;
Bot版本信息:每次执行测试任务时会记录当前Bot相关版本信息,包括问答模型信息和身份提示词、重写模型、function call模型和提示词;
2.5.2.执行记录明细:具体执行任务结果明细信息,可具体查看测试集是否有命中知识、插件以及耗时等。
a.若Bot配置了LLM评分提示词,默认会对每条测试结果进行评分,便于快速发现问答结果不合理的情况;
b.若对话命中了Bot关联的工具(Plugin、Flow),可点击查看调用关联工具的入参和返回信息;
c.点击查看调用请求;
2.5.3.多选查看:选择2个或以上执行记录测试用例结果进行横向对比,便于运维测试人员快速定位问题;非相同测试用例结果不可多选对比查看。
2.5.4. BGE语义对比:选择2个执行记录的测试用例结果进行问答内容语义对比。BGE开源模型对两次测试用例结果进行语义相似度运算,内容越相同或意思相近分值越趋近于1,内容越迥异分值越趋近于0,旨在可让运维或测试人员快速定位差异大的问答测试记录。
相似度分值颜色提示区间:
0.9500以上 | 黑色 |
0.9000-0.9499 | 棕色 |
0.8000-0.8999分 | 紫色 |
0.8000以下 | 红色 |