InsightPilot与其说是一篇 paper,更像是一份微软 BI 的产品白皮书。主打 EDA 数据洞察,和上面的 Data-copilot 拼在一起,也算是把数据分析最基础工作涵盖了。举个数据洞察的栗子,最早在 UG 用户增长部门工作时,每次 APP 活跃用户下降了,数据分析组收到的任务就是赶紧去分析活跃用户数据,看看到底用户为啥流失了,是被竞品抢走了,是最近上了什么新功能用户不喜欢,还是之前活动拉来的用户质量不高留存较少,基于这些数据洞察,好制定下一步挽留流式用户,激活沉默用户的具体方案。
那如何发现数据中的异常点?一个基础的操作就是对数据进行不同维度的拆分对比。例如把活跃用户分成男女,老幼,不同城市,不同机型,渠道来源,不同阅读偏好等等维度,观察不同 subgroup 的用户他们的活跃是否发生下降,下降比例是否相同,是否有某个维度的用户组流失最显著。这个维度拆分可以是平行维度,也可以是下钻维度,对比方式可以是一阶变化趋势对比,也可以是波动率等二阶趋势的对比等等
微软的实现方案其实是使用 LLM 把之前微软已经开发应用到 BI 的三款数据洞察工具进行了组合串联,这三款数据洞察工具分别是 QuickInsight,MetaInsight和XInsight。我们先简单介绍下这三款工具,再看大模型要如何对数据分析工具进行组合串联。
Insights 们 QuickInsightQuickInisght 是最早也是功能最基础的数据分析工具,它能快速发现多维数据中的 pattern。它的洞察数据单元由三个要素组成subject ≔ {()数据空间, 拆分维度, ()观察指标}, 以下是{Los Angeles,Month,Sales}产生的数据洞察
QuickInsight,会先按不同维度,计算不同指标得到多组数据。洞察部分则是预定了 12 种不同的数据分析方式,例如异常值,突变点,趋势,季节性,相关性等等。每种洞察类型会基于显著性和贡献度进行综合打分,排名靠前的应该是单维度数据变化最显著,且对整体影响较大的。
MetaInsightQuickInsight的洞察主要基于单个洞察数据单元进行,MetaInsight可以聚合关联多个洞察数据单元,产出更复杂,高级的数据洞察。简单来说是在以上三元组数据洞察的基础上,搜索不同的subsapce,以及measure,寻找具有相似数据洞察的三元组,并进行组合分析。继续以上洛杉矶销量数据的洞察,当我们扩展subspace到其他城市的销售数据时,MetaInsight会产出以下关联分析。
以上QuickInsight和MetaInsight都还停留在相关性数据分析的领域,而XInsight着眼在因果性分析,也算是前两年很火的因果推断方向。也就是我们不仅想知道手机里同时有快手和抖音APP的用户,使用抖音的时间较短,还想知道到底是快手APP抢夺了用户的时间,还是这部分用户群体本身就属于东看看西看看没有固定偏好的群体。但真实世界中很难找到完全符合假设的因果推断,因为哈哈没有平行世界呀,因此只能通过一些控制变量,和数学建模的方案来近似模拟因果场景。感兴趣的同学可以看过来因果推断的春天
以下的案例中,同样是按月份维度进行拆分,航班延误时间作为指标。当在整个数据上进行洞察时会发现5月的延误时间比11月高了很多,但当控制变量当日是否下雨时,会发现在下雨天5月的航班延误时间是要低于11月的,因此5月份更高的降雨率可能可以解释5月更高的航班延误时间。
InsightPilot就是基于以上三个数据分析引擎,使用大模型进行串联,来完成用户的数据洞察需求。还是那个观点,LLM+Agent的组合中,真正重要的是Agent,LLM只是负责基于上下文语义来选择最合适的Agent,并基于Agent的返回内容来决定下一步的操作,说白了就是串场子的,当然最后也需要LLM来生成数据分析报告。
这里大模型主要负责:初始化->洞察选择->意图选择->洞察选择->意图选择…->报告生成
初始化任务:会先调用QuickInsight生成数据集的基础洞察,然后使用Prompt,让LLM基于Agent返回的多条数据洞察,用户Query,和数据集的描述(类似DB Schema),来选择一条洞察结果来进一步分析。意图选择任务:如何分析以上洞察,这里分了三个意图,分别对应以上的3个Agent,Understand-QuickInsight, Summarize-MetaInsight, Explain-XInsight。大模型会基于用户query,以上选择的洞察内容,来选择一个Agent来继续分析洞察选择:基于Agent新产生的多个数据洞察,如果LLM判断无法回答用户问题,则会选择一个洞察继续分析报告生成:最后基于TopK数据洞察生成报告来解答用户问题在最后筛选保留Top-K洞察的部分,论文还加入了Ranking环节,说是排序但看实现上,更像是消重+相似度过滤+打散。
首先洞察之间两两消重,如果A洞察包含B洞察的内容,则删除B洞察其次是相似度过滤,会过滤和用户提问关联较低的洞察。不过这里其实有些存疑,因为洞察存在维度下钻和多维度对比,似乎感觉相似度不太合适作为过滤标准。最后是打散策略,是为了降低洞察之间的相似度,提高最终内容的丰富度。这里使用了以下的二阶近似打分的策略如下,其中|I|是每条洞察的有用性打分,交集打分是两条洞察有用性的最小值*洞察重叠度,整体策略是为了提高TopK洞察整体包含的信息量最终是InsightPilot生成的报告效果,以及支持用户对报告内容的每个段落,进行数据验证,当点击第一个段落Inspire Me时会生成对应段落相关的数据图表(右图)。老实说只看这个Demo,效果有些惊艳,不过真正厉害的是上面的三个洞察引擎,LLM只是大自然的搬运工和文案工作者。
几个月前我们就聊过RAG的经典方案解密Prompt系列14. LLM Agent之搜索应用设计。前几天刚看完openAI在DevDay闭门会议上介绍的RAG相关的经验,有些新的感悟,借此机会再梳理下RAG相关的优化方案。推荐直接看原视频(外网)A Survey of Techniques for Maximizing LLM Performance
RAG最关键的一环其实不是LLM而是相关内容的召回,作为大模型推理的上文,优秀的内容召回应该满足以下条件:
多样性和召回率:召回的内容要可以回答问题,并且内容丰富度,包括同一问题多个观点,多角度相关性和准确率:召回内容和问题相关,总不能召回100篇里面只有2篇和问题有关一致性和低冲突:召回内容间的观点一致性较高更高要求:高时效性,权威性,观点完整性,内容重复度低这里不妨借鉴前人经验,参考搜索的主流框架:Query理解和扩展 -> 多路召回 -> 合并排序 -> 重排和打散。过去几个月RAG的论文也像是把传统搜索的方案,使用LLM轮番做了一遍范式更新。本章我们先围绕召回内容的多样性唠上两句。
直接使用用户Query进行向量检索,召回率往往不高,原因有以下几个
query较短,本身信息有限短文本的embedding效果较差query短文本向量和document长文本向量存在空间表征差异用户对自己想问的内容比较模糊用户的query提问可能需要多个方向的信息聚合才能回答以上问题其实覆盖了两个点:Query本身包含信息的多样性,搜索索引的多样性。下面我们结合新老论文,以及langchain新增的一些功能,来分别介绍~
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
大模型 AI 能干什么?大模型是怎样获得「智能」的?用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例:向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示(Embeddings)向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
为什么要做 RAG什么是模型什么是模型训练求解器 & 损失函数简介小实验2:手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身:基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例:如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】有需要的小伙伴,可以Vx扫描下方二维码免费领取==
相关知识
情人节消费数据洞察:鲜花和礼品销售进入全盛时期
洞察|艾普思咨询:2022七夕大数据洞察及舆情分析报告
洞察虫情数据,智能虫情测报灯引领智慧农业发展
梅花数据:新媒体医药传播洞察
花卉大数据分析与消费市场洞察
最后48小时,收好这份情人节消费数据洞察
全场景兴起,用户洞察逻辑变了
《2024女性营养健康618洞察报告》
七夕餐饮数据洞察 | 餐厅预订上涨95%,超西方情人节
深度洞察,揭秘网络调研的新趋势与影响——调查报告网,重塑信息时代的数据力量
网址: 数据洞察:InsightPilot https://m.huajiangbk.com/newsview1548572.html
上一篇: 深入洞察2万名中国女性,花西子× |
下一篇: “以油养肤”:面部精华油赛道还值 |