阿里推出AI数据科学家,全流程自动化,科研小白也能用

发布日期:2024-09-17 17:13

来源类型:同花顺财经 | 作者:冯玉玺

阅读提醒: 魔搭社区 投稿 量子位 | 公众号 QbitAI 基于开源Agent框架,可自动解决复杂数据科学问题的Agent来了! 具体来说,Data Science Assistant(以下称DS Assistant)是基于Modelscope-Agent框架开发的数据科学助手。 有了它,我们只需给需求,这个助手就能自己跑完探索性数据分析(EDA)、数据预处理、特征工程、...
【2024澳门天天开好彩大全开奖记录】 【澳门天天六开彩正版澳门】 【新澳天天开奖资料大全最新54期澳】 【2024年正版资料免费大全】 【澳门最准一肖一码】 【澳门一码一码100准确】 【澳门天天开彩期期精准】 【2024澳门天天六开彩结果】 【2024澳门特马今晚开奖】 【2024澳门精准正版澳门码】 【澳门六开彩天天开奖结果】 【澳门六开彩天天免费下载】 【2024新澳天天开好彩大全】

魔搭社区 投稿

量子位 | 公众号 QbitAI

基于开源Agent框架,可自动解决复杂数据科学问题的Agent来了!

具体来说,Data Science Assistant(以下称DS Assistant)是基于Modelscope-Agent框架开发的数据科学助手。

有了它,我们只需给需求,这个助手就能自己跑完探索性数据分析(EDA)、数据预处理、特征工程、模型训练,模型评估等步骤。

当然,除了本文将重点提到的DS Assistant,它背后的Modelscope-Agent框架也值得说道。

这个框架由阿里开源,主要特点包括:

可通过vllm、ollama等工具接入各主流开源模型,也可以直接调用模型API; 提供RAG组件支持开发者快速接入知识库; 工具生态丰富,支持大量的Modelscope社区模型作为工具,也支持直接调用langchain的工具,还接入了各类常用的工具,如web-browsing、文生图、code-interpreter等;

更妙的是,Modelscope-Agent框架允许开发者无需编码即可交互式地创建Agent助理。

这不,啪的一下,咱们的数据科学助手“诞生”了~

复杂数据科学任务自动化

实现复杂数据科学任务自动化一直存在挑战。

传统的ReAct(Reasoning and Action)框架对于简单的任务比较有效,但是有以下缺点:

每次工具调用都需要一个LLM调用。 LLM一次仅计划1个子问题。这可能会导致任务的轨迹更加不可控,因为它不会被迫“推理”整个任务。

而DS Assistant使用了plan-and-excute框架,这是一种新兴的Agent框架,通过明确计划和执行步骤高效完成复杂任务。

langchain官网对Plan-and-execute Agent的描述:https://blog.langchain.dev/planning-agents/

具体而言,其工作流程括以下几个步骤:

1、任务计划:Agent接收用户输入的任务描述,进行语义理解,将任务分解为多个可执行子任务。

2、子任务调度:基于任务之间的依赖关系和优先级,智能调度子任务的执行顺序。

3、任务执行:每个子任务分配给特定的模块执行。

4、结果整合:汇总各子任务的结果,形成最终输出,并反馈给用户。

基于上述框架,咱们接着看整个系统架构,DS Assistant整套系统有4个主要模块

先说右侧的DS Assistant,它作为整个系统的大脑,负责调度整个系统的运转。

Plan模块负责根据用户的需求生成一系列Task列表,并对Task先后顺序进行拓扑排序。

在这一阶段,DS Assistant根据用户输入的复杂数据科学问题,自动将其分解为多个子任务。

这些子任务根据依赖关系和优先级被组织和调度,确保执行顺序符合逻辑且高效。

接下来到了Execution模块,负责任务的具体执行,保存任务执行结果。

在这里,每个子任务被具体化为可执行的操作,如数据预处理、模型训练等。

最后是Memory management模块,负责记录任务中间执行结果,代码,数据详情等信息。

在所有Task执行完成后,DS Assistant会将中间数据的执行情况 ( 包括每个task生成的代码和结果,消耗token数,任务时间 ) 保存为文件。

案例实战

下面,我们以一个具体的例子来了解DS Assistant的执行过程。

我们选用Kaggle上的一个比赛任务ICR - Identifying Age-Related Conditions作为示例:

该任务是一项机器学习任务,主要目的是通过分析各种数据(如医疗记录、基因数据、生活方式数据等),识别与年龄相关的健康状况。

最终结果将用来帮助医疗专业人员及早发现老年人群中常见的健康问题,并提供个性化的预防和治疗方案。

废话不多说,我们这就开始~

首先,对于选用的LLM,我们需要配置一下。

我们引入MetaGPT的Data Science工具和Tool Recommender,可以根据任务类型向DS Assistant推荐合适的数据科学工具。

接着,我们需要将任务的具体要求传给DS Assistant。需要注意的是,在要求中需向DS Assistant指明数据文件的路径:

frommodelscope_agent.agents.data_science_assistantimportDataScienceAssistant

frommodelscope_agent.tools.metagpt_tools.tool_recommendimportTypeMatchToolRecommender

llm_config={

model:qwen2-72b-instruct,

model_server:dashscope,

}

tool_recommender=TypeMatchToolRecommender(tools=["<all>"])

ds_assistant=DataScienceAssistant(llm=llm_config,tool_recommender=tool_recommender)

ds_assistant.run(

"Thisisamedicaldatasetwithoverfiftyanonymizedhealthcharacteristicslinkedtothreeage-relatedconditions.Yourgoalistopredictwhetherasubjecthasorhasnotbeendiagnosedwithoneoftheseconditions.ThetargetcolumnisClass.Performdataanalysis,datapreprocessing,featureengineering,andmodelingtopredictthetarget.ReportF1Scoreontheevaldata.Traindatapath:‘./dataset/07_icr-identify-age-related-conditions/split_train.csv,evaldatapath:‘./dataset/07_icr-identify-age-related-conditions/split_eval.csv."

)

Plan阶段,DS Assistant会根据用户需求生成任务列表,将整个数据处理流程进行分解,接着对任务列表进行按顺序处理。

可以看到,DS Assistant生成了5个任务,分别是数据探索,数据预处理,特征工程,模型训练和预测。

然后这5个任务进入了Execute阶段,下面咱们挨个看一下。

Task 1: 数据探索

可以看到生成的代码在执行时报了如下错误,原因是没有引入numpy包

DS Assistant根据报错进行了反思,并重新生成代码并执行,成功输出数据探索的结果。

最后,code judge会对代码进行质检,确保本次生成代码逻辑正确。

Task 2: 数据预处理

在数据预处理阶段,DS Assistant分别对数值型数据和类别型数据进行了合适的缺失值处理,并清除了ID列。

Task 3:特征工程

在修复了两次错误后,DS Assistant对数据进行了特征工程的处理,对类别型变量进行编码。

同时对之前定义的categorical_columns变量进行了更新,去除了ID列。

Task 4:模型训练

DS Assistant主动安装了合适的依赖,并选择了多个模型(随机森林,梯度提升,逻辑回归)进行训练,并选择了结果最好的模型。

Task 5:模型验证

DS Assistant选择了训练集中F1分数最高的模型对验证集进行测试,并计算了这个模型在验证集上的F1分数,成功地完成了任务。

执行完以上任务后,DS Assistant支持将运行结果保存为Jupyter Notebook类型的文件,并记录运行的中间过程。

Jupyter Notebok

中间过程记录JSON文件 实验效果

我们使用ML-Benchmark作为测试集(指路论文“Data Interpreter: An LLM Agent For Data Science”),分别从Normalized Performance Score (NPS) ,total time,total token三个维度对DS Assistant效果进行评测。

其中NPS是一种将不同任务或模型的性能指标标准化的方法,使得不同指标之间可以进行比较。

它的计算通常涉及以下步骤:

步骤1:确定指标优化方向,判断性能指标是“越大越好”还是“越小越好”。

步骤2:规范化计算。如果指标是“越大越好”(如准确率、F1分数、AUC),NPS等于原始值;如果指标是“越小越好”(如损失值),则需要将原始值映射到接近1的较高NPS值。

规范化后的性能得分范围通常是0到1,其中1表示最优性能,0表示最差性能

实验任务详情和结果如下(绿色代表当前任务下最优指标 ):

可以看到,在部分复杂的数据科学任务上,DS Assistant在规范化性能得分(NPS),任务时间,消耗token数的指标上取得超过开源SOTA的效果。(其中开源SOTA效果指MetaGPT实测值)

完整实验日志:https://modelscope-agent.oss-cn-hangzhou.aliyuncs.com/resources/DS_Assistant_results.zip

总结

对不同的人来说,DS assistant有不同作用

不熟悉数据分析流程但是又有需要的同学,可以快速根据生成的任务以及处理过程,了解处理数据的思路,以及技术点。 对于了解数据分析流程的同学,可以通过详细的描述,来影响数据处理的方法,方便做不同的实验参照比较。 对于所有人,可以自动化的快速实现对于当前手上文件的更深层次的理解,仅需提问即可。

下一步,DS assistant将从三个方向展开优化

1、进一步提高任务执行成功率

a)对于Code Agent来说,传入信息量过大(报错信息,中间数据信息,已生成代码信息)会导致模型生成代码正确率下降,可以在未来考虑使用LLM进行总结,对信息进行筛选。

b)同一个Task可进行进一步的分解,以降低对LLM推理能力的要求。

2、对话交互式,可以将任务和任务的执行展示分开,通过对话的方式推进任务,并影响执行结果。

3、支持批处理相同任务多批文件的场景。

更多细节可进一步查看Modelscope-Agent官方仓库中Data Sciecne Assistant示例。

https://github.com/modelscope/modelscope-agent/blob/master/examples/agents/data_science_assistant.ipynb

投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容

附上论文/项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点这里?关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

返回搜狐,查看更多

责任编辑:

【2024澳门六开彩开奖结果查询表】 【2024澳门天天六开彩免费】 【2024澳门正版开奖结果】 【2021澳门天天开彩好资料】 【澳门六开彩天天免费领取】 【澳门王中王100%的资料2024】 【2024新澳门天天开好彩大全】 【新澳精准资料免费提供】 【2024新澳开奖记录】 【澳门三码三码精准】 【2024澳门天天六开好彩】 【2024澳门天天开好彩大全53期】 【新澳门天天彩2024年】 【新澳门六开彩开奖网站】
【新澳2024年精准资料期期】 【澳彩资料免费资料大全】 【澳门六开彩天天开奖结果生肖卡】 【新奥门特免费资料大全】 【新澳内部资料精准一码】 【2024天天开好彩大全正版】 【澳门一码一肖一待一中】 【新澳天天开奖资料大全】 【管家婆四肖四码新澳】 【澳门一码一肖一特一中管家婆】 【新澳门免费资料】 【2024新澳门天天彩开奖记录】 【2024澳门天天开彩】 【2024年澳门的资料】

下载中心

视频封面

视频名称:被美国关注后,药明康德公布10亿元A股回购计划

大小: 2.8GB 下载:(170456) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:从头到脚皆可替?《边水往事》黑丝透视装蒋奇明,给内娱上了一课

大小: 3.9GB 下载:(971426) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:过了30岁还单身的人,无非是这3种原因,很现实!

大小: 2.7GB 下载:(200084) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:形式主义傍上学生作业,有店铺代做手抄报卖出20万单

大小: 7.9GB 下载:(784890) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:业主家中无人两月用水 330 吨,重庆自来水公司送检水表

大小: 5.6GB 下载:(68183) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:国办发文推动服务贸易规模增长、结构优化,解决服务业开放的难点、堵点、痛点《射雕英雄传》郭靖和黄蓉门不当户不对,为什么还能修成正果

大小: 2.3GB 下载:(199384) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:东莞—香港国际空港中心运行一年收效显著尹喜得《道德经》后竟连忙归隐深山,在书中他究竟发现了什么秘密

大小: 1.1GB 下载:(591493) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:十二生肖会因何被老板提拔

大小: 2.1GB 下载:(81985) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:女性上了年纪,害怕漏尿咋办?医生4种药用的越早,效果或越好

大小: 5.2GB 下载:(233784) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:哈里斯与特朗普:寻找政策共识方向

大小: 1.4GB 下载:(994409) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:《绝区零》上线公测,能否复制《原神》的传奇故事?新黄河专访米哈游制作团队丨大鱼财经

大小: 5.3GB 下载:(985475) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:多方关注普京将出访蒙古国!佩斯科夫:此访“各方面都经过精心准备”

大小: 9.9GB 下载:(21678) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:盘前情报丨央行买入4000亿元特别国债;《食用植物油散装运输卫生要求》拟立项强制性国家标准25张第一眼总会看错的错觉照,感觉大脑被欺骗了

大小: 5.1GB 下载:(677966) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:最新通报:河南多名干部被处理!

大小: 8.6GB 下载:(658864) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:专家解读房屋养老金制度:建立的公共账户不会加重业主负担

大小: 4.4GB 下载:(195624) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:震撼揭秘!揭开杨戬真面目!

大小: 8.4GB 下载:(200866) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:四位奥运健儿空降“好六街” 开学季“迎新运动会”寄语青少年

大小: 4.2GB 下载:(929090) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:依旧比魅族手机贵!吉利造机第四波,领克手机来了

大小: 2.1GB 下载:(34227) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:“拼出”人类生命奥秘完整“拼图”,中国正引领这一大科学计划

大小: 4.1GB 下载:(612861) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:《黑神话:悟空》爆火 给重庆游戏产业带来怎样的启示

大小: 2.6GB 下载:(160482) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:小说:男子嘲讽小伙自不量力,小伙一拳将他打成血人:你输了

大小: 1.4GB 下载:(326777) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:史上最快塌房偶像!TF三代登陆少年余宇涵成团第二天就退团

大小: 4.6GB 下载:(388715) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:国产运动品牌四大巨头各显神通 下沉的361度偷偷“跑”赢了安踏

大小: 4.4GB 下载:(643058) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:一个人越来越好的迹象,出现这三件事

大小: 1.8GB 下载:(183645) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:TOP登陆少年宣誓绝不恋爱不私联不中途退团

大小: 9.3GB 下载:(908429) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:进一步全面深化改革必须坚持全面依法治国正能量电影推荐:每一部都是必看经典!让你重新找回对生活的动力

大小: 5.2GB 下载:(297449) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:喜剧人!马琳帮王曼昱弹身上飞虫,不小心弹到刘国梁身上,孙颖莎嫌弃

大小: 4.9GB 下载:(975603) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:稳健增长!泸州老窖上半年营收16905亿元,同比增长1584%

大小: 8.8GB 下载:(404684) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:延迟退休还有哪些配套政策?养老金如何计算?专家解读

大小: 5.4GB 下载:(678266) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:【论坛】以习近平文化思想引领非物质文化遗产保护传承

大小: 9.9GB 下载:(849391) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)
视频封面

视频名称:从神坛跌落,太二酸菜鱼的价格战能否重振昔日辉煌?马蜂每年都要换新巢,利用过去的老巢岂不更方便?面临3大困难

大小: 6.9GB 下载:(744411) 语言: 中文字幕 最后更新: 2024年09月18日

下载视频 (注:防盗链已开启)

评论

打开APP查看28条评论

赵立强

9秒前

我们使用ML-Benchmark作为测试集(指路论文“Data Interpreter: An LLM Agent For Data Science”),分别从Normalized Performance Score (NPS) ,total time,total token三个维度对DS Assistant效果进行评测。

唐肃宗李亨

1分钟前

更多细节可进一步查看Modelscope-Agent官方仓库中Data Sciecne Assistant示例。

烈祖

2天前

先说右侧的DS Assistant,它作为整个系统的大脑,负责调度整个系统的运转。

发表您的评论: