云图娱乐2024年10月11日发布:阿里推出AI数据科学家,全流程自动化,科研小白也能用

⭐发布日期:2024年10月11日 | 来源:云图娱乐

⭐作者:渡洋史 责任编辑:Admin

⭐阅读量:118 评论:9人

【新澳门内部资料精准大全2024开奖结果今晚】

【澳门天天好】

【2023澳门天天六开好彩大全】 【2024年澳门资料免费大全】 【澳门彩管家婆一句话最新开奖记录】 【2024澳门正版资料免费大全】 【2024新澳门天天开彩免费资料】 【2024澳门管家婆资料大全免费】 【澳门天天彩期期精准龙门客栈开奖记录查询】 【澳门天天六开彩正版澳门开奖结果记录】
【新澳精准资料免费提供开奖结果查询】 【澳门天天彩2024年最新版】 【2024年新澳门天天】 【今天新澳门开奖结果】 【澳门精准最快大全天天开彩】 【2024年正版资料免费大全一肖】 【2024新奥开码结果开奖历史记录】 【2024新澳精准资料免费开奖结果记录】

魔搭社区 投稿

量子位 | 公众号 QbitAI

基于开源Agent框架,可自动解决复杂数据科学问题的Agent来了!

具体来说,Data Science Assistant(以下称DS Assistant)是基于Modelscope-Agent框架开发的数据科学助手。

有了它,我们只需给需求,这个助手就能自己跑完探索性数据分析(EDA)、数据预处理、特征工程、模型训练,模型评估等步骤。

当然,除了本文将重点提到的DS Assistant,它背后的Modelscope-Agent框架也值得说道。

这个框架由阿里开源,主要特点包括:

可通过vllm、ollama等工具接入各主流开源模型,也可以直接调用模型API; 提供RAG组件支持开发者快速接入知识库; 工具生态丰富,支持大量的Modelscope社区模型作为工具,也支持直接调用langchain的工具,还接入了各类常用的工具,如web-browsing、文生图、code-interpreter等;

更妙的是,Modelscope-Agent框架允许开发者无需编码即可交互式地创建Agent助理。

这不,啪的一下,咱们的数据科学助手“诞生”了~

复杂数据科学任务自动化

实现复杂数据科学任务自动化一直存在挑战。

传统的ReAct(Reasoning and Action)框架对于简单的任务比较有效,但是有以下缺点:

每次工具调用都需要一个LLM调用。 LLM一次仅计划1个子问题。这可能会导致任务的轨迹更加不可控,因为它不会被迫“推理”整个任务。

而DS Assistant使用了plan-and-excute框架,这是一种新兴的Agent框架,通过明确计划和执行步骤高效完成复杂任务。

langchain官网对Plan-and-execute Agent的描述:https://blog.langchain.dev/planning-agents/

具体而言,其工作流程括以下几个步骤:

1、任务计划:Agent接收用户输入的任务描述,进行语义理解,将任务分解为多个可执行子任务。

2、子任务调度:基于任务之间的依赖关系和优先级,智能调度子任务的执行顺序。

3、任务执行:每个子任务分配给特定的模块执行。

4、结果整合:汇总各子任务的结果,形成最终输出,并反馈给用户。

基于上述框架,咱们接着看整个系统架构,DS Assistant整套系统有4个主要模块

先说右侧的DS Assistant,它作为整个系统的大脑,负责调度整个系统的运转。

Plan模块负责根据用户的需求生成一系列Task列表,并对Task先后顺序进行拓扑排序。

在这一阶段,DS Assistant根据用户输入的复杂数据科学问题,自动将其分解为多个子任务。

这些子任务根据依赖关系和优先级被组织和调度,确保执行顺序符合逻辑且高效。

接下来到了Execution模块,负责任务的具体执行,保存任务执行结果。

在这里,每个子任务被具体化为可执行的操作,如数据预处理、模型训练等。

最后是Memory management模块,负责记录任务中间执行结果,代码,数据详情等信息。

在所有Task执行完成后,DS Assistant会将中间数据的执行情况 ( 包括每个task生成的代码和结果,消耗token数,任务时间 ) 保存为文件。

案例实战

下面,我们以一个具体的例子来了解DS Assistant的执行过程。

我们选用Kaggle上的一个比赛任务ICR - Identifying Age-Related Conditions作为示例:

该任务是一项机器学习任务,主要目的是通过分析各种数据(如医疗记录、基因数据、生活方式数据等),识别与年龄相关的健康状况。

最终结果将用来帮助医疗专业人员及早发现老年人群中常见的健康问题,并提供个性化的预防和治疗方案。

废话不多说,我们这就开始~

首先,对于选用的LLM,我们需要配置一下。

我们引入MetaGPT的Data Science工具和Tool Recommender,可以根据任务类型向DS Assistant推荐合适的数据科学工具。

接着,我们需要将任务的具体要求传给DS Assistant。需要注意的是,在要求中需向DS Assistant指明数据文件的路径:

frommodelscope_agent.agents.data_science_assistantimportDataScienceAssistant

frommodelscope_agent.tools.metagpt_tools.tool_recommendimportTypeMatchToolRecommender

llm_config={

model:qwen2-72b-instruct,

model_server:dashscope,

}

tool_recommender=TypeMatchToolRecommender(tools=["<all>"])

ds_assistant=DataScienceAssistant(llm=llm_config,tool_recommender=tool_recommender)

ds_assistant.run(

"Thisisamedicaldatasetwithoverfiftyanonymizedhealthcharacteristicslinkedtothreeage-relatedconditions.Yourgoalistopredictwhetherasubjecthasorhasnotbeendiagnosedwithoneoftheseconditions.ThetargetcolumnisClass.Performdataanalysis,datapreprocessing,featureengineering,andmodelingtopredictthetarget.ReportF1Scoreontheevaldata.Traindatapath:‘./dataset/07_icr-identify-age-related-conditions/split_train.csv,evaldatapath:‘./dataset/07_icr-identify-age-related-conditions/split_eval.csv."

)

Plan阶段,DS Assistant会根据用户需求生成任务列表,将整个数据处理流程进行分解,接着对任务列表进行按顺序处理。

可以看到,DS Assistant生成了5个任务,分别是数据探索,数据预处理,特征工程,模型训练和预测。

然后这5个任务进入了Execute阶段,下面咱们挨个看一下。

Task 1: 数据探索

可以看到生成的代码在执行时报了如下错误,原因是没有引入numpy包

DS Assistant根据报错进行了反思,并重新生成代码并执行,成功输出数据探索的结果。

最后,code judge会对代码进行质检,确保本次生成代码逻辑正确。

Task 2: 数据预处理

在数据预处理阶段,DS Assistant分别对数值型数据和类别型数据进行了合适的缺失值处理,并清除了ID列。

Task 3:特征工程

在修复了两次错误后,DS Assistant对数据进行了特征工程的处理,对类别型变量进行编码。

同时对之前定义的categorical_columns变量进行了更新,去除了ID列。

Task 4:模型训练

DS Assistant主动安装了合适的依赖,并选择了多个模型(随机森林,梯度提升,逻辑回归)进行训练,并选择了结果最好的模型。

Task 5:模型验证

DS Assistant选择了训练集中F1分数最高的模型对验证集进行测试,并计算了这个模型在验证集上的F1分数,成功地完成了任务。

执行完以上任务后,DS Assistant支持将运行结果保存为Jupyter Notebook类型的文件,并记录运行的中间过程。

Jupyter Notebok

中间过程记录JSON文件 实验效果

我们使用ML-Benchmark作为测试集(指路论文“Data Interpreter: An LLM Agent For Data Science”),分别从Normalized Performance Score (NPS) ,total time,total token三个维度对DS Assistant效果进行评测。

其中NPS是一种将不同任务或模型的性能指标标准化的方法,使得不同指标之间可以进行比较。

它的计算通常涉及以下步骤:

步骤1:确定指标优化方向,判断性能指标是“越大越好”还是“越小越好”。

步骤2:规范化计算。如果指标是“越大越好”(如准确率、F1分数、AUC),NPS等于原始值;如果指标是“越小越好”(如损失值),则需要将原始值映射到接近1的较高NPS值。

规范化后的性能得分范围通常是0到1,其中1表示最优性能,0表示最差性能

实验任务详情和结果如下(绿色代表当前任务下最优指标 ):

可以看到,在部分复杂的数据科学任务上,DS Assistant在规范化性能得分(NPS),任务时间,消耗token数的指标上取得超过开源SOTA的效果。(其中开源SOTA效果指MetaGPT实测值)

完整实验日志:https://modelscope-agent.oss-cn-hangzhou.aliyuncs.com/resources/DS_Assistant_results.zip

总结

对不同的人来说,DS assistant有不同作用

不熟悉数据分析流程但是又有需要的同学,可以快速根据生成的任务以及处理过程,了解处理数据的思路,以及技术点。 对于了解数据分析流程的同学,可以通过详细的描述,来影响数据处理的方法,方便做不同的实验参照比较。 对于所有人,可以自动化的快速实现对于当前手上文件的更深层次的理解,仅需提问即可。

下一步,DS assistant将从三个方向展开优化

1、进一步提高任务执行成功率

a)对于Code Agent来说,传入信息量过大(报错信息,中间数据信息,已生成代码信息)会导致模型生成代码正确率下降,可以在未来考虑使用LLM进行总结,对信息进行筛选。

b)同一个Task可进行进一步的分解,以降低对LLM推理能力的要求。

2、对话交互式,可以将任务和任务的执行展示分开,通过对话的方式推进任务,并影响执行结果。

3、支持批处理相同任务多批文件的场景。

更多细节可进一步查看Modelscope-Agent官方仓库中Data Sciecne Assistant示例。

https://github.com/modelscope/modelscope-agent/blob/master/examples/agents/data_science_assistant.ipynb

投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容

附上论文/项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点这里?关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

返回搜狐,查看更多

责任编辑:

【2024澳门金光佛网开奖结果】 【2024新澳免费资料彩迷信封】
【2024年澳门的资料热】 【2021澳门天天开彩】
【2024新澳天天彩免费资料开奖结果查询】 【澳门资料大全免费网点澳门五号】
【金鹰一码全年资料】 【新澳精选资料免费提供开】
【2024年新澳门天天开彩大全】 【新澳门2024最快现场开奖】
【2024澳门六开彩开奖结果查询开奖记录今晚】 【2024澳门资料免费大全开奖记录查询】 【新奥彩资料免费全公开开奖结果记录】
上一条新闻 下一条新闻

推荐文章

发表评论

克里斯·桑德斯

5秒前:"

IP:44.29.1.*

阿韦德·弗里斯

9秒前:在所有Task执行完成后,DS Assistant会将中间数据的执行情况 ( 包括每个task生成的代码和结果,消耗token数,任务时间 ) 保存为文件。

IP:82.92.1.*

曲高位

3秒前:在数据预处理阶段,DS Assistant分别对数值型数据和类别型数据进行了合适的缺失值处理,并清除了ID列。

IP:81.29.1.*

云图娱乐APP介绍

APP图标

澳门六开彩资料免费大全今天APP名:云图娱乐

版本:V8.64.488

更新时间:2024-10-10 15:15

2024年奥门天天开好彩大全这是一个功能强大的新澳门2024开奖APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:总结

2024老澳历史开奖记录APP介绍

APP图标

2004澳门天天开好彩大全APP名:云图娱乐

版本:V4.29.739

更新时间:2024-10-10 14:22

无论是天天彩澳门天天彩今晚开什么快速浏览新闻还是深入了解某个话题,这款新闻APP都能为您提供全面、精准的信息服务。

2024年管家婆精准一肖61期APP介绍

APP图标

2024澳门彩开奖结果APP名:云图娱乐

版本:V9.67.512

更新时间:2024-10-10 14:21

2024年澳门正版全年免费应用界面简洁易用,用户可以轻松浏览头条新闻、深度报道和特写文章。24小时内的热点资讯一目了然,让您随时掌握世界动态。此外,您还可以参与评论,与其他读者交流看法,形成一个互动活跃的社区。

2024年澳门全年免费大全APP介绍

APP图标

天天开澳门天天开奖历史记录APP名:云图娱乐

版本:V2.49.820

更新时间:2024-10-10 19:16

2024年澳门资料全年冤费这款新闻APP是您获取实时信息的理想伴侣。它汇聚了全球最新的新闻报道,涵盖政治、经济、科技、娱乐、体育等多个领域。通过个性化推荐功能,您可以根据兴趣定制新闻源,确保每条信息都与您相关。

2024澳彩管家婆资料传真APP介绍

APP图标

新澳门4949正版大全APP名:云图娱乐

版本:V4.79.230

更新时间:2024-10-10 15:14

这是一款功能强大的澳门正版资料大全资料生肖卡应用,专为帮助您高效完成各种任务而设计。它不仅提供最新的24小时热点资讯,还为您带来今日的最新动态:langchain.。无论是获取信息还是提升效率,这款APP都是您理想的助手。

2024新澳门天天六开彩APP介绍

APP图标

2024新澳彩资料免费长期公开APP名:云图娱乐

版本:V5.86.822

更新时间:2024-10-10 14:21

这是一款功能强大的2024年新澳门正版资料应用,旨在帮助您高效完成各类任务。它提供最新的24小时热点资讯,让您随时了解发生的重大事件。今天的最新内容包括:先说右侧的DS Assistant,它作为整个系统的大脑,负责调度整个系统的运转。,为您的生活和决策提供了重要参考。这款APP是您获取信息和完成任务的得力助手。

2024年正版免费天天开彩APP介绍

APP图标

新澳最新快资料APP名:云图娱乐

版本:V8.55.447

更新时间:2024-10-10 22:23

这是一款功能强大的2024澳门正版应用,专为帮助您高效完成各种任务而设计。它汇集了最新的24小时热点资讯,让您时刻掌握世界动态。今日的最新内容包括:Performdataanalysis,datapreprocessing,featureengineering,andmodelingtopredictthetarget.,为您的决策和日常生活提供有价值的信息支持。无论您需要了解什么,这款APP都能成为您不可或缺的助手。

新澳免费资料大全精准版APP介绍

APP图标

2024澳门精准正版澳门码APP名:云图娱乐

版本:V6.54.306

更新时间:2024-10-10 19:22

今天的最新动态包括:标题注明【投稿】,告诉我们: ,让您第一时间掌握关键资讯,做出明智的决策。这个应用不仅是您的信息获取工具,更是一个提升生活质量的得力助手。

4949免费资料2024年APP介绍

APP图标

2024澳门历史记录APP名:云图娱乐

版本:V5.59.952

更新时间:2024-10-10 15:17

这是一款功能强大的澳门2024最新饮料大全应用,能够帮助你高效地完成多种任务。它包括最新的24小时热点资讯,以及今天的最新动态:Traindatapath:‘.。

2024新澳资料大全APP介绍

APP图标

新澳姿料大全正版2024APP名:云图娱乐

版本:V4.53.496

更新时间:2024-10-10 18:20

这款功能强大的澳门62139ccom应用旨在提升您的日常效率,帮助您轻松应对各种任务。应用界面友好直观,用户可以快速导航,获取所需信息。它不仅提供最新的24小时热点资讯,还定期更新各种主题的文章和评论,确保您始终走在信息的前沿。

2024新奥彩免费资料APP介绍

APP图标

2024新澳免费资料五不中料APP名:云图娱乐

版本:V8.24.907

更新时间:2024-10-10 15:20

这款新闻APP是您获取实时新闻的最佳选择。它整合了全球各大新闻来源,提供最新的头条、热点和专题报道,涵盖从政治到娱乐的各个领域。用户可以根据兴趣自定义新闻推送,确保获取最相关的信息。

新澳门六开彩开奖结果2024年APP介绍

APP图标

2024澳门天天彩开奖结果查询APP名:云图娱乐

版本:V1.81.645

更新时间:2024-10-10 19:16

APP界面友好,支持快速浏览和离线阅读。您还可以通过搜索功能,快速找到特定主题的新闻。互动功能让您可以评论、分享文章,与朋友讨论热点话题。无论您是在通勤、休闲,还是工作间隙,这款APP都能让您轻松掌握最新动态。