DeepAnalyze:一款面向自主数据科学的开源大型语言模型,可完成数据准备、分析、建模、可视化和报告生成等数据科学任务
你是否还在为繁琐的数据分析流程而苦恼?是否希望有一个工具能够自动完成数据科学任务,解放你的双手?今天,就为大家推荐一款神器——DeepAnalyze,它能帮你无需人工干预,自动完成数据科学全流程,效率提升 N 倍!
一、DeepAnalyze是什么
DeepAnalyze 是一个开源的 Agentic LLM,旨在无需人工干预即可自动完成数据科学全流程,包括数据准备、分析、建模、可视化和报告生成,支持多种数据源,帮助数据分析师、研究人员和企业决策者提高效率,解放双手。
DeepAnalyze 是由中国人民大学数据工程与知识工程实验室 (RUC-DataLab) 和清华大学的研究人员开发的,首个 Agentic LLM (大型语言模型),用于自主数据科学。它旨在无需人工干预,自动完成数据科学任务,包括数据准备、分析、建模、可视化和报告生成。DeepAnalyze 支持多种数据源,包括结构化数据 (数据库、CSV、Excel)、半结构化数据 (JSON、XML、YAML) 和非结构化数据 (TXT、Markdown)。

二、功能特征
DeepAnalyze 拥有以下核心功能特征:
- 全流程自动化: 自动执行数据准备、分析、建模、可视化和报告生成等数据科学任务。
- 开放式数据研究: 对各种数据源进行深入研究,并生成分析师级别的研究报告。
- 多数据源支持: 支持结构化、半结构化和非结构化数据。
- 完全开源: 模型、代码、训练数据和演示都是开源的,允许用户部署或扩展自己的数据分析助手。
三、操作指南
以下是 DeepAnalyze 的快速上手指南:
- 环境准备:
- 安装 Python 3.12
- 创建 conda 环境:
conda create -n deepanalyze python=3.12 -y - 激活 conda 环境:
conda activate deepanalyze - 安装依赖:
pip install -r requirements.txt
- 部署 DeepAnalyze-8B: 使用 vllm 部署 DeepAnalyze-8B:
vllm serve DeepAnalyze-8B -
运行数据科学任务:
from deepanalyze import DeepAnalyzeVLLM prompt = """# Instruction Generate a data science report. # Data File 1: {"name": "bool.xlsx", "size": "4.8KB"} File 2: {"name": "person.csv", "size": "10.6KB"} ... (更多数据文件) """ workspace = "/path/to/your/workspace/" deepanalyze = DeepAnalyzeVLLM("/path/to/deepanalyze-8b/") answer = deepanalyze.generate(prompt, workspace=workspace) print(answer["reasoning"])
四、支持平台
DeepAnalyze 基于 Python 和 vLLM,可以在支持这些技术的平台上运行,包括:
- Linux
- 配备 GPU 的服务器
五、产品定价
DeepAnalyze 是一个开源项目,免费使用。
六、使用场景
DeepAnalyze 适用于以下场景:
- 数据分析师: 提高数据分析效率,自动生成报告。
- 研究人员: 快速分析大量数据,发现潜在规律。
- 企业决策者: 基于数据分析结果,做出更明智的决策。
- 数据科学爱好者: 学习和实践自主数据科学技术。
七、运作模式
DeepAnalyze 的运作模式是:
- 接收用户指令和数据源信息。
- 利用 LLM 自动执行数据准备、分析、建模、可视化等任务。
- 生成数据科学报告,并提供分析结果。
结语
数据分析师要失业?这款 Agentic LLM,无需人工干预,自动完成数据科学全流程,效率提升 N 倍!如果你是数据分析师、研究人员或企业决策者,并且希望提高数据分析效率,那么 DeepAnalyze 绝对值得一试!
网址: https://github.com/ruc-datalab/DeepAnalyze
注:请在使用 DeepAnalyze 时,遵循 MIT 许可证,尊重开源协议。

