Streamline Analyst

/content/opensource/streamline-analyst/demo.png

Streamline Analyst是一个开源的基于大语言模型的应用,目标简化数据分析中从数据清洗到模型测试的全部流程。

从分类预测、聚类、回归、数据集可视化、数据预处理、编码、特征选择、目标属性判断、可视化、最佳模型选择等等任务都可自主决策和执行。

用户需要做的只有选择数据文件、选择分析模式,剩下的工作就可以让AI来接管了。所有处理后的数据和训练的模型都可下载。

  • 目标变量识别: 若LLM无法确定,则提醒用户选择

  • 空值管理: 由LLM根据每列数据信息从均值、中位数、众数填充、插值,或引入新类别等策略中选择

  • 数据编码: 根据每列数据信息判断使用:独热编码、整数映射或标签编码

  • PCA降维

  • 处理重复实体

  • 数据转换和标准化: 利用 Box-Cox 转换和标准化优化数据分布和可扩展性

  • 平衡目标变量实体: LLM 推荐的方法如随机过采样、SMOTE 和 ADASYN 帮助平衡数据集,对于无偏见模型训练至关重要

  • 数据集划分比例: LLM 确定数据集的比例(也可以手动调整)

  • 模型选择和训练: LLM 根据数据推荐并使用最适合的模型进行训练

  • 群集数量推荐: 对于聚类任务,使用肘部法则和轮廓系数推荐最佳群集数量(可手动调整)

Github:https://github.com/Wilson-ZheLin/Streamline-Analyst/tree/main

Demo:https://streamline.streamlit.app/