在资料分析的过程中,花最多时间的事就是在理出资料处理的逻辑,要花很多时间与资料互动,就像第二天提到资料探勘流程中的三个阶段:资料准备(Data Preparation)、建模(Modeling)、评估(Evaluation),其实都会需要一直迭代的,直到取得有效的结果或可行的方案,资料处理更是占了整个探勘流程多数的时间。所以AWS和市面上许多ETL的工具,都希望可以帮使用者优化这个流程。接着介绍Glue ETL功能中可以与资料互动的工具。
Notebook:
先建立开发端点Dev endpoint,可以在左方工具栏的中下方找到
建立端点後需要等待点时间
待开发端点建立好,可以到notebook分页建立互动开发环境
有两种环境可以依使用习惯选择,SageMaker是AWS的服务(後面会介绍),而SageMaker notebook使用上和jupyter notebook 几乎一样。
另一个新功能是Glue Studio:
Glue Studio与 notebook的差别是,Glue Studio提供更高阶的图形化界面让,使用者能用点选的方式就建立资料处理程序码。
Glue工具栏点选後点选後会转跳到Glue Studio专属页面
从左方工具来点选至Jobs分页即可建立新的处理任务
就会进入图形化开发平台
在中央画布上方的工具列中点选source,选取资料源
多资料源可以直接新增
点选Trainsform新增处理流程,可以调整这两份资料要如何交集
设定合并条件/合并栏位
新增mapping处理程序,可以在这个节点设定资料格式或拿掉不要的栏位
设定储存目的地
在Script分页可以看到刚刚点选的流程安排所对应的程序码,右上方可以点选save
利用视觉化工具将处理逻辑整理成程序码,可以节省时间也减少一些不必要的输入错误。
<<: 入门魔法 - 常用阵列方法(二)find、findIndex
前言 近年人工智慧与大数据十分热门,其背後需要许多有效的资料,先不论 Data Tagging 的部...
写在前面 placeholder for d10 placeholder for d10 place...
Interceptor 拦截器 在许多的Java Web 框架都有实现Interceptor 的方法...
开启Terminal 安装VNC server [tightvncserver] sudo apt-...
前言 今天先暂停一下sum的题目,来做top 100 liked的另外一题─287. Find th...