- 大家好,如果你是从第一天就开始看的人,我是真心非常感谢您的陪伴,陪我走过了这疯狂的 30 天,想当初只是我实验室同学怂恿我报名,而且还是在开赛前一天讲的,最後还被他放鸽子(但我还是很感谢他让我知道有这个比赛啦 XD,而且也很努力帮我按赞),中间经历了产学进度压力,实验进度压力,赶稿压力,最後抵达终点我真的快在电脑桌前哭出来啦!不过在哭之前我们还是回顾一下这 30 天做了什麽,以及可以改进的地方。
回顾
- 【Day1】准备出发
- 转换声音这件事并不是一件很有创意的事,在 2018 年的时候琴鸟这家公司就成功了
- 大纲,结果最後并没有完全照着走 XD
- 【Day2】声音的一些基本介绍
- 介绍人声怎麽来的
- 介绍 Sample Rate, 频谱图, 梅尔频率
- 【Day3】声音的特徵提取
- 介绍梅尔倒频谱, 梅尔倒频谱系数, 过零率, 频谱质心
- 【Day4】音乐分类小实验
- 使用资料集 GTZAN 实作一个音乐流派分类 model
- 【Day5】从频域到 wave 的转换,浅谈虚数可以拿来 Train Model 吗?
- 谈论虚数是否可以拿来 Train Model 这个问题当初困扰我很久
- 介绍 Griffin Lim 演算法,尝试把频域的讯号转回 waveform
- 【Day6】窗涵式,n_fft ,hop_length 到底什麽意思啊?
- 介绍窗涵式, n_fft , hop_length 这些常看到的参数意义
- 这是一个不太好的安排,应该再更早之前就先介绍的
- 【Day7】Vocoder Model 以及 WaveNet 介绍
- 介绍 Vocoder Model
- 介绍 WaveNet (附有实作,因为不是焦点所以只有贴连结在上面)
- 【Day8】用 MelGan 把 Mel 转成 Waveform
- 介绍 MelGan
- 【Day9】 Speaker Identification 介绍与 D_VECTOR 实做
- 介绍更从古至今的 Speaker Identification 方式
- 介绍与实作 D_VECTOR
- 【Day10】声音转换概述 - 再次出发!
- 谈论声音转换目的与碰到的困难
- 描述声音资料集的之间的差异
- 尝试用数学一点的方法描述声音转换这个问题
- 【Day11】AutoVC 简介
- 介绍 AutoVC 这个声音转换 model
- 【Day12】AutoVC 实作 Pytorch 篇 - 1
- 介绍 AutoVC 官方作法,资料集处理的部分
- 【Day13】 AutoVC 实作 Pytorch 篇 - 2
- 快速带过 AutoVC 官方作法训练与 model 制作以及最後生成的方法
- 【Day14】Pytorch 转 Tensorflow
- 分享从 Pytorch 到 Tensorflow 碰到的问题以及解决方法
- 以目前作产学案的经验来谈,我觉得这是一个非常实用的技能,它让你可以更自由地享受两种不同框架的好处
- 【Day15】AutoVC 实作 - Tensorflow 篇
- 再固定资料集处理的部分,训练与 model 制作全改成 Tensorflow 来作
- 我现在正在调查 dim_neck 这个参数造成的问题
- 【Day16】音乐生成,我是要生成什麽?
- 讨论音乐是否有限以及它们的套路
- 有想到单一个声音转换的主题在我没把全部的框架都走过一遍的情况下(像我没做 Star-Gan 那些的),我很难写出 30 天的文章
- 我在音乐生成的时候有做过一些事,也是在那时候接触了 Transfomer,想说趁这个机会再 Run 一次这个专题
- 【Day17】音乐与自然语言处理的奇妙关联
- 介绍 MIDI 这个音乐档案格式
- 【Day18】在 Python 里头利用 Mido 进行编曲
- 用 Mido 实作 "追追追" 钢琴音并输出成 MIDI 的档案格式
- 【Day19】用 4 种不同的 GAN 模型生成音乐简介
- 简介之後要来拿来作实验的 4 种不同模型架构
- 介绍与前处理资料集
- 【Day20】WavenetGan, BidirectionalLSTMGAN, WaveGan 钢琴音乐生成
- 实作前 3 个 model 与训练加上生成
- 【Day21】Transformer 新手包 (一)
- 说明为什麽要做 Transformer
- 简介 Seq2Seq 模型
- 介绍注意力机制与简介自注意力机制
- 【Day22】Transformer 新手包 (二)
- 介绍 Query,Key,Value
- 介绍 Multi-Head Attention
- 介绍 Positional Encoding
- 【Day23】Transformer 新手包 (三)
- 实作 Positional Encoding
- 实作 Decoder 里头的 Mask
- 实作 attention
- 【Day24】Transformer 实作包(一)
- 实作 Transformer Encoder 的部分
- 【Day25】Transformer 实作包(二)
- 实作 Transformer Decoder 的部分
- 讲一些 Transformer 的短处
- 【Day26】 音乐如何引起人的情绪
- 简单讲一下音乐跟人的情绪反应
- 现在觉得这个部分放在这边有点奇怪
- 【Day27】音乐情绪与乐理
- 简单说明音乐情绪模型
- 乐理的部分觉得还满有趣的,如果要真得想跟 AI 一起创作的话,觉得这部分应该要学一下比较好
- 【Day28】一些实用好工具 - 自制 Youtube-downloader
- 单纯跟大家分享一些常拿来用的工具
- 【Day29】漫谈 AI 在音乐上其他的优秀作品
- 最近才发觉原来已经有超级高水平的 AI 音乐创作了
- "Compound Word Transformer" 这个西可以帮助我们做得更好,而且比较有机会弄出来
- 【Day30】回顾与完赛心得
- 我们回顾完了,可以来聊聊心得了
心得
好了可以开始哭了 XD
-
这是我第一次参加 IT 铁人赛,总结一下觉得应该要在开赛前就先把 30 天的实验跟文章 都规划准备好再来比会比较舒服一点,这次能够完赛也全要归功於平常就有在 Hackmd 上做的笔记,但因为没有做好文章的先後顺序规划,所以中间有一点跳 Tone,下次如有想跟大家分享的事会再改进
-
虽然 IT 铁人赛已经结束了,但要是文章有找到 BUG 还是会做更新,另外一开始放所有 Code 的 Repo 也还没整理完,之後会陆续补齐
-
最後非常感谢主办单位举办这个比赛,还有耐心看完文章的你们,大家有缘再见!
<<: [13th][Day22] multistage
>>: Day30 - 云端 Study Lab 总结,清除 GCP 专案