1 编程辅助工具
1.1 前端辅助
screenshot-to-code 35.8k⭐: 屏幕截图转 HTML/CSS 代码(GPT4+DALL-E 3)
draw-a-ui 11.6k ⭐:根据绘制的线框自动生成 html(基于GPT4)
1.2 其他编程辅助
GPT Pilot 基于人类反馈自动构建应用 27.4k ⭐
2 语音/音乐项目
Amphion 3.3 k ⭐:开源音频、音乐和语音生成工具包
2.1 语音识别
Whisper 语音识别 46.4k ⭐:一种通用语音识别模型。它是在大量不同音频数据集上进行训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别
whisper.cpp 23.8k ⭐: Whisper 模型在 C/C++ 中的移植 Whisper JAX 3.5k ⭐:Whisper 模型的优化 JAX 代码,70 倍提速 演示demo
2.2 语音克隆
SV2TTS 5秒克隆语音 48k ⭐
TTS: 文本转语音/语音克隆 20.3k ⭐
少样本语音克隆 14.2 k ⭐
2.3 音乐创作
名人歌曲音色替换 19.5k ⭐(已停止维护)
哼唱自动编曲(非开源,结果可免费商用)
3 图像处理工具
3.1 图像修复
- upscayl 18.6k⭐:跨平台免费开源的图像超分辨率工具
- CodeFormer 10.5k⭐:针对人脸的图像修复,演示地址
- LaMa 6.5k⭐:智能图片橡皮擦(2021年的技术,但还挺好用的)
- DiffBIR 2.2k⭐:基于扩散模型的图像修复工具
- image-matting 88 ⭐:人像和物体抠图,支持 docker,无需 GPU
- Magicfic 在线网站:图像超分辨率(感觉效果比较好)
3.2 人像处理
- AnimeGANv2 1.1k⭐:人像卡通化(无遮挡高清正面照效果会比较好)
- FigureToCartoon 在线网站:一键将图片转换成日漫风、3D 风、手绘风等
3.3 OCR 工具
Surya 6.7k⭐:文档OCR、布局分析、阅读顺序、线条检测(90 多种语言)
Maker 3k⭐:PDF 转 Markdown,支持表格/公式/代码(暂不支持中文)
nougat 7k⭐:学术文档 PDF 解析器,可以理解 LaTeX 数学和表格(不好用)
SimpleTex 在线网站:识别 Latex 公式(效果好,免费,个人推荐)
3.4 综合工具
- clipdrop 在线图像处理网站:涂鸦、修复、背景修改、文字去除
4 视频处理工具
4.1 视频修复
- Topaz 视频修复软件:视频清晰化/视频补帧/插帧 (软件下载 使用说明)
- ProPainter 3.3k⭐:2023ICVV,支持视频补全、物体移除、去除水印
4.2 视频生成/编辑
- CoDeF 4.5k⭐:视频风格转换(优点在于不同帧之间一致性强)
- MagicEdit 1.5k⭐:视频魔法编辑,支持视频风格化、局部修改、视频生成
- PIKA 在线网站:多风格且高质量的视频生成和编辑(表现效果较好)
- clipdrop 在线网站:根据提示词实时修改/生成图片内容(效率快)
4.3 视频动作捕捉
- move.ai 在线网站:基于AI的智能动作捕捉,支持2D动画和3D模型
- Animate Anyone 在线网站:自动提取静态图片人物,实现动态视频(帧间波动小)
4.4 3D 建模工具
- gaussian-splatting 5.8k⭐:视频转 3D 建模(像素越高,效果越好)
- Neuralangelo 3.7k⭐:视频转 3D 建模(建模表面高保真度)
- DreamGaussian 2.2k⭐:图像/文本转 3D 建模
- Instruct-NeRF2NeRF 627⭐:使用指令编辑 3D 场景 (ICCV 2023)
- Large Multi-View Gaussian Model:594⭐:图像/转 3D 建模(202402)
4.5 其他视频工具
AI voice 在线网站:自动配音/生成AI讲解的短视频
5 其他项目
[神经网络-playgroud](A Neural Network Playground) 可视化多层感知器神经网络的训练过程
The Alexandria Index 已完成 Arxiv 所有论文题目和摘要的嵌入表示(已 1 年未更新)