📣 独立日限时特惠: VIP通行证立减$68
查看: 770| 回复: 1
跳转到指定楼层
上一主题 下一主题
收起左侧

【开源】我花一个月做了个数字人开源项目Opentalking!支持实时对话、口播生成。

 
全局:

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看附件。没有帐号?注册账号

x
两个月之前想开始当up主,但是又不想真人出镜掉马甲,发现可以搞数字人。我也尝试了一些,要么收费很贵,要么效果不太行。其实有很多开源的模型出来了,不管是对口型的还是语音生成都有很多不错的模型出来。但是单独针对每个模型写个端到端pipeline重复工作有点多,所以我们几个朋友就做了个开源项目OpenTalking。目前大概1.7K stars,期间还被知乎官方推荐了。这是小弟我的人生第一个开源项目,看着它慢慢有人关注有人用其实还蛮开心的!

大家可以点击下面的链接来体验!欢迎提issue!如果喜欢的话麻烦点点Star支持我们!

网址: https://github.com/datascale-ai/opentalking
我们这个项目的定位是:企业级数字人编排框架。主要有几个功能:
  • 打通了 ASR → LLM → TTS 全部的流程,每个组件解耦,对接了多种SOTA模型,不管你是什么计算资源都可以找到适合自己的方案 (我们测试过 Nvidia 4050, 5070, 3090, 4090, 以及专业级显卡昇腾910B)
  • 在云厂商平台放了个镜像,大家可以一键启动去在线体验
  • 支持实时对话、离线口播视频生成、视频克隆等等功能,能满足很多的需求
  • 支持自定义数字人: 自定义数字人形象、音色克隆、背景、知识库、记忆库等等
直接上图:
  • 操作界面




  • 实时对话可以在github readme看一下demo
  • 离线口播生成

  • 视频克隆:可以根据摄像头自己的表情、口型来实时变化




  • 知乎官方推荐



评分

参与人数 4大米 +13 收起 理由
instant_dev + 10 给你点个赞!
nicole_01 + 1 给你点个赞!
Captainow + 1 赞一个
18M + 1 太有才了!

查看全部评分


上一篇:基于Multimodal AI开发了一个应用: 通过描述照片来练习&评估英语口语&写作表达能力
🔗
 楼主| 天才小戏精 4 天前 | 只看该作者
全局:
欢迎大家体验反馈!!!!也欢迎参与进来一起开发~~~~~
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号
隐私提醒:
  • ☑ 禁止发布广告,拉群,贴个人联系方式:找人请去🔗同学同事飞友,拉群请去🔗拉群结伴,广告请去🔗跳蚤市场,和 🔗租房广告|找室友
  • ☑ 论坛内容在发帖 30 分钟内可以编辑,过后则不能删帖。为防止被骚扰甚至人肉,不要公开留微信等联系方式,如有需求请以论坛私信方式发送。
  • ☑ 干货版块可免费使用 🔗超级匿名:面经(美国面经、中国面经、数科面经、PM面经),抖包袱(美国、中国)和录取汇报、定位选校版
  • ☑ 查阅全站 🔗各种匿名方法

本版积分规则

>
快速回复 返回顶部 返回列表