南宫28官方通义千问接续开源众模态模子Qwen2-Audio音频分解本事鼎新行业
时间:2024-08-30浏览次数:
  8月13日音书,阿里通义大模子不绝开源,Qwen2系列开源家族新增音频叙话模子Qwen2-Audio。Qwen2-Audio能够不需文本输入,直接举行语音问答,领略并明白用户输入的音频信号,包罗人声、自然音、音乐等。该模子正在众个巨头测评中都明显超越先前的最佳模子。通义团队还同步推出了一套全新的音频领略模子测评基准,联系论文已入选本周正正在举办的邦际顶会ACL 2024。   声

  8月13日音书,阿里通义大模子不绝开源,Qwen2系列开源家族新增音频叙话模子Qwen2-Audio。Qwen2-Audio能够不需文本输入,直接举行语音问答,领略并明白用户输入的音频信号,包罗人声、自然音、音乐等。该模子正在众个巨头测评中都明显超越先前的最佳模子。通义团队还同步推出了一套全新的音频领略模子测评基准,联系论文已入选本周正正在举办的邦际顶会ACL 2024。

  声响是人类以及很众性命体用以举行交互和疏通的主要序言,声响中蕴藏充足的音讯,让大模子学会领略各样音频信号,看待通用人工智能的查究至为主要。Qwen2-Audio是通义团队正在音频领略模子上的新一步查究,比拟前一代模子Qwen-Audio,新版模子有了更强的声响领略才华和更好的指令伴随才华。

南宫28官方通义千问接续开源众模态模子Qwen2-Audio音频分解本事鼎新行业(图1)

  Qwen2-Audio是一款大型音频叙话模子(Large Audio-Language Model ,LALM),具备语音谈天和音频明白两种利用形式,前者是指用户能够用语音向模子发出指令,模子无需主动语音识别(ASR)模块就可领略用户输入;后者是指模子或许凭据用户指令明白音频音讯,包罗人类声响、自然声响南宫28官方、音乐或者众种信号杂沓的音频。Qwen2-Audio或许主动完成两种形式的切换。Qwen2-Audio援助突出8种叙话和方言,如中文、英语、法语、意大利语、西班牙语、德语、日语,粤语。

南宫28官方通义千问接续开源众模态模子Qwen2-Audio音频分解本事鼎新行业(图2)

  凭据Qwen2-Audio本事呈文,Qwen2-Audio的模子机闭包蕴一个Qwen大叙话模子和一个音频编码器。正在预熬炼阶段,递次举行ASR、AAC等众做事预熬炼以完成音频与叙话的对齐,接着通过SFT(监视微调) 加强模子打点下逛做事的才华,再通过 DPO(直接偏好优化)措施巩固模子与人类偏好的对齐。

南宫28官方通义千问接续开源众模态模子Qwen2-Audio音频分解本事鼎新行业(图3)

  曝东方甄选、与辉同行早就闹掰了,董宇辉或将获1.4亿赏赐;中科大警戒处请求硕士以上学历;深圳转移撤除停机解封需核验社保丨雷峰早报

  高管「选妃」视频宣传,碧桂园发声;英特尔公布裁人1.5万人;广州逛戏公司停业,逛戏被抵债给员工;董宇辉称继承不了全网声讨的感触丨雷峰早报

  河南大企暴力裁人称一分不赔、执法无所谓、花100万让你身败名裂,最新回应;腾讯扩张校招局限:卒业生也可出席;OpenAI人事巨变丨雷峰早报

  事闹大了,俞敏洪20年心腹曝罗永浩五宗罪:不择措施、人品极差的跳梁小丑;恒大向许家印等追讨400亿酬金及股息;声誉回应上市听说丨雷峰早报

  曝苹果恐吓腾讯、字节,不堵上支出缺陷就拒绝其更新上架;李邦庆追忆当当大战亚马逊:把它打得灰溜溜退出中邦;周鸿祎成三六零第一大股东丨雷峰早报

  IDC首发大模子墟市份额呈文:商汤科技位居前二,抢占天生式AI贸易先机

Copyright 2012-2023 南宫28(中国.NG)官方网站 版权所有 HTML地图 XML地图--备案号:鲁ICP备09041058号  备案号:鲁ICP备09041058号  
地址:山东省淄博市高新区柳泉路125号先进陶瓷产业创新园B座606室  邮箱:qht@3583100.com  电话:0533-3583100