公司新闻

ToRA:融合自然语言推理与外部工具 数学推理能力增强OB欧宝

  - 清华大学与微软合作开发的ToRA是一款革命性的工具集成推理代理,旨在通过将自然语言推理与外部计算工具结合,解决复杂数学问题。

  - ToRA模型经过训练,成功在多个数学推理数据集上取得了显著的性能提升,特别是在MATHS竞赛级数据集上,表现出高精度。

  - 这一研究为数学问题求解领域带来了重大突破,通过无缝集成自然语言理解和工具使用,ToRA代理在各种数学推理任务上实现了最先进的性能。

  站长之家(10月7日 消息:随着大型语言模型的出现,人工智能和数学问题求解领域取得了显著进展。然而,这些模型在面对复杂的数学挑战时仍然存在问题。为了解决这个问题,清华大学与微软的研究人员推出了ToRA,这是一种被称为“工具集成推理代理”的创新方法,旨在通过将自然语言推理与外部计算工具相结合,解决复杂的数学问题。

  研究人员已经开始将外部工具,如计算器、代码解释器和符号求解器,集成到数学问题求解中。虽然基于程序的方法已经成功地将推理任务转化为程序合成任务,但它们仍然面临着复杂的推理、规划和错误处理问题。将大型语言模型(LLMs)与这些工具相结合显著提高了推理和生成性能。知识蒸馏技术,如LLM生成的轨迹用于微调,也在将知识从教师模型传递给学生模型方面发挥了作用。

  尽管LLMs在语言任务中取得了显著进展,包括数学推理,但复杂的数学问题仍然具有挑战性。目前提高LLMs数学能力的策略包括逐步的自然语言推理和程序合成。前者在语义和抽象推理方面表现出色,而后者在严格操作中表现出色,并可以利用诸如方程求解器之类的专业工具。他们的方法在数学推理数据集上优于开源模型,在竞赛级MATHS数据集上取得了高精度。他们的方法还提供了关于工具交互的优势和未解决问题的见解,指导了该领域未来研究的方向。

  ToRA模型是通过在数学数据集上使用交互式工具使用轨迹进行训练的,采用模仿学习进行注释,并通过输出空间塑造来改进推理行为。GPT-4在训练集上生成了多样化的推理模式。指导性和少样本示例以交织的格式进行组合,用于提示的策划,并评估了ToRA代理的效果,它将理性与程序相结合。这一方法取得了显著的推理性能提升。所面临的挑战包括更深入地理解几何空间以及解决中级代数和预微积分问题中的复杂符号推理。

  ToRA通过将自然语言推理与外部工具相结合,增强了数学推理的能力。ToRA模型在十个数学推理数据集上表现出色,平均在程序化问题求解中超过开源模型13%-19%的绝对性能改进。他们的方法分析了工具交互的优势和挑战,突显了ToRA的工具集成推理格式的有效性,该格式将理性与程序执行相互交织。

  ToRA代理代表了数学问题求解领域的重大突破,通过无缝集成自然语言理解和工具使用,它在各种数学推理任务上实现了最先进的性能,超过了现有的理性和基于程序的方法。对工具交互的优势和挑战进行的全面分析为未来的研究提供了重要见解,有望开发更先进和适应性更强的推理代理。

  腾讯云618狂欢节特惠来袭!现在购买3年轻量云服务器,配置2核2G4M,只需396元!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!

  著名AI模型开源平台HuggingFace上有超过320,000个大模型,并且每天保持高速增长。据统计只有大约6,000个模型支持ONNX格式,但微软表示,实际上有超过130,000个模型支持该格式。在HuggingFace开源平台上还有10万个模型不支持ONNX格式,鼓励更多的技术研究机构、开源项目加入到ONNX社区,以通过ONNXRuntime增强开发效率。

  Trickle是一个支持GPT-4人工智能推理能力的截图集中管理平台,能够将你杂乱无章的截图转变成有价值的视觉备忘录。Trickle通过AI的文本理解与生成能力,不仅可以为你的每张截图生成概要能深入解码截图的本质,找到真正重要的信息。Trickle帮助你重新发现截图的价值,使之从杂乱无章的图片堆中脱颖出,成为organized和structured的视觉思维扩展。

  OpenAI开源的数学数据集,中国厂商新成绩一举冲到最前列!就在9月16日,国产大模型在权威推理评测集GSM8K中,首次达到了80%正确率,大幅领先GPT-3.5和LLaMA2-70B。且这家厂商在大模型榜单上刷新全球纪录,已经不是第一次了。可以不夸张地说一句,昆仑万维和它家的天工大模型,已经是大模型江湖中,一个绕不过去的狠角色了。

  昆仑万维表示,其自研的天工大模型在BenchmarkGSM8K测试中取得了80%的正确率,超过了GPT-3.5和LLaMA2-70B,达到了全球领先水平,接近于GPT-4。天工大模型还在MMLU、C-EVAL、HumanEval等多个数据集上表现出色,准确率均高于其他主流大模型。天工大模型目前仍处于内测阶段,将持续提升技术实力,为用户和企业提供强大的智能化助力。

  【新智元导读】昨天,Baichuan2-53B正式发布!首次开放API,意味着百川大模型开始正式进军商用了。模型的数学和逻辑推理能力都大幅飙升,对于幻觉的处理,已经在国内遥遥领先。已经有一令人印象深刻的创新,正在土壤中被酝酿了。

  大语言模型在改变人们的生活和职业方面影响越来越大,因为它们实现了编程助手和通用聊天机器人等新应用。这些应用的运行需要大量硬件加速器如GPU,操作成本非常高。更大的模型、更复杂的解码算法和更长的序列会导致更明显的改进。

  来自普林斯顿、UIUC等机构的华人团队提出一个用于加速大型语言模型推理速度的简单框架Medusa,并于9月12日开源发布。测试结果显示,Medusa可以将LLM的生成效率提高约2倍。研究人员称正在积极扩展Medusa的应用场景,集成到更多的推理框架中,以获得更高的性能提升。

  声明:本文来自于微信公众号新智元,作者:桃子润,授权站长之家转载发布。【新智元导读】H100让模型推理性能最高跃升8倍!英伟达最新开源软件TensorRT-LLM,将彻底改变LLM推理现状。从更加宏观的角度,也许对于LLM来说,也会出现一系列的专门针对硬件级别的优化,甚至未来会出现专门针对LLM设计的硬件来提升LLM的性能,这种情况其实已经在很多流行的应用中出现过了,LLM也不会例外。

  exllamav2是一个用于在现代消费级GPU上本地运行大型语言模型的快速推理库。它能够利用最新的GPU技术,在不牺牲太多质量的情况下,以非常快的速度对巨大的神经网络进行推理。随着它的不断发展和优化,相信它一定会让LLM的应用变得更加普及。

  数字经济时代,IT基础架构需要应对不断变化的业务需求以更好地推动业务创新发展,超融合凭借灵活扩展,简便运维管理的优势已成为众多行业用户上云的重要路径之一,凸显了超融合的应用价值。随着客户的覆盖广度增加,客户的使用体验和满意度反映了超融合厂商的产品水平和服务能力。PeerInsights旨在公开公正地传递来自企业用户最真实的声音,不存在任何偏袒与隐瞒。

  核心频率不同,CPU型号不同天玑9200+和天玑 9000 都是联发科的5G旗舰级芯片,天玑9200+和天玑9000都是采用台积电4nm工艺制程。天玑9200+的CPU最高主频为3.3GHz,而天玑 9000 的CPU最高主频为3.2GHz。两款芯片都支持双模5G、WiFi 6E和蓝牙5. 2 等技术。

  天玑9200+主频是3.0GHz,与骁龙 8Gen 2 相同,跑分要比骁龙 8Gen 2高一点点天玑 9200+ 处理器与天玑 9200 同架构,但所有核心频率增加,主频来到了 3.0GHz,与骁龙 8Gen 2 相同。跑分数据,天玑 9200+ 在 Geekbench v6 平台单核得分 2121 分,多核得分 5655 分。作为对比,骁龙 8Gen 2 的单核跑分成绩在大约 2000,多核成绩大约 5400。天玑9200+的安兔兔跑分大约为 136 万分,骁龙8Gen2 安兔兔跑分大约是128万分。

  在 Geekbench v6 平台单核得分 2121 分,多核得分 5655 分联发科已经正式官宣,天玑9200+将于 5 月 10 日发布,这款处理器的 Geekbench v6 跑分已经出现。天玑 9200+ 处理器与天玑 9200 同架构,但所有核心频率增加,主频来到了 3.0GHz,与骁龙 8Gen 2 相同。 根据爆料的跑分数据,天玑9200+在 Geekbench v6 平台单核得分 2121 分,多核得分 5655 分。 作为对比,骁龙 8Gen 2 的单核跑分成绩在大约 2000,多核成绩大约 5400。

  7天以上小米手环 8 搭载蓝牙 5.1,内置直流 3.87V 聚合物锂离子电池,型号为 M2239B1。上一代的小米手环 7 续航大约有9-15天左右。 小米手环 7 内置180mAh 电池。预计小米手环8的续航会比小米手环7续航略微提升一点。

  2K+ 分辨率魅族 20 Pro 采用6.81英寸直屏,2K+ 分辨率、100% P3 广色域、120Hz LTPO 高刷、最高 1200 nit 全屏亮度、最低 2 nit 全屏亮度,同时支持防蓝光、DC 调光等功能一应俱全;魅族 20 Pro采用旗舰级性能配置,包括顶级处理器第二代骁龙 8、12GB 起步的 LPPDR5X 大内存、至高 512GB UFS4.0 极速闪存以及 36424 平方毫米的立体散热堆叠。

  第二代骁龙 8,LPPDR5X+UFS4.0,2K三星E6 材质Super AMOLED屏幕魅族 20 Pro,内置第二代骁龙 8,LPPDR5X+UFS4.0,搭载了2K三星E6 材质Super AMOLED屏幕,屏幕尺寸6. 81 英寸,支持120Hz自适应屏幕刷新率和1500Hz瞬时触控采样率,峰值亮度可达1800nit,屏幕还通过了SGS抗蓝光、抗频闪护眼认证;破晓灰、曙光银、朝阳金三种配色,整机厚7. 8 毫米,重 209 克;镜头模组由 5000 万像素人像镜头、 5000 万像素广角镜头、 5000 万像素超广角镜头组成,支持全像素对焦技术搭配dTOF辅助对焦,官方称将使对焦速度提升33%。魅族20 系列的主摄均支持SMA防抖,最高8K视频录制和夜景录像功能;5000mAh电池配80W快充,支持50W无线GB三种存储组合,售价 3999 起。

  后置三摄,主摄 5000万像素,屏幕分辨率2496*2224华为Mate X3有「羽砂玻璃版:羽砂白、羽砂黑、羽砂紫」、「素皮版:晨曦金、青山黛」五款配色可选;覆盖昆仑玻璃;超轻薄折叠四曲设计,机身重量仅239g,厚度仅5.3mm, IPX8级抗水。屏幕拥有2496*2224超高分辨率和426ppi 超高像素密度。同样支持最高120Hz 自适应刷新率以及1440Hz PWM 调光。影像方面:搭载5000万像素超感知主摄,1300万像素超广角镜头,1200万像素潜望式长焦镜头。并配备10通道多谱传感器和激光对焦传感器,支持100倍变焦和5倍光学变焦。续航方面:配备4800mAh 大电池,支持50W 无线W 有线W 无线反向快充。性能方面:与华为 P60系列一样搭载了骁龙8+ 处理器,配备了超冷跨轴石墨烯散热系统,导热面积提升了20%。价格:华为Mate X3:256GB:12999、512GB:13999;华为 Mate X3典藏版:1TB:15999

  6. 67 英寸的OLED屏幕, 4800 万像素长焦镜头华为P60 系列在背部采用了矩阵型模组,官方称之为“凝光设计”,引入了“凝光贝母”工艺;华为P60 全系搭载了6. 67 英寸的OLED屏幕,拥有2700* 1220 刷新率,显示效果十分细腻,支持10. 7 亿色、1440Hz PWM调光。 同时支持全局色彩管理,支持莱茵专业色准双重认证;屏幕还支持LTPO动态高刷新率,支持1~120Hz自适应刷新率,还配备了昆仑玻璃面板,IP68 防尘抗水;相机方面,华为P60 Pro则进一步升级长焦镜头,配备了 4800 万像素RYYB的超聚光夜视长焦镜头,支持3. 5 倍光学变焦、OIS,拥有F2. 1 超大光圈;支持双向北斗卫星通信;5100 毫安时大电池+88W快充;首发搭载了全新的鸿蒙3.1,新增了AOD息屏显示功能。

  6.67英寸的OLED屏幕,支持1~120Hz的LTPO刷新率华为P60 系列的屏幕搭载了骁龙8+ 4G处理器,6. 67 英寸的OLED屏幕,支持1~120Hz的LTPO刷新率,支持1440Hz PWM调光,拥有10. 7 亿色、全局P3 色域、HDR-P3HDR Vivid显示效果;覆盖四曲昆仑玻璃,支持IP68 防水,是全球首款德国莱茵专业色准双重认证的手机;相机方面,华为P60 支持F1.4-4. 0 十档可变光圈,搭载大光圈高透光镜群和RYYB超感光传感器,支持了华为XD Fusion Pro质感引擎;支持双向北斗卫星消息;首发搭载鸿蒙3.1,支持AOD息屏显示;价格,华为P60 的128GB版 4488 元,256GB版本是 4988 元,512GB版本是 5988 元。

  天玑9000芯片,LPDDR5+UFS3.1,11.61英寸LCD屏幕,支持144Hz刷新率OPPO Pad2主要配置包括:11.61英寸7:5比例LCD显示屏,拥有2800×2200分辨率和500尼特亮度,支持144Hz五档刷新率智能调节,2048级亮度自适应智能调光并支持手写笔。OPPO Pad2基于联发科技天玑9000,辅以LPDDR5内存和UFS3.1存储,内置9510毫安时电池、67W有线万像素前置摄像头和蓝牙5.3。软件方面,ColorOS13.1支持5G通信共享。可以自动共享手机的5G通信,从而直接上网、接打电话、同步手机验证码、拍照流转和应用接力。

  5G双待双通(DSDS)、WiFi 6/6E、蓝牙5.3等骁龙7+ Gen2 采用了骁龙X62 5G调制解调器,在全球范围内支持多种频段和模式的5G网络连接。它还是首款在骁龙 7 系中实现了5G双待双通(DSDS)功能,在两张SIM卡都插入时可以同时使用两个不同运营商或不同网络制式(例如SA和NSA)的5G网络服务。除此之外,它还支持WiFi 6/6E和蓝牙5. 3 等无线技术。OB欧宝体育官网