一、任务背景

以ChatGPT为代表的技术突破已经对各行业发展产生了深远影响，人工智能技术“工具化运用”已成为时代和个人发展的必然趋势。本赛题面向数据智能化分析需求，为每支参赛队伍提供国产“神威”“曙光”等计算平台接入账号和训练数据，参赛队伍在计算平台上完成大模型本地化部署。并利用提示工程、思维链等方式提升模型数据智能化分析性能，并完成自然语言理解和代码生成两类测试任务。

任务一：自然语言理解

要求各参赛队使用模型完成涵盖多学科知识及生活常识等内容的中文选择题问答以及新闻标签分类两项子任务，重点评测模型知识推理和信息分析能力。

任务二：代码生成

要求参赛队伍围绕函数编写等任务，使用模型生成高质量、高效率、高准确性的代码。

二、数据和平台说明

主办方提供三个数据集

（1）中文选择题问答数据集

此数据集是一个多学科、多难度级别的中文选择题问答数据集。该数据集旨在全面评估和测试人工智能模型在中文语言理解和推理能力方面的表现。

（2）新闻标签分类数据集

此数据集是一个专注于中文新闻（短文本）分类的数据集，包含今日头条中的15个新闻类别，如旅游、教育、金融、军事等。

（3）代码生成数据集

此数据集包含了精心设计的Python编程问题。这些问题通过一系列测试用例来检验代码LLMs在零样本条件下生成代码的能力。编程语言为Python，注释和文档均为人工手写的英文自然文本。

主办方提供国产计算平台

为每支参赛队使用“神威”“曙光”等国产计算平台接入账号。参赛队伍报名参赛后可通过自有终端线上访问，在线进行代码编写、调试，上传提交txt或jsonl格式结果文件，由平台自动进行结果测试及评分。

三、评分标准

两类任务均采用客观指标进行成绩评定，将两类任务成绩的平均值换算至百分制（保留4位小数）作为参赛队伍的最终成绩：

·中文选择题问答数据集：根据模型在测试数据集上进行文本分类的准确率(Precision,P）和召回率（Recall, R）计算F1值，公式如下：

F1 = 2×（P·R）/（P+R）。

·新闻标签分类数据集：根据模型在测试数据集上进行文本分类的准确率(Precision,P）和召回率（Recall，R）计算F1值，公式如下：

F1 = 2×（P·R）/（P+R）。

·代码生成数据集：pass@1指标，即50个代码生成任务的单次生成正确率。

四、提交说明

参赛用户最终提交zip压缩文件，压缩文件中包含三个文本文件，

● dataSet1_result.txt

● dataSet2_result.txt

● dataSet3_result.jsonl

请将上述三个文件放在一个文件夹中，并压缩为zip文件提交。

五、时间安排

● 比赛开始时间：2024年12月21日15：00
● 报名开始时间：2024年12月23日18：00
● 报名结束时间：2024年12月25日12：00
● 比赛结束时间：2024年12月27日18：00
● 成绩公布时间：2024年12月27日22：00