近日,数据科学专业继续传来好消息,继之前2组同学在国际数据科学Kaggle竞赛中获得铜牌后,又有2组同学获得银牌,目前总计已有4组同学在Kaggle比赛中斩获名次,下面让我们来听听银牌获得者的一些经验分享,也希望有更多的同学可以了解并参与到这项国际赛事。
银牌组:钟海林
排名:Top 2.4%
参赛队员钟海林
在今年Kaggle的“Learning Agency Lab - Automated Essay Scoring 2.0”比赛中,我和我的队友有幸获得了银牌。这次比赛的目标是开发一个能够自动评估学生作文的模型,旨在帮助教师减轻批改负担,同时为学生提供及时的反馈。
在比赛中及其重要的一点是拓展数据集,我们找到了包含了大量学生的作文及其对应的评分的数据集。这些数据为模型的开发提供了基础,但要构建一个高效、准确的评分模型,依然面临诸多挑战。
比赛初期,我们选择了使用基于Transformer架构的预训练语言模型,如BERT和RoBERTa。这些模型在大量的文本数据上进行了预训练,因此在处理自然语言时表现出色。我通过微调这些模型,使其能够更好地理解学生作文的语境,并预测出合理的评分。
为了进一步提升模型的性能,我对训练数据集进行了深入的特征工程。在作文的文本处理中,我提取了多种重要的文本特征,如词汇多样性、句子长度、语法复杂度等。这些特征有助于模型更好地评估作文的整体质量,提高评分的准确性。
然而在比赛中期,我的模型排名一度下滑,这让我感到非常焦虑。但我始终坚信,坚持优化和改进模型是获胜的关键。我不断调整和改进模型,结合多模型集成的方法,并利用Stacking和Blending技术,以提高模型的鲁棒性。尽管提交的模型成绩并不理想,但我没有放弃,继续探索新的方法,改进模型性能。
而在Kaggle比赛中,最终成绩会在比赛结束时根据新的数据进行评估,这意味着即使在早期提交的模型分数不理想,最终也可能出现逆风翻盘的情况。这正是比赛中最具挑战性和不可预测性的部分。
最终,当比赛结束,最终成绩公布时,我的模型在排行榜上成功跻身前3%,并获得了银牌。这段经历让我深刻体会到,坚持和不放弃的重要性。在Kaggle比赛中,结果往往充满不确定性,但只要不放弃,就有可能迎来转机。
银牌组:王一涵,周烜宇,刘明曦
排名:Top 4%
参赛队员(左起):王一涵,周烜宇,刘明曦
在最近结束的Kaggle比赛“Home Credit - Credit Risk Model Stability”中,我们团队获得了银牌。Kaggle比赛总是吸引全球数千名数据科学家和机器学习爱好者参加, 我们很高兴在这样的比赛中获得这样优秀的名次并分享我们的经验。为了应对这项挑战,我们团队成员首先参加了一些Kaggle的入门比赛来熟悉平台和常用的数据预处理方法和模型结构。UIC数据科学专业为我们提供了全面的支持,包括教师指导、硬件资源以及赛事组织等。这些支持不仅帮助我们提升了技术能力,也加强了团队合作。
比赛初期,我们的成绩一度达到铜牌水平。然而,随着比赛的进行,我们的排名逐渐下滑,甚至一度跌至1000名左右。面对困境,我们积极利用讨论区的资源,从其他队伍分享的代码和思路中获取灵感。这些资源对我们团队的策略调整和模型改进起到了关键作用。
在我们的项目中,我们通过数据预处理和特征工程来提高模型性能。首先,我们对数据进行聚合,将不同层级的信息进行整理和编码,如客户基本信息、贷款记录、分期付款等。然后,我们通过筛选和删除空值列以及具有过多唯一值的列,减少内存占用并提高模型的稳定性。
在特征工程方面,我们采用了常用的数据聚合方法,如最大值、最小值、方差等,以捕捉数据中的不同变异性。这些手工特征与原始数据特征结合,使得模型能够更好地理解和预测数据。为了保证模型的稳定性和性能,我们采用了交叉验证方法(StratifiedKFold),来处理高度不平衡的数据集。最后,我们选择通过集成多个模型(如LightGBM、XGBoost和CatBoost)来增强最终预测的鲁棒性和准确性。
最终的模型通过计算每周的Gini评分并进行线性回归分析来评估其稳定性,同时应用标准差对预测变异性进行惩罚,保证了模型在未来样本中的持续表现。
在比赛结束后,Kaggle引入了未公布的70%的测试数据来计算最终排名。令人惊喜的是,我们的模型在这些数据上的表现非常出色,最终帮助我们从低谷逆袭,成功获得银牌。
多次迭代和优化带来了得分的巨大提升,这证明了我们在特征工程和模型优化方面的努力是卓有成效的。在整个比赛过程中,我们深刻体会到团队协作和持续学习的重要性。此次比赛不仅提升了我们的技术水平,还加强了我们对实际数据科学问题的理解和应对能力。特别感谢UIC数据科学专业的老师们,他们的指导和支持是我们成功的关键。
结语:
统计与数据科学系(DSDS)十分鼓励对数据科学感兴趣,或有志于将数据科学作为自己的职业发展方向的同学们积极踊跃参与到Kaggle比赛中,对于参赛的每个选手来说,无论获奖与否都是一次和全球顶尖数据科学高手学习交流和提高的机会,且好的成绩对申研及就业都将受益匪浅!DSDS全体老师也将对参赛的团队和个人给与相应指导,帮助同学们解答参赛遇到的各种问题。同时,DSDS Kaggle竞赛推动小组将持续地做好竞赛的支持工作,包括竞赛活动的组织和宣传,人员培训及技术支持,让更多的同学参与到这项赛事中来。
Kaggle作为数据科学领域的重要赛事,将继续引领数据科学专业在提升学生专业技能及学科竞赛方向进行全方位的参与与拓展。我们相信会有更多的数据科学及其他学科的学生参与到此项比赛中,互相交流,互相学习,在合作中提升自我并取得更优异的成绩。