Философско-методологический анализ бенчмаркинга как средства оценки больших языковых моделей
| Авторы: Батин Р.Е. | Опубликовано: 30.06.2025 |
| Опубликовано в выпуске: #3(113)/2025 | |
| DOI: | |
| Раздел: Философия науки и техники | |
| Ключевые слова: бенчмаркинг, большие языковые модели, оценка искусственного интеллекта, методология тестирования, эпистемология ИИ, социокультурные аспекты ИИ, валидность тестирования, операционализация знаний | |
Представлен анализ методологии бенчмаркинга и проблематики его применения для оценки эффективности больших языковых моделей (БЯМ). Этот метод получил широкое распространение в различных научных областях — как гуманитарных, так и технических. Отмечено, что в сфере машинного обучения бенчмаркинг применяется давно и считается основным способом определения качества моделей и оценки их способностей решать разноплановые задачи, однако отсутствует строгая методология создания бенчмарков, организации процесса тестирования и интерпретации полученных результатов. Показано, что бенчмаркинг представляет собой многоаспектный и комплексный процесс, подверженный влиянию социокультурной, экономической и политической среды. Изучение данной проблематики имеет высокую актуальность как для разработки БЯМ, так и для всей области искусственного интеллекта, поскольку корректная методология оценки позволит минимизировать риски интеграции моделей в различные сферы человеческой деятельности. Рассмотрены отдельные этапы становления и развития бенчмаркинга. Особое внимание уделено критическому анализу современных методов оценки, их ограничениям и потенциальным искажениям при определении реальных возможностей интеллектуальных систем. Сформулированы концептуальные аспекты для философского осмысления бенчмаркинга и намечены направления дальнейших исследований, что составляет научную новизну данной работы.
EDN ZOXKXD
Литература
[1] Каримов К.С. Основные проблемы искусственного интеллекта в науке. Постсоветский материк, 2022, № 4, с. 59–65.
[2] Карпенко И.И., Меринов В.Ю. Галлюцинирование генеративного искусственного интеллекта: опасности и их предотвращение. Донецкие чтения 2024: образование, наука, инновации, культура и вызовы современности: Материалы IX Международной научной конференции (Донецк, 15–17 октября 2024 г.). Т. 4: Филологические науки. Ч. 1. Донецк, Издательство ДонГУ, 2024, с. 348–350.
[3] Zhou Z. Yu H., Zhang X., Xu R., Huang F., Li Y. How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States. arXiv, 2024, p. 27. URL: https://arxiv.org/abs/2406.05644 (дата обращения 01.03.2025).
[4] Singh C., Inala J., Galley M., Caruana R., Gao J. Rethinking interpretability in the era of large language models. arXiv, 2024, p. 7. URL: https://arxiv.org/ abs/2402.01761 (дата обращения 01.03.2025).
[5] Regulation (EU) 2022/2065 of the European Parliament and of the Council of 19 October 2022 on a Single Market For Digital Services and amending Directive 2000/31/EC (Digital Services Act). URL: https://eur-lex.europa.eu/eli/reg/2024/1689/oj/eng (дата обращения 01.03.2025).
[6] AAAI 2025 Presidential Panel on the Future of AI Research. URL: https://aaai.org/about-aaai/presidential-panel-on-the-future-of-ai-research/ (дата обращения 01.03.2025).
[7] Turing A.M. Computing machinery and intelligence. Mind, 1950, vol. LIX, no. 236, pp. 433–460.
[8] Михайлов М.А., Кокодей Т.А. Риски злонамеренного использования искусственного интеллекта и возможности их минимизации. Всероссийский криминологический журнал, 2023, № 5, с. 452–461.
[9] Брежнева В.В. Бенчмаркинг в интернет-среде. Труды СПбГИК, 2006, c. 50–58.
[10] Ракитский А.А., Рябко Б.Я., Фионов А.Н. Аналитический метод сравнения и оценки производительности компьютеров и вычислительных систем. ЖВТ, 2014, т. 19, № 4, c. 84–98.
[11] Raji I.D., Bender E., Paullada A., Denton E., Hanna A. AI and the Everything in the Whole Wide World Benchmark. arXiv, 2021, p. 17. URL: https://arxiv.org/abs/2111.15366 (дата обращения 01.03.2025).
[12] Orr W., Kang E.B. AI as a Sport: On the Competitive Epistemologies of Benchmarking. The 2024 ACM Conference on Fairness, Accountability, and Transparency. Rio de Janeiro Brazil: ACM, 2024, pp. 1875–1884.
[13] Denton Е., Hanna А., Amironesei R., Smart A., Nicole H. On the genealogy of machine learning datasets: A critical history of ImageNet. Big Data & Society, 2021, vol. 8, no. 2, p. 14.
[14] Chiang W.-L., Zheng L., Sheng Y., Angelopoulos A., Li T., Li D., Zhu B., Zhang H., Jordan M., Gonzalez J., Stoica I. Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv, 2024, p. 29. URL: https://arxiv.org/abs/2403.04132 (дата обращения 01.03.2025).
[15] Eriksson M., Purificato E., Noroozian A., Vinagre J., Chaslot G., Gomez E., Fernandez-Llorca D. Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation. arXiv, 2025, p. 22. URL: https://arxiv.org/abs/2502.06559 (дата обращения 01.03.2025).
[16] Liu Z. Cultural Bias in Large Language Models: A Comprehensive Analysis and Mitigation Strategies. Journal of Transcultural Communication, 2024, p. 21. URL: https://doi.org/10.1515/jtc-2023-0019 (дата обращения 01.03.2025).
[17] Yan T., Viberg O., Baker R.S., Kizilcec R.F. Cultural bias and cultural alignment of large language models. PNAS Nexus, 2024, vol. 3, no. 9, p. 9. URL: https://doi.org/10.1093/pnasnexus/pgae346 (дата обращения 01.03.2025).
| 