QUICK REVIEW

[論文レビュー] LLMs for Science: Usage for Code Generation and Data Analysis

Mohamed Nejjar, Luca Zacharias|arXiv (Cornell University)|Nov 28, 2023

Scientific Computing and Data Management被引用数 9

ひとこと要約

この論文は科学分野のコーディングタスクにおけるいくつかのLLMベースツールを実証的に評価し、コード生成、データ分析、データ可視化に焦点を当て、強み・弱み・想起（confabulation）などのリスクを論じる。

ABSTRACT

Large language models (LLMs) have been touted to enable increased productivity in many areas of today's work life. Scientific research as an area of work is no exception: the potential of LLM-based tools to assist in the daily work of scientists has become a highly discussed topic across disciplines. However, we are only at the very onset of this subject of study. It is still unclear how the potential of LLMs will materialise in research practice. With this study, we give first empirical evidence on the use of LLMs in the research process. We have investigated a set of use cases for LLM-based tools in scientific research, and conducted a first study to assess to which degree current tools are helpful. In this paper we report specifically on use cases related to software engineering, such as generating application code and developing scripts for data analytics. While we studied seemingly simple use cases, results across tools differ significantly. Our results highlight the promise of LLM-based tools in general, yet we also observe various issues, particularly regarding the integrity of the output these tools provide.

研究の動機と目的

現在のLLMベースツールが科学的作業におけるコーディング関連タスク（コード生成、データ分析、データ可視化）をどのようにサポートするかを探る。
複数ツールに渡って生成コードおよび分析の正確性・効率性・可読性を評価する。
研究ワークフローにおけるツール間の差異・制約・リスク（出力の整合性や confabulation など）を特定する。

提案手法

複数のLLMベースツールを選定する（ChatGPT GPT-3.5、ChatGPT GPT-4、Google Bard、Bing Chat、YouChat、GitHub Copilot、GitLab Duo）。
三つのコーディング関連ユースケースを定義する：マルチスレッドによるJavaの行列乗算、Pythonによるデータ分析、Rによるデータ可視化。
各ユースケースにつき2つのプロンプト variante を使用し、正確性・効率性・可読性などの評価基準で出力を評価する。評価はアセスメント・ルーブリックを用いて行う。
非決定性に対処するため複数回の実行を実施し、インタラクションログを含む再現パッケージを提供する。

実験結果

リサーチクエスチョン

RQ1現在のLLMツールは典型的な科学的プログラミングタスクに対して正確で効率的なコードをどの程度生成できるか？
RQ2LLMsは人間の介在なしに科学的ワークフローにおけるデータ分析とデータ可視化タスクをどの程度サポートできるか？
RQ3これらのユースケースに対してツール間でコード品質・ドキュメンテーション・ユーザー体験にどのような定性的な差があるか？
RQ4LLMsを科学的コーディングタスクへ適用した場合、どのようなリスク（例：confabulation、データ形式の不整合）が生じるか？
RQ5同じタスクに対してツールタイプ（GPTベース、PaLMベース、Claudeベース）ごとに結果はどう変わるか？

主な発見

多くのツールは最初の試行で行列乗算の実行可能な正しいコードを生成したが、Google Bardは人間の介入を必要とし、GitLab Duoは限られたシングルスレッド出力を提供した。
データ分析と可視化タスクには大きなばらつきが見られた。GPT-4は一般に介入が少なく、より正確な分析とグラフを生成する傾向があった一方、Bing ChatとGoogle Bardは誤解を招く結果を生むことが多かった。
非決定性とデータ形式依存性が主要な課題として浮上し、いくつかのツールはデータ構造の取り扱いに失敗したり、後からの修正を要した。
可読性とドキュメンテーションの品質はツールによりばらついた。役立つコメントやドキュメントを提供するものもあれば、簡潔なコードまたは未解説のコードを出力するものもあった。
GPT-4.0はデータ分析と可視化タスク全般で最も良い性能を示す傾向にあり、コード実行と視覚的品質の点で顕著な強みを持つ。他のツールは正確性と可視化の整合性に課題を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。