{
  "cells": [
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "HJ20wT_BerPk"
      },
      "source": [
        "##### Copyright 2026 Google LLC."
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "cellView": "form",
        "id": "j2MB-H8HewXV"
      },
      "outputs": [],
      "source": [
        "#@title Licensed under the Apache License, Version 2.0 (the \"License\");\n",
        "# you may not use this file except in compliance with the License.\n",
        "# You may obtain a copy of the License at\n",
        "#\n",
        "# https://www.apache.org/licenses/LICENSE-2.0\n",
        "#\n",
        "# Unless required by applicable law or agreed to in writing, software\n",
        "# distributed under the License is distributed on an \"AS IS\" BASIS,\n",
        "# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.\n",
        "# See the License for the specific language governing permissions and\n",
        "# limitations under the License."
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "-F_6aP8CezSv"
      },
      "source": [
        "# Processing datasets with the Batch API\n",
        "\n",
        "<a target=\"_blank\" href=\"https://colab.research.google.com/github/google-gemini/cookbook/blob/main/examples/Datasets.ipynb\"><img src=\"https://colab.research.google.com/assets/colab-badge.svg\" height=30/></a>\n",
        "\n",
        "This notebook shows you how to process a downloaded JSONL dataset using the Batch API. To use it you will need to have logging enabled and have collected some logs into a dataset. For details on this process check out the [Logging and Datasets docs](https://ai.google.dev/gemini-api/docs/logs-datasets)."
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "8TDPaDa8fsGy"
      },
      "source": [
        "## Get set up\n",
        "\n",
        "Install the SDK and get authenticated."
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "id": "BrnjZTlf7WAh"
      },
      "outputs": [],
      "source": [
        "%pip install -q \"google-genai>=1.34.0\""
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "2j33fdxGfzI1"
      },
      "source": [
        "To run the following cell, your API key must be stored it in a Colab Secret named `GOOGLE_API_KEY`. If you don't already have an API key, or you're not sure how to create a Colab Secret, see [Authentication ![image](https://storage.googleapis.com/generativeai-downloads/images/colab_icon16.png)](../quickstarts/Authentication.ipynb) for an example."
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "id": "qQk-akvB9lP4"
      },
      "outputs": [],
      "source": [
        "from google.colab import userdata\n",
        "\n",
        "GEMINI_API_KEY = userdata.get('GEMINI_API_KEY')"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "id": "WIHmH-5l9-av"
      },
      "outputs": [],
      "source": [
        "from google import genai\n",
        "from google.genai import types\n",
        "\n",
        "client = genai.Client(api_key=GEMINI_API_KEY)"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "HLCnp--GAPCx"
      },
      "source": [
        "## Add your dataset\n",
        "\n",
        "To download your dataset, visit the [AI Studio logs dashboard](https://aistudio.google.com/logs), select your project and dataset and choose `Export dataset` in `JSONL` format.\n",
        "\n",
        "![Export dataset as JSONL](data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAALoAAAB9CAIAAACage6qAAAQAElEQVR4AezdCbyXYxYHcC5jKRmMpZBsw9i3sa8xdtImVJKkRkUJFZVIK9qbSiKFKUVRlJJpSsnSZmnaMFNpm4ZCpU3mO/fxeefv3tu9/7vf233/nzPP53nPc57tnN9zznneV3dSKsS/WANJayBll/gXayBpDcRwSVpVseAuu8RwiVGQDQ3EcMmGsmLRGC4xBrKhgRgu2VBWLFpM4RIbrnA0EMOlcPReTGeN4VJMDVc4y47hUjh6L6azxnAppoYrnGXHcCkcvRfTWWO4FFPDFc6yswGX3Xff/be//W3ZsmXLly9/xBFHJP0VMxaMNFCYlSOOOILhmI8RmTJncEsKLkY/6KCDypUrV6pUqe3bt2/atGnDhg3r41+x0sCGDRsYjvkYkSkZlFmzC5qs4VKmTJlDDz3U0Bs3btyyZctPP/1kyuxOE8sXBQ0wHPMxIlMyKLMybrYWlgVcOC70448/miNb48bCRVwDDMqsjIuSX2pmcAE9tHnzZqhMfsRYsrhogFkZl4lRkmveIVw4q/33399wBk1yrFis2GmAcZmYoZk7mcXvEC6G2Lp1q+GSGSWWKb4aYGKGZu5ktpAxXGBtr732Et6SGSKWKe4aYGjmZvQdbOT/7IzhUrp06W3btv1fKq7t7BpgbkbPcpcZw2Xvvfd248qycyyw02iAuRk9y+1kDJff/OY3P//8c5adY4GdRgPMzehZbidjuOy6664yoCw7RwIHH3zwSy+99FG6X7169SKZuFKUNcDcjJ7lCncIlyx7JgpUrFjRC/Fzfv3729/+9uc//7lu3bqJknG9yGog53DJ7pZSUlJc3zPsdc8999SqVSvDpphZ7DSQsXfJw23A7H333ZcJYrp06ZImiA0fPjwPF5CboY488khrq127dm4G2Zn65iNcpk2bNiz19/bbb9esWTMTrXlNlCr4SzFu3LiMhfOOe//998NBnox36aWXGkqZJ6NFg7yQ+osed1S58cYbP/jgAwsIpI6zI+Hc8/MRLm+++WaP1N9rr72W+ULBJVXwl2Lo0KGZy8etkQbGjh3bsWNHCsRRquOo5xPlI1xyuWLxy4m5+uqrjVOqVKm33nrLeVMX2qZPn37FFVeMGDFCNv3kk08effTR+EgKVadOnSFDhkyZMuW5554zAia68MILDVW/fv1Ro0YBcadOnW677TZ8zJYtW6ok0umnn96rV6+///3vfN3JJ58cNe25557ysJEjRzrBkyZNuvPOOzXVqFHjqaeeUlG+/PLLKocddtjjjz9uFoM7J5dddhkmOvbYY/v16zdx4kQjDxw40CMmOu6444TjCRMmjB8/3sKEP8wxY8acmPozyFVXXYWTCcHHo48+unHjRqV6JpK5byq6cKH9+fPnu1vtscce7OQ7e4cOHcKGva5me3Ch9xNOOIF14UkTEDRp0sR3+T59+nhs2rTpTTfdpBJInRW7dev24osvwhnmQw89BEAqEZUtW5aLO+WUU8w+c+bMRo0aRU1Wcscdd1iSE/zVV19Z0vnnnw+4zz77LBll9+7dVZ544gnofOeddzp37rzbbru1a9du3333xX/wwQdBxLA9e/b0Bfjhhx/GBEHTlStXbsCAAcOGDTvppJNAB98U/0r9WeHcuXNxMqd33323evXqyszFct+aN3BZsGCBQ5Pj1TC2YxTR3XffHYaicW90GKlq1aps/MUXXwS+9Ll///6vvvqqpJiiDznkkHCIK1eu/OWXXzZu3FgT6y5fvrxKlSqhi3L06NHPP//85MmTmXz16tU4nNDixYtVIuLMvAsHKeZXQmTUNHjwYK+RwgkOwD3++ONNsWjRIjLKWbNmqbRq1apBgwYQbDrvooxWvnx5/P322++bb74x4Ouvv96iRYsAlyuvvPKggw7q2rUrYSGY++EpTz311A8//JC3QFb473//W/cs6T//+U+WMrkXyBu4zJkzx4ZzvBqX8IcSfo5mGAoKX3nlFehZunQpSwdmKEWEUDG1CpPss88+FSpUoGjvs3EEcvhj0ZSUX/a4ZMkS/Mzp8MMP1z1awNSpUyP577//XqARdMREXg0/w9eg69atu+CCC/7yl78Qa9asGTHeUenoH3PMMbTkDFx88cWggMmdKElaKuKZPNqFsmjSL6rM5eLOOOMMuw3kYGV3NBZyjCLihqMR4EBd9EEq6YmnCcwACygJj0ofWrUi9eTJYnxvSy8vrIgRYiKk8gfpBXAEF16Qe/vuu+/kNxwGZiDu6pFHHrFHaAAjgBOqNFlkwkn5XzV4KU1FkPIGLo64N7oyg7zdoXzWBRX+hCTBJXHwKMoIH/jcj9PPfzi4wQyOvhyCf2J+AmnIO+80nPD49ddfcwbXXntteDzzzDNDRWk0bwQEGuFv5cqVOIF8bQkVJf9x1FFH8UCQIRJt2rQJc5fU/9GPFXIt3ilIw+UxPJnwaroNGzaAEfr222+BPgTKHa0wdbBCK/IGLpYvZFx++eUZIsb5znzzTOtFSER33vm/S4fg0rx589mzZ0sP6feWW25xZzFRIFeShg0buiXJJ9asWUPX+AKW2N+7d2+5jjzg0EMPHTRoEH56CglBmjGJuaEw3gMPPCCVNrv8ETMQW5511lkQDEwSlMBUQpjyoosugmwJBHS6y6gb/Oabb9aEIFi607ZtW+CWr8A0wCHLXrt2rXzommuucY9r06aNm5qN62KFYp/p7MhjEaGM4ZJ4YpJZqF3ZreQ/yhyjeCxC8cPcTybjgItLTUTXX3894XvvvVd6KN9Ud1IlldJDkh5R3759ORg0Y8YMN6CQCriLkpcQMKfj6yh7VUg4Pb3xxhuSYrCILBpkVq1aBbXz5s3zqeuSSy6RUAe+0shmMSYHY0c4gdySXF9du8CLjV18GJiDoROBKcjAkO1wG+3btxfRPJpFGAIvV7nPP//cFcwu3OlkwQKZXrbMCqZL9HD4+Uemy3LwHcKFV8yycyTw8ccf26ebp9ugbeNTN/cbkQOEmSExbSQWKuFM0xT/H/DHOVWrVs15jVITN1gnsmLFiqI9lx6NLDV2SzKOJpgIfMI4ks3wqGR46MRs3bq1x0SaO3cu0/IW7llOPxmWI2CPsOURRsOAEWikqPgQQ8wCeBePUOUepBKOysKFC3msc889F8ddD8gIIxsUuSpVqoRPaZ9++ikmgqEwjluex/wm5s45XFhFBEl+iaIyL5K8fCxZ1DTA3Iye5aoy9i68onCbZedYYKfRAHMzepbbyRgu0r0dXVyzHDG/BWSy/LbAn98TlajxmZvRs9xyxnDx4sEl0B0vy/6xwE6gAYZmbkb/1V4yesgYLiRd8FxDZEDqMe3EGmBihmbuZPa4Q7jAmiG8pjRcMgPFMsVRA4zLxAzN3Mmsf4dw0fmH1J/hDOoxpp1MA8zKuKlG/iHJrWUGF0N4ZYT23ntv4c1jTDuNBhiUWRkXJb+pLOBiIOhbsWIFZ1WqVClzuHFBJX4uyUuhmApYA16usJ1MBVC8ZWFWxs2WHbOGi+FgxXcZ3zi8DDXfXnvtVbp0aZ82ckA6BspB37hLbjRA7QzHfIzIlL4/MCvjZouSgksY0egcl68qy5Yt8wXY598ckI7IZznjWDH6Jv4ViAZ8IpXSrl+/nh2lLAIF6ATLJl9mAy7JD5qJJPdroZar4q4P6d4OZU5xa95qgM5pnv5ZgS1UMrFXmqYChYuViZpW4H2z2OnDoXpMBa8Bmqd/VjA1i7CLSjJUcHCxJnC20Pj9fTKGKRgZtmARdmGdZGYsILhYjUjpVmV9ySwrlikwDbAIu7AOG2U5aUHAJazD/U2SleWCYoGC1wC7sI55g6VUdkT5DpdoBb55/vTTTztaR8wvRA2wC+uEBUT2Co9pynyHS+J8wmTiY1wvIhpI3i4FBxevFIuIdgpmGcVrliStk79wydyzFS+FlpzVZmK1/IVLyVFxCdlpDJcSYui82WYMl7zRYwkZJYZLCTF03mwzhkve6LGEjBLDpYQYOtltZi6Xj3DJ5D6W+Zri1kLXwI5sl49wyfGehw4d+tavf40bN87xaIXbsVy5cs2bN7ejV199tXv37hdffHHiei655JIOHTqMHDmyR48eNWrU8J1Pa926de3+D3/4g3pE5557LmbVqlUjTqFUiiJcKGLlypWvJfxmz56Nma/ULfWXt1Mwea9evS677LKlS5eOGzfOZ7xWrVpdd911YZZbb721ZcuW33zzzYQJE9auXVuzZs2HHnpIU/izbRdeeKF6ROedd54Tn/hXAaKmgqwUXbg8n/CbMWNGQSolT+byWv2BBx7YtGlTw4YN27RpYzfNmjVbsGDB3XffXapUKVNUrlz5888/51cGDRrUvn370aNHcza/+93v/vWvfy1btow7IRPROeecs3Dhwu+++y7iFEqliMIlQ1088sgjPA6Faj366KPHjBlzxx13qD/55JNdunRxOvn8IUOGMM/ee++NjximQYMGzzzzDIf/2GOPnXHGGZgodGnRosWoUaNuuOGGwYMH8wSIw7/gggsIRORTba1atQYMGGC64cOHV6tWLTTtscce0PDCCy8wc58+fZz+wI/K008//dBDDxWDeMrA9OEXMsaOHbvffvvh8BbK3XbbTYms/Prrr+ds1B2Pw1J/6uj444/XBVO9cKk4waV///5UfNdddzm4995776pVq8JfXqHB3//+9yeeeKIT/Pbbb1O6dAETOdCVKlWaP38+JB1xxBEQc9BBB+EjNmBy+cQnn3yiFC9Qu3bt5s2bpzWi2rVrixqLFi3iBpz7evXqnXbaaVqrV69esWJFgUPfNWvWgE6ZMmXwI6pQoYK6wZURWYlFrlixAmf69Oknn3yyaAXo1o8T0ZQpU9QvvfRSJTr//PNt3FzqhUtFFC5nnnmmgx6Rc09NAjxdU2LVqlWPO+643r17O6/4gTp27Eihw4YNmzhxorP+29SfCgD17NnTmW7bti2cQU+QFyY6d+48bdo0nv+zzz7bmPqbOXNmGof/yiuv3HfffTAxefJkpb7HHHOM8oADDti2bZsVvvfee08//TS4pPk3O6VLlyb2/fffKzOkgQMHWq1xeC8rFI8CwgjDJexG8ejss89evHjxfwrkT6GaPRMqonBZtGiRgx4R3YU9SBj/8Y9/OOJAIPAHppJA+A+V1eUHrhjly5d3drn6yIcvX74cMjgVMohzSkQbToZk2LJly7Zu3VoqzMGQkbEqQdMswhyPJQsBPsxECugp82uXkyiwZcsW3pH3ArURI0ZAof1yeEHGso899tgDDzzQ7EceeeT7778f+IVbplh0PtHWrVsTR87WPtevX++gR+Tkh+577rlniCbBZoGZpuRCEjlbt26NHq0nqidZEc4kqqw+a9YsgSPqBazMLKFhYNGqb9++7sxRq4r4pYyyJXUEAbAuLVEPtH37dviWuPTr1++QQw459dRTAx8cVdyqLrnkEpUQnlTyjygnIkqL6omVIupddqQUua0gdZZNjAAADMVJREFUwzZXXHHFH//4x0jM0Yw8uVyV21iyZAmLqgR1k2QkYu4X6ulJcpCeieNK4vrqAvzXv/713wl/QFsa69xLdSXgSOiR25KPCAjkKFLjCEaAdf/991955ZXr1q3j+QQyeVgkf/jhh6uzkxLxl0KSMCQkQV7i1FoLi4ooXKjYKYzooosuoiD5yo033uiOM378eL5atrvXXnvhow0bNkhN3HG8umDgjz76SCyQhZC85pprmjRpIv+VHGC6CpFPT9JVCJDrQFViq4QJDvC9YZPERE0sbS4vUaDWvPIYaWzUGirdunVzNROwvIuzF6mPsKK0WiH1008/lYS5nWmywttvv124xAx9lfZoyyBeRCKRJRVduDiXETGJENO0adPVq1cL89bNBu6W0d9mloh42cWE4dQyCRlEbNKkSVdffXWjRo34D8kB8+OnJ1d0AjB3yimnJLa6jklf8Dm26A+fEpDesqJb+uOPP+5SJtHmDPATiYOBaWHFpcxebAGAPv74YzJikBg3depUJ0HqI6MS1yzPGrQGklxzSMJuAUSiMGOWZVGES506dTiDRHJxoEefAurXr+8c2xVncNNNN+GrB+J1qlSpwqiSgCjXYRUyfJLR9I3+pKozLS6EjqHU5EJLTBIdOKEU0bzIwdd9zpw5Ku5KmmDIyx6WxrFg/gwzPXnpArsEiFl/+H86CWICZdeuXd3UEFS5KBEOTaHkbPRCRSQSWVVRhItlxVQ0NRDDJW/tspOPtjPAJX1k2cmNVnjb2xngUnjaK3Ezx3ApcSbPzYZjuORGeyWubwyXEmfy3Gw4hktutFfi+sZwKXEmz2jDyfJiuCSrqViOBgoTLrvvvrsvcL4w+/oTU8FogLbpnObZPkM6//zzfZHwKbRGjRo+qd58880+tkeShQYXK7YOn9B8eItWE1fyWwO0Tec0T/9p5oo+xZPxTfeTTz7xvezwww+vWLFiJFlocLFoy4rWEVcKUgM0T/9pZgz/3Rnmbrvt5iv6woULfRD96quvDjnkEMxAhQYX3+XDCuKyUDSQXv9QEq0k/IMEj5s2bUqULDS4ALjVxFRYGsiZ/gsNLoWlpnje3GigiMElN1uJ++a/BlLcrK6++uqGDRu6PtWsWTPNv4/K/wXEMxQnDaTcfvvtJ5xwwpo1a+bOnSvZqVSpUpr/WDXHu7nwwgvT/AeOOR4q7lgAGpg1a5ZZZsyY0aNHj59//lkdTZgwYcCAASqBUrZt2zZ48OBRo0a99957L7/88ooVK6644or0t6wgHZclXAMp0PTdd7/8u/7t27e7cENZ+CfpfINXNCKUineOe+65p8d69eoJW9WrV/cCJ+guJSXlvPPOq1u3brNmzRo1ahT+IdY111xz9tlnE8CM/qWPx2Sob9++gJtId955ZzIdi7KMTT2U+vc4LJIXr1KlSocOHQYNGtSqVaugKPxA3nPcc8895LXqctxxxwW+8sorr6SWxx57TD0i5hgyZEh4VNcr1POjTFm6dGniuCtXruRmIgCdeuqpX3/99RtvvPHjjz9a6/HHHy9mTZw40TUMYvbZZx99vTa+4IILdBw/frygVrFiRUj66KOPvOfRym8l/tsZnGRo9erVbyX8Pvvss2R65UaGDVBuRki+b4sWLW644YYFCxZMnTqVI3eiePTQ/dhjjwUjKl2+fDlVU3jbtm3TnDf55WWXXRbkC7hM2bx5cyZTLlmyxJa82nMgrPLDDz+cPXs2HIwZMwZiwr90h4yhQ4cKcvgQYzTvB7/99tvwr8nBcd26db5T4CdP4PLXhN/MmTOT71vEJStUqHDyySdT10svvURv7du3p7drr73WsqmUe96yZQs8de7cmYNp0qTJl19+yaOHP1NCBhG49dZbs6tSHXNPKUJMJqOwemgtW7asoHP55Zc/kPqzDY8ilNatW7e6Xjkut912W61atXBgS5lIHGziY87qTZs2ff755/fff3/dKf3FF1/0GUz90UcfbdOmTdWqVem3d+/ederUif51o6gql3/qqae4aI6dncij0KVx48byNl6zV69eDgPi6tOEBt9WqlWrZgTTPfPMM9dff73uiFcQMkxnhE6dOp111lmYyRNkRMIQ8+CDD3q0PIp68803V61a5RF5qSrQeK968cUXeww0efLkMmXKSBLCY0GWKfSeON+BBx5oZQEHifywvXfffffVhN+cOXPIXHXVVZUrV2aYf/7znw4NTnoK3dPzs8WhOBk7NRntrrvu4oFee+21MMLRRx/Nb/NHVPmnP/0p+teNDRo08Jpg8eLFI0aMOOywwyAmOqbHHHMMk0v7582bp+T8EVg462HMUIq5dueIk1m2bJnZTzrpJE2Oh6vf9OnTYcgrc9AJoVlT5sRhG8cNtHnz5sAXrUcvQVyZJvLS6oYNGyxeUyCTCv2CPnwHToGV/8tS+YYwH69w3XXXuUjLVAInKtlG3am1W2S5tBNSHHr36XLkyJEffPDBDz/8QCyQxDlUlNn9d3hyJgc9oqAXQW3YsGHyJIs0KYfxU8L/QVKPHj3ef//90aNHT5kyxVl3/vbdd19fVn0nGzhwoHyrS5cuPCL0WA8ShfkG4dVlcP78+RtTf9KFEEMJBHr99ddbt24NK4ykxPRxX+lEuVROmjTJrvv169euXbv169fjJ0Ndu3aVINoj8HXv3h30HTYdQ3xJPw5OaCKDmGn48OEqOjo5KgVGKZytewdPzqlYvbRDikmVaVZgxbIQN6DTTjvNOXYsOJWDDz6YGOzToPMtTYuMga+L0lkkFuoekyTZkoMekXQ7dGSeRYsWWScvIlUMTCUBflsF8SVg4ThKrVRc9DARD0/MItWRrDwRbTgZkmGtXzYqERY1yNCYEjSZ7emnn+axZB7pNUZmR7R27VrI4/lsELjlrfXr1ycctFQ69e8IeYwI9BPPoU1J5uyrfPnyDJF4LKMu+VRJEZKdLSg555xzQBVWOI8MJ3M/kueefvrplnjAAQfIap1LkkxIWW6Gl1566bRp03ACcfKcisxAl8BJvqQ4Bz2iyNsJH8F7B5tFA1p5hnVMqZUyUGI9cLIsGdV7BK7U/e7ZZ5+N5IFVAiT4SizsXWYq7YhaVeRVDz/8sEpEaewqY7VB2RgFUj7wOSSEeXdlREcddRTXkv7f6wvNRhATI8kCqKQIKPYsAHfr1k2iTgvRrNy7a1H0aHEerZL/fO655yJJoHnhhRd0x+SBtMK+XrQjmvTs2VMg8JgndMsttzhqVMwXJqKQewuB3yxyVVNzJFaowiNiItk61X/xxRfqydOZZ54pcLjceiOQ+Oe+gIPXERQ6derUsWNHFuVHE4cVuKWuVoupLjIKpuoSZ2qJFg/oFsbPWSq/KOjfeOONBieJBCkvtKA8/N0GnIgkTNJI49tvxMzvShH9xEhfIk5E5557LkWIdyLg2LFjZdwQKXJH1zoBUebIk7nseE/IC/JPshCSbnP16tWT/7Zs2ZJLHzdunKHSE+2XK1dO0sN4ia1szOr41hBCRmh1BzSXYRnevPIYxg5NoQz3ALc5b034J86DL9Ek+ghGOLVr17ZBdyJJjJelsnit/fv3tylBimdy/ezTp49dOx6WpzUN2YtEmHtL5Hs0bESyt8TWXNaLLlyEvIgkTE6huCDh8MrHnjlC5/WO1D+U6hFfNkNH8hW+XWaAifhCHtElQn7GHszA/PjpyfWVAMz5gpbYynEKhfgcm3Q+apLeOvFMLneRzHGi7jtRq4oLjsRck8+3J554Iuck28DnouTFIr6MB9o4Hk7COjUhmJNZQ4/cCxBd05544glb0JSeLJhH55YSm4TpSG8qaUJbouQu2X8oinBxqpzdRHK1oRrvy5nNObZNpw1W8NUD8Tow4S24FyEMHJh6kfHqxWj6OouBL2n1tjTUQ6nJ9ZsY2AVOKEU0gMDX3QVQRQ6nSQrs6IsUOBYcfAl+IoFgmFoZ3fkJWLy8R0duDxrc5oyGH0g84mOMyZnBt9Q+8JXvvPOOXpakHsiyDU4V4dGSCCQSbYSmPCmLIlzyZGPxIPmhgRgu+aHVnXbMnQEu6SPLTmuuwt7YzgCXwtZhCZo/hksJMnbutxrDJfc6LEEjFBpcXHEjNceVgtdAzvRfaHDxYrvgdRTPGGkgZ/ovNLj4ApUzgEcbjis51gDN038OuhccXCwxcX1ezvrQY9Fp+IkycT3PNUDbdE7z9J84OH7i447qBQqXlJRfTWfFGzdu9Encd5yYCkYDtE3nNJ8ICHYpcnARLH2VTVxlXC8iGmAX1klmMb867sl0yLHM5s2bfSzNcfe4Y/5pgF1YJ5nx8xcuu+66a7QIDhCE99hjj4hT3Cs7x/pZhF1YJ9rOrrv+32oRM1T+CwAA//9W/8HxAAAABklEQVQDAHskbZgbn6xTAAAAAElFTkSuQmCC)\n",
        "\n",
        "In the next step, you will upload the JSONL file to this notebook for processing."
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "id": "-E6jCb-pAO0u"
      },
      "outputs": [
        {
          "name": "stdout",
          "output_type": "stream",
          "text": [
            "Saved dataset.jsonl to /content/dataset.jsonl\n"
          ]
        }
      ],
      "source": [
        "import pathlib\n",
        "\n",
        "dataset_path = pathlib.Path(\"dataset.jsonl\")\n",
        "\n",
        "upload_json = True\n",
        "if upload_json:\n",
        "  from google.colab import files\n",
        "  files.upload_file(filename=str(dataset_path))\n",
        "else:\n",
        "  # Alternatively, you can try the system out with these sample logs.\n",
        "  !wget https://storage.googleapis.com/generativeai-downloads/data/spam_dataset.jsonl -O {dataset_path}"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "61yGeCtGCIhr"
      },
      "source": [
        "## Evaluate against different models\n",
        "\n",
        "Here you will perform an analysis of this dataset against 2 different models. For this exercise, the existing outputs and model names will be cleared, as the Batch API requires the model name to be uniform throughout each batch, while datasets can be assembled from multiple models."
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "id": "mPM-QefREQjx"
      },
      "outputs": [],
      "source": [
        "import json\n",
        "from typing import Iterator\n",
        "\n",
        "\n",
        "def with_no_model_no_response(ds_path: pathlib.Path) -> Iterator[str]:\n",
        "  for row in ds_path.open():\n",
        "    data = json.loads(row)\n",
        "    # Clear the model field. Batches require homogenous models.\n",
        "    data['request'].pop('model', None)\n",
        "    # This example will compare two batches, so existing responses can be discarded.\n",
        "    data.pop('response', None)\n",
        "    yield json.dumps(data)\n",
        "\n",
        "\n",
        "clean_dataset = pathlib.Path('clear_dataset.jsonl')\n",
        "\n",
        "with clean_dataset.open(\"w\") as f:\n",
        "  for line in with_no_model_no_response(dataset_path):\n",
        "    print(line, file=f)"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "ZOQDwkA_V3cy"
      },
      "source": [
        "Now upload the scrubbed dataset through the File API so it can be used for inference."
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "id": "eR4Fe8129816"
      },
      "outputs": [
        {
          "name": "stdout",
          "output_type": "stream",
          "text": [
            "Uploaded file: files/ej2yk0lw3298\n"
          ]
        }
      ],
      "source": [
        "clean_dataset_ref = client.files.upload(\n",
        "    file=clean_dataset,\n",
        "    config=types.UploadFileConfig(\n",
        "        display_name='eval dataset',\n",
        "        mime_type='application/json'\n",
        "    )\n",
        ")\n",
        "\n",
        "print(f\"Uploaded file: {clean_dataset_ref.name}\")"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "A_GxyM5sWWn1"
      },
      "source": [
        "Now define and start the batches. This example will run a batch against Gemini 2.5 Flash and Pro."
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "id": "svDuOw55-RCC"
      },
      "outputs": [
        {
          "name": "stdout",
          "output_type": "stream",
          "text": [
            "Created batch job from file: batches/6u50zzu2d9xf639ic6pmdmb7s8opo9mtskie\n",
            "Created batch job from file: batches/1hjav84vzv50ld9oeev416my3bvc44aesr8c\n"
          ]
        }
      ],
      "source": [
        "models_to_eval = ['gemini-2.5-flash', 'gemini-2.5-pro']\n",
        "\n",
        "batches = []\n",
        "for model in models_to_eval:\n",
        "  batch_ref = client.batches.create(\n",
        "      model=model,\n",
        "      # Reuse the same dataset across batches.\n",
        "      src=clean_dataset_ref.name,\n",
        "      config=types.CreateBatchJobConfig(\n",
        "          display_name=f'Resubmit of dataset with {model}'\n",
        "      )\n",
        "  )\n",
        "\n",
        "  print(f\"Created batch job from file: {batch_ref.name}\")\n",
        "  batches.append(batch_ref)"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "mbzdlum6XMfV"
      },
      "source": [
        "Wait for the batches to finish. This can take up to 24 hours to complete."
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "id": "l_KbRKGUXRY6"
      },
      "outputs": [],
      "source": [
        "import time\n",
        "\n",
        "remaining = {b.name for b in batches}\n",
        "while remaining:\n",
        "  for batch in batches:\n",
        "    if batch.name not in remaining:\n",
        "      continue\n",
        "\n",
        "    # Poll for the batch status.\n",
        "    batch_job = client.batches.get(name=batch.name)\n",
        "\n",
        "    # Success?\n",
        "    if batch_job.state.name == 'JOB_STATE_SUCCEEDED':\n",
        "      print(f'COMPLETE: {batch.name}')\n",
        "      remaining.remove(batch.name)\n",
        "\n",
        "    # Failure?\n",
        "    elif batch_job.state.name in {'JOB_STATE_FAILED', 'JOB_STATE_CANCELLED'}:\n",
        "      print(f'ERROR: {batch.name}')\n",
        "      remaining.remove(batch.name)\n",
        "\n",
        "    # Otherwise still pending.\n",
        "    time.sleep(30)"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "OBP1KZFRZuC4"
      },
      "source": [
        "When the results are complete, download the resulting data."
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "id": "k7mD2-iIZxnI"
      },
      "outputs": [],
      "source": [
        "result_files = []\n",
        "for i, batch in enumerate(batches, start=1):\n",
        "  batch_job = client.batches.get(name=batch.name)\n",
        "\n",
        "  result_file_name = batch_job.dest.file_name\n",
        "\n",
        "  file_content_bytes = client.files.download(file=result_file_name)\n",
        "  file_content = file_content_bytes.decode('utf-8')\n",
        "\n",
        "  result_file = pathlib.Path(f'results_{i}.jsonl')\n",
        "  result_file.write_text(file_content)\n",
        "\n",
        "  result_files.append(result_file)"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "D2YZcwQUZife"
      },
      "source": [
        "To compare the results you will need an evaluation function. In practice you may evaluate in one of many ways (e.g. by comparison, by using LLMs). This example assumes the model should invoke a function call to be correct.\n",
        "\n",
        "Update `is_correct` to match your evaluation criteria, returning `True` when the result is good, and `False` otherwise."
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "id": "WR4iC1T6bRk0"
      },
      "outputs": [
        {
          "name": "stdout",
          "output_type": "stream",
          "text": [
            "gemini-2.5-flash: 53.33%\n",
            "gemini-2.5-pro: 93.33%\n"
          ]
        }
      ],
      "source": [
        "def is_correct(row) -> bool:\n",
        "  try:\n",
        "    return 'functionCall' in row['response']['candidates'][0]['content']['parts'][-1]\n",
        "  except (KeyError, IndexError):\n",
        "    return False\n",
        "\n",
        "\n",
        "for i, file in enumerate(result_files):\n",
        "  with file.open() as f:\n",
        "    file_score = 0\n",
        "    total_count = 0\n",
        "    for row in f:\n",
        "      data = json.loads(row)\n",
        "\n",
        "      file_score += int(is_correct(data))\n",
        "      total_count += 1\n",
        "\n",
        "    model = models_to_eval[i]\n",
        "    if total_count:\n",
        "      print(f'{model}: {file_score / total_count:.2%}')\n",
        "    else:\n",
        "      print(f'No results found for {model}')"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "m6xWkuXmgK2l"
      },
      "source": [
        "## Next steps\n",
        "\n",
        "For more on Logging and Datasets, check out:\n",
        "* The [Logging and Datasets docs](https://ai.google.dev/gemini-api/docs/logs-datasets)\n",
        "* The [Batch API cookbook](https://github.com/google-gemini/cookbook/blob/main/quickstarts/Batch_mode.ipynb)"
      ]
    }
  ],
  "metadata": {
    "colab": {
      "name": "Datasets.ipynb",
      "toc_visible": true
    },
    "kernelspec": {
      "display_name": "Python 3",
      "name": "python3"
    }
  },
  "nbformat": 4,
  "nbformat_minor": 0
}