Notesclub

created by hec & contributors

terms privacy

Bus Route Alert Regression

bus_route_alert_regression.livemd

Massachusetts Bay Transportation Authority

@mbta

alerts_viewer

Share to X

Share to Bluesky

More notebooks

Bus Route Alert Regression

Mix.install([
  {:nx, "~> 0.5.3"},
  {:scholar, "~> 0.1.0"},
  {:kino_explorer, "~> 0.1.4"},
  {:jason, "~> 1.4"},
  {:kino_vega_lite, "~> 0.1.9"}
])

Setup

require Explorer.DataFrame, as: DF

alias Explorer.Series
alias VegaLite, as: Vl

num_classes = 2

feature_columns = ~w(
  num_vehicles

  max_schedule_adherence
  median_schedule_adherence
  standard_deviation_of_schedule_adherence

  max_instantaneous_headway
  median_instantaneous_headway
  standard_deviation_of_instantaneous_headway

  max_headway_deviation
  median_headway_deviation
  standard_deviation_of_headway_deviation

  route_has_cancelled_trip
)a

category_column = :route_has_current_alert

:ok

Load Data

defmodule InputData do
  @spec numberify(data :: term()) :: number()
  def numberify(true), do: 1
  def numberify(false), do: 0
  def numberify(data), do: data
end

Enter JSON data file.

file_input = Kino.Input.file("Input data file (JSON)")

Read input file and parse the JSON data.

input_data =
  file_input
  |> Kino.Input.read()
  |> Map.get(:file_ref)
  |> Kino.Input.file_path()
  |> File.read!()
  |> Jason.decode!()

Prep Data

Format data as an Explorer DataFrame.

inputs =
  feature_columns
  |> Enum.map(fn feature ->
    values = Enum.map(input_data, &amp;InputData.numberify(&amp;1[Atom.to_string(feature)]))
    {feature, values}
  end)

target_values = Enum.map(input_data, &amp;InputData.numberify(&amp;1[Atom.to_string(category_column)]))

route_data =
  Explorer.DataFrame.new([
    {category_column, target_values}
    | inputs
  ])

Filter out rows with nil data and shuffle.

route_data =
  route_data
  |> DF.drop_nil()
  |> DF.shuffle()

Split data into training and testing groups.

train_cap = floor(DF.n_rows(route_data) * 0.8)

train_df = DF.slice(route_data, 0..(train_cap - 1))
test_df = DF.slice(route_data, train_cap..-1)

"Total: #{DF.n_rows(route_data)}, Training: #{DF.n_rows(train_df)}, Testing: #{DF.n_rows(test_df)}"

Convert training and testing data to Nx tensors.

train_inputs = Nx.stack(train_df[feature_columns], axis: 1)

train_targets = Series.to_tensor(train_df[category_column])

test_inputs = Nx.stack(test_df[feature_columns], axis: 1)

test_targets = Series.to_tensor(test_df[category_column])

Squeeze input features between 0 and 1.

train_inputs = Scholar.Preprocessing.min_max_scale(train_inputs)

test_inputs = Scholar.Preprocessing.min_max_scale(test_inputs)

Model

Train a logistic regression model.

model =
  Scholar.Linear.LogisticRegression.fit(
    train_inputs,
    train_targets,
    num_classes: num_classes,
    learning_rate: 0.1
  )

Test

Use the model to make predictions on the test set.

test_preds = Scholar.Linear.LogisticRegression.predict(model, test_inputs)

Analyze the performance of the model.

Accuracy

accuracy = Scholar.Metrics.accuracy(test_targets, test_preds)

F-measure

f_measure = Scholar.Metrics.f1_score(test_targets, test_preds, num_classes: num_classes)

Recall

recall = Scholar.Metrics.binary_recall(test_targets, test_preds)

Precision

precision = Scholar.Metrics.binary_precision(test_targets, test_preds)

Render test results as a confusion matrix.

Scholar.Metrics.confusion_matrix(test_targets, test_preds, num_classes: num_classes)

Vl.new(title: "Confusion Matrix", width: 860, height: 680)
|> Vl.data_from_values(%{
  predicted: Nx.to_flat_list(test_preds),
  actual: Nx.to_flat_list(test_targets)
})
|> Vl.mark(:rect)
|> Vl.encode_field(:x, "predicted")
|> Vl.encode_field(:y, "actual")
|> Vl.encode(:color, aggregate: :count)

Other notebooks:

Michal Slaski
@michalslaski

livebook_examples

Salary predictions

salary_prediction.livemd

advanced data-science exla axon nx

2022-8-18
Dr. Christian Geuer-Pollmann
@chgeuer

livebook_on_azure

Christian's first LiveBook test

notebook1.livemd

tutorial advanced data-science axon exla nx

2022-8-18
@andyl

elix_util

Examples

vegalite.livemd

tutorial data-science intermediate vega_lite jason

2022-8-18
Chris Martin
@trbngr

elixir_cqrs_tools

Using cqrs_tools with Commanded

commanded.livemd

tutorial advanced gen-server otp commanded cqrs_tools ecto etso jason

2022-8-18
Andrey Marchenko
@anmarchenko

notebooks

Howlongtobeat

howlongtobeat.livemd

tutorial advanced httpoison jason floki kino

2024-11-20
Ryo Wakabayashi
@RyoWakabayashi

elixir-learning

YOLO with EMLX

yolo_with_emlx.livemd

tutorial advanced yolo yolo_fast_nms emlx evision kino

2024-12-27
José Luis
@jleahred

katas

Elixir Axon tutorial

tutorial00.livemd

tutorial advanced data-science nx exla axon

2025-6-14

Back